
В новом выпуске — технологии автоматического распознавания и синтеза речи. Сразу несколько российских команд представили новые решения в области ASR и TTS для русского языка. Кроме того, рассказываем о разработках ВШЭ и «Яндекса» в области ML и робототехники, а также о запуске спутника с живыми организмами, который поможет подготовиться к пилотируемым миссиям в дальний космос.
- Опубликован крупнейший в России открытый датасет и синтезатор речи для TTS
- ИИ от ВШЭ ускорит поиск решений для сложных задач без больших вычислительных затрат
- Сбер создал модель, которая распознает русскую речь, лучше, чем Whisper
- IVA Technologies обновила сервис распознавания речи IVA Terra
- «Роскосмос» доставил на орбиту биоспутник «Бион-М» №2 для изучения влияния космоса на живые организмы
- «Яндекс» разработал мобильного робота-комплектовщика
Опубликован крупнейший в России открытый датасет и синтезатор речи для TTS
Российская команда разработчиков опубликовала один из самых масштабных открытых датасетов для задач синтеза речи (TTS) на русском языке — ESpeech. Общий объем данных превышает 4000 часов речи, охватывающей как многоголосые, так и одноголосые корпуса. Датасет доступен на HuggingFace, а технический отчет — на GitHub.
Что входит в датасет
Многоголосые корпуса:
- ESpeech-podcasts — 3200 часов.
- ESpeech-webinars — 850 часов.
Одноголосые записи:
- ESpeech-igm — 220 часов.
- ESpeech-buldjat — 54 часа.
- ESpeech-upvote — 296 часов.
- ESpeech-tuchniyzhab — 306 часов.
Также команда выложила модели синтеза речи. Они обучены на 10 000 часов записей и, по заявлению авторов, демонстрируют один из лучших результатов среди русскоязычных TTS-моделей с открытым кодом. Доступные версии:
- ESpeech-TTS-1 [RL] V1/V2 — с дообучением через reinforcement learning
- ESpeech-TTS-1 PODCASTER [SFT] — на базе подкастов, подходит для спонтанной речи
- ESpeech-TTS-1 [SFT] — чекпоинты на 95K и 265K шагов
Модели можно протестировать без скачивания: huggingface.co/spaces/Den4ikAI/ESpeech-TTS
Почему это важно:
- Появился крупнейший открытый датасет русской речи, подходящий для обучения и тестирования моделей TTS.
- Опубликованы сильные open-source TTS-модели, ориентированные на естественную и спонтанную русскую речь.
- Создан лидерборд для оценки качества русскоязычных TTS‑систем — важный шаг к стандартизации в области синтеза речи.
ИИ от ВШЭ ускорит поиск решений для сложных задач без больших вычислительных затрат
Исследователи факультета компьютерных наук НИУ ВШЭ представили новый подход к обучению генеративных потоковых нейросетей GFlowNets. Предложенный метод Trajectory Likelihood Maximization (TLM) позволяет значительно повысить эффективность и скорость поиска оптимальных решений при работе с неструктурированными задачами: от генерации молекул до настройки языковых моделей. Работа была представлена на конференции ICLR 2025 и опубликована в открытом доступе на arXiv.

GFlowNets — это алгоритмы, которые шаг за шагом строят сложные объекты (например, молекулы лекарств), ориентируясь не на точные данные, а на заданную функцию вознаграждения. В их основе — взаимодействие двух моделей: «прямой» (создающей объекты) и «обратной» (реконструирующей шаги). Для стабильной и эффективной работы сети важно, чтобы эти модели были сбалансированы, но ранее это требовало больших вычислительных ресурсов и ограничивало гибкость алгоритма.
Мы сделали так, что поиск оптимального решения стал похож на переговоры, в которых обе стороны готовы менять свою позицию. В задачах с большой степенью неизвестности обратная модель — лишь вспомогательный инструмент, улучшающий результаты прямой модели. Мы искали способ сделать работу обратной модели гибкой и наконец смогли его получить.
Тимофей Грицаев, исследователь Центра глубинного обучения и байесовских методов Института искусственного интеллекта и цифровых наук ФКН НИУ ВШЭ, один из авторов исследования
Команда ВШЭ предложила метод TLM, который позволяет обратной модели адаптироваться в ходе обучения и учитывать поведение прямой модели. Такой «диалог» между моделями увеличивает гибкость системы и ускоряет поиск лучших решений без дополнительных затрат.
Наш метод заметно быстрее просматривает пространство возможных решений и находит больше качественных вариантов. Этот подход в целом сближает генеративные модели с методами обучения с подкреплением.
Никита Морозов, младший научный сотрудник Центра глубинного обучения и байесовских методов Института искусственного интеллекта и цифровых наук ФКН НИУ ВШЭ
Почему это важно:
- Метод TLM делает генеративные модели гибче и эффективнее без увеличения вычислительных затрат.
- Результаты могут быть применимы в фармацевтике, материаловедении и при работе с крупными языковыми моделями.
- Исследование ВШЭ получило признание международного сообщества и было представлено на ICLR 2025 — одной из ведущих конференций по ML.
Сбер создал модель, которая распознает русскую речь, лучше, чем Whisper
Исследователи Сбера продемонстрировали новый метод предобучения моделей автоматического распознавания речи — HuBERT-CTC, позволяющий существенно повысить точность распознавания русского языка. Разработка уже продемонстрировала снижение количества ошибок на 50% по сравнению с моделью Whisper-large-v3 от OpenAI. Результаты открытия представлены на международной конференции Interspeech 2025 и опубликованы в статье GigaAM: Efficient Self-Supervised Learner for Speech Recognition.
В отличие от существующих подходов (wav2vec2.0, HuBERT, BEST-RQ), которые используют низкоуровневые акустические признаки, новая архитектура обучается на семантических представлениях, извлеченных из CTC-моделей распознавания. Такой подход делает модель более «понимающей» и устойчивой к шумам и вариативности произношения.
Мы переосмыслили сам подход к предобучению моделей, сместив фокус на семантические представления. Это не просто инкрементальное улучшение метрики, а качественный скачок. Новая архитектура демонстрирует высокую эффективность и гибкость. Она ломает барьеры, которые долгое время сдерживали развитие ASR-систем для языков с малым количеством данных. Думаю, что метод HuBERT-CTC может стать новым стандартом для индустрии, ускорит прогресс и заложит основу для следующего поколения голосовых интерфейсов.
Фёдор Минькин, технический директор GigaChat Сбербанка
HuBERT-CTC основан на self-supervised обучении и обладает рядом ключевых преимуществ:
- работает с неразмеченными аудиоданными, что особенно ценно для языков с дефицитом обучающих ресурсов;
- масштабируется по размеру модели и объёму данных;
- использует динамическое маскирование self-attention, что позволяет одной и той же модели функционировать и в онлайн, и офлайн-режиме, а также избежать дополнительных затрат на переобучение.
Почему это важно:
- Метод HuBERT-CTC снижает ошибки при распознавании речи.
- Обучение на неразмеченных данных позволяет масштабировать технологию для языков с малым количеством ресурсов.
- Разработка применима в голосовых помощниках, чат-ботах, контакт-центрах и мультимодальных системах.
- Открытый код модели доступен для сообщества — его можно адаптировать под свои языки и задачи.
IVA Technologies обновила сервис распознавания речи IVA Terra
Компания IVA Technologies выпустила IVA Terra 2.0 — обновленную версию сервиса на базе ИИ для автоматической расшифровки и анализа аудио- и видеоконференций. Новый релиз улучшил точность, структурированность и стилистическую корректность итоговых текстов, а также снизил нагрузку на вычислительные ресурсы.

Что умеет IVA Terra 2.0:
- Преобразует аудиопотоки в текст, создает расшифровки и саммари по итогам встреч.
- Поддерживает многоголосую речь и специализированную лексику.
- Генерирует субтитры и осуществляет перевод в реальном времени.
- Создает структурированные выжимки с учетом семантики обсуждений (лекция, совещание, интервью и другие).
- Обеспечивает безопасность корпоративных данных.
Новые возможности:
- Семантический анализ на основе больших языковых моделей.
- Обновленный веб-интерфейс с настройками API, управления лицензиями и экспортом логов.
- Кастомизация шаблонов протоколов под корпоративные нужды.
Почему это важно:
- Поддерживает работу с профессиональной лексикой и многоголосой речью, что делает ее удобной для бизнес-встреч, лекций и интервью.
- Использование семантического анализа и LLM повышает качество итоговых текстов и снижает нагрузку на команды аналитиков.
- Сервис входит в Реестр отечественного ПО и поддерживает корпоративные требования к безопасности и кастомизации.
«Роскосмос» доставил на орбиту биоспутник «Бион-М» №2 для изучения влияния космоса на живые организмы
На космодроме Байконур состоялся запуск ракеты-носителя «Союз-2.1б», которая вывела на полярную орбиту «Бион‑М» №2 — крупнейшую в России медико-биологическую космическую лабораторию. На борту исследовательского спутника находятся 75 лабораторных мышей, более 1 500 мух дрозофил, культуры клеток, семена и образцы растений, микроорганизмы, бактерии и грибки. Главная задача — изучить, как условия дальнего космоса, включая повышенную радиацию и невесомость, влияют на биологические организмы.

Миссия продлится около месяца, после чего аппарат вернется на Землю. В течение полета данные собираются при помощи 25 камер в видимом и ИК-диапазонах. Видеозаписи эксперимента суммарно займут более двух лет.
Животные будут находиться в 25 изолированных боксах с различными условиями питания и фармакологической устойчивостью. Планируется провести более 30 экспериментов. По расчетам, за месяц полета мыши получат дозу радиации, эквивалентную трем годам непрерывного космического путешествия человека.

Также на борту спутника пройдет эксперимент «Метеорит-2»: в теплозащиту космического аппарата встроены фрагменты базальтов с микроорганизмами, чтобы изучить выживаемость жизни при входе в атмосферу — это важно для подтверждения гипотезы панспермии, утверждающей, что жизнь на Землю занесли метеориты.
Почему это важно:
- Анализ полученных данных позволит глубже понять воздействие орбитального полета на здоровье и восстановление живых организмов после путешествия.
- Результаты будут использоваться для подготовки долгосрочных пилотируемых миссий в дальний космос.
- Результаты экспериментов помогут в подготовке безопасных условий для будущих пилотируемых миссий за пределы низкой околоземной орбиты.
«Яндекс» разработал мобильного робота-комплектовщика
«Яндекс Роботикс» представил прототип первого в России мобильного робота-комплектовщика, который автоматизирует до половины всех операций по сборке заказов на складе. Он самостоятельно перемещается по складу, отбирает коробки на палеты и отвозит их в зону отгрузки — это позволяет снизить физическую нагрузку на сотрудников и ускорить процессы комплектации.

Склад — живой организм. Здесь постоянно появляются новые палеты, перемещаются люди и техника, меняется конфигурация проходов. Процесс перестройки склада требует много времени и ресурсов, поэтому компании рассматривают гибкий, недорогой и эффективный инструмент, который можно быстро включить в операционку — и так же быстро отключить. Поэтому мы решили разработать робота, который выполняет задачи комплектации и при этом вписывается в требования бизнеса.
Валерий Ильин, руководитель сектора разработки мобильных роботов в «Яндекс Роботикс»
Робот оснащён вакуумным манипулятором, системой компьютерного зрения и управляется через платформу Yandex RMS. Он умеет распознавать коробки разных размеров, аккуратно размещать их на палете по принципу «тетриса» и прокладывать безопасный маршрут с учётом препятствий. В будущем в его функциональность добавят упаковку палет и работу со штрихкодами.
Особенности робота:
- В основе устройства — мобильная база от робота-инвентаризатора, переработанная для задач комплектовки.
- Робот ориентируется с помощью камер и ИИ, а его маршруты оптимизируются под реальные складские процессы без перестройки инфраструктуры.
- Ожидается, что робот возьмёт на себя самую тяжёлую часть работы: сотрудники вручную могут перемещать до 10 тонн за смену.
- Пилотные проекты с российскими ритейлерами запланированы до конца 2026 года.

Почему это важно:
- Разработан первый в России прототип мобильного робота-комплектовщика.
- Решение снижает физическую нагрузку на людей и автоматизирует ключевые складские операции.
- Не требует изменений в логистической инфраструктуре, может масштабироваться под нужды ритейла.
Подписывайся на наш Telegram-канал — там мы рассказываем о главных достижениях России в IT, науке, космосе и инженерии. Если у тебя есть интересные новости о российских технологиях, присылай их на support@codenrock.com.








