Made in Russia: дайджест №12 новостей из мира IT, науки, космоса и технологий

В новом выпуске — технологии автоматического распознавания и синтеза речи. Сразу несколько российских команд представили новые решения в области ASR и TTS для русского языка. Кроме того, рассказываем о разработках ВШЭ и «Яндекса» в области ML и робототехники, а также о запуске спутника с живыми организмами, который поможет подготовиться к пилотируемым миссиям в дальний космос.

Содержание

Опубликован крупнейший в России открытый датасет и синтезатор речи для TTS
ИИ от ВШЭ ускорит поиск решений для сложных задач без больших вычислительных затрат
Сбер создал модель, которая распознает русскую речь, лучше, чем Whisper
IVA Technologies обновила сервис распознавания речи IVA Terra
«Роскосмос» доставил на орбиту биоспутник «Бион-М» №2 для изучения влияния космоса на живые организмы
«Яндекс» разработал мобильного робота-комплектовщика

Опубликован крупнейший в России открытый датасет и синтезатор речи для TTS

Российская команда разработчиков опубликовала один из самых масштабных открытых датасетов для задач синтеза речи (TTS) на русском языке — ESpeech. Общий объем данных превышает 4000 часов речи, охватывающей как многоголосые, так и одноголосые корпуса. Датасет доступен на HuggingFace, а технический отчет — на GitHub.

Что входит в датасет

Многоголосые корпуса:

ESpeech-podcasts — 3200 часов.
ESpeech-webinars — 850 часов.

Одноголосые записи:

ESpeech-igm — 220 часов.
ESpeech-buldjat — 54 часа.
ESpeech-upvote — 296 часов.
ESpeech-tuchniyzhab — 306 часов.

Также команда выложила модели синтеза речи. Они обучены на 10 000 часов записей и, по заявлению авторов, демонстрируют один из лучших результатов среди русскоязычных TTS-моделей с открытым кодом. Доступные версии:

ESpeech-TTS-1 [RL] V1/V2 — с дообучением через reinforcement learning
ESpeech-TTS-1 PODCASTER [SFT] — на базе подкастов, подходит для спонтанной речи
ESpeech-TTS-1 [SFT] — чекпоинты на 95K и 265K шагов

Модели можно протестировать без скачивания: huggingface.co/spaces/Den4ikAI/ESpeech-TTS

Почему это важно:

Появился крупнейший открытый датасет русской речи, подходящий для обучения и тестирования моделей TTS.
Опубликованы сильные open-source TTS-модели, ориентированные на естественную и спонтанную русскую речь.
Создан лидерборд для оценки качества русскоязычных TTS‑систем — важный шаг к стандартизации в области синтеза речи.

ИИ от ВШЭ ускорит поиск решений для сложных задач без больших вычислительных затрат

Исследователи факультета компьютерных наук НИУ ВШЭ представили новый подход к обучению генеративных потоковых нейросетей GFlowNets. Предложенный метод Trajectory Likelihood Maximization (TLM) позволяет значительно повысить эффективность и скорость поиска оптимальных решений при работе с неструктурированными задачами: от генерации молекул до настройки языковых моделей. Работа была представлена на конференции ICLR 2025 и опубликована в открытом доступе на arXiv.

GFlowNets — это алгоритмы, которые шаг за шагом строят сложные объекты (например, молекулы лекарств), ориентируясь не на точные данные, а на заданную функцию вознаграждения. В их основе — взаимодействие двух моделей: «прямой» (создающей объекты) и «обратной» (реконструирующей шаги). Для стабильной и эффективной работы сети важно, чтобы эти модели были сбалансированы, но ранее это требовало больших вычислительных ресурсов и ограничивало гибкость алгоритма.

Мы сделали так, что поиск оптимального решения стал похож на переговоры, в которых обе стороны готовы менять свою позицию. В задачах с большой степенью неизвестности обратная модель — лишь вспомогательный инструмент, улучшающий результаты прямой модели. Мы искали способ сделать работу обратной модели гибкой и наконец смогли его получить.
Тимофей Грицаев, исследователь Центра глубинного обучения и байесовских методов Института искусственного интеллекта и цифровых наук ФКН НИУ ВШЭ, один из авторов исследования

Команда ВШЭ предложила метод TLM, который позволяет обратной модели адаптироваться в ходе обучения и учитывать поведение прямой модели. Такой «диалог» между моделями увеличивает гибкость системы и ускоряет поиск лучших решений без дополнительных затрат.

Наш метод заметно быстрее просматривает пространство возможных решений и находит больше качественных вариантов. Этот подход в целом сближает генеративные модели с методами обучения с подкреплением.
Никита Морозов, младший научный сотрудник Центра глубинного обучения и байесовских методов Института искусственного интеллекта и цифровых наук ФКН НИУ ВШЭ

Почему это важно:

Метод TLM делает генеративные модели гибче и эффективнее без увеличения вычислительных затрат.
Результаты могут быть применимы в фармацевтике, материаловедении и при работе с крупными языковыми моделями.
Исследование ВШЭ получило признание международного сообщества и было представлено на ICLR 2025 — одной из ведущих конференций по ML.

Сбер создал модель, которая распознает русскую речь, лучше, чем Whisper

Исследователи Сбера продемонстрировали новый метод предобучения моделей автоматического распознавания речи — HuBERT-CTC, позволяющий существенно повысить точность распознавания русского языка. Разработка уже продемонстрировала снижение количества ошибок на 50% по сравнению с моделью Whisper-large-v3 от OpenAI. Результаты открытия представлены на международной конференции Interspeech 2025 и опубликованы в статье GigaAM: Efficient Self-Supervised Learner for Speech Recognition.

В отличие от существующих подходов (wav2vec2.0, HuBERT, BEST-RQ), которые используют низкоуровневые акустические признаки, новая архитектура обучается на семантических представлениях, извлеченных из CTC-моделей распознавания. Такой подход делает модель более «понимающей» и устойчивой к шумам и вариативности произношения.

Мы переосмыслили сам подход к предобучению моделей, сместив фокус на семантические представления. Это не просто инкрементальное улучшение метрики, а качественный скачок. Новая архитектура демонстрирует высокую эффективность и гибкость. Она ломает барьеры, которые долгое время сдерживали развитие ASR-систем для языков с малым количеством данных. Думаю, что метод HuBERT-CTC может стать новым стандартом для индустрии, ускорит прогресс и заложит основу для следующего поколения голосовых интерфейсов.
Фёдор Минькин, технический директор GigaChat Сбербанка

HuBERT-CTC основан на self-supervised обучении и обладает рядом ключевых преимуществ:

работает с неразмеченными аудиоданными, что особенно ценно для языков с дефицитом обучающих ресурсов;
масштабируется по размеру модели и объёму данных;
использует динамическое маскирование self-attention, что позволяет одной и той же модели функционировать и в онлайн, и офлайн-режиме, а также избежать дополнительных затрат на переобучение.

Почему это важно:

Метод HuBERT-CTC снижает ошибки при распознавании речи.
Обучение на неразмеченных данных позволяет масштабировать технологию для языков с малым количеством ресурсов.
Разработка применима в голосовых помощниках, чат-ботах, контакт-центрах и мультимодальных системах.
Открытый код модели доступен для сообщества — его можно адаптировать под свои языки и задачи.

IVA Technologies обновила сервис распознавания речи IVA Terra

Компания IVA Technologies выпустила IVA Terra 2.0 — обновленную версию сервиса на базе ИИ для автоматической расшифровки и анализа аудио- и видеоконференций. Новый релиз улучшил точность, структурированность и стилистическую корректность итоговых текстов, а также снизил нагрузку на вычислительные ресурсы.

Что умеет IVA Terra 2.0:

Преобразует аудиопотоки в текст, создает расшифровки и саммари по итогам встреч.
Поддерживает многоголосую речь и специализированную лексику.
Генерирует субтитры и осуществляет перевод в реальном времени.
Создает структурированные выжимки с учетом семантики обсуждений (лекция, совещание, интервью и другие).
Обеспечивает безопасность корпоративных данных.

Новые возможности:

Семантический анализ на основе больших языковых моделей.
Обновленный веб-интерфейс с настройками API, управления лицензиями и экспортом логов.
Кастомизация шаблонов протоколов под корпоративные нужды.

Почему это важно:

Поддерживает работу с профессиональной лексикой и многоголосой речью, что делает ее удобной для бизнес-встреч, лекций и интервью.
Использование семантического анализа и LLM повышает качество итоговых текстов и снижает нагрузку на команды аналитиков.
Сервис входит в Реестр отечественного ПО и поддерживает корпоративные требования к безопасности и кастомизации.

«Роскосмос» доставил на орбиту биоспутник «Бион-М» №2 для изучения влияния космоса на живые организмы

На космодроме Байконур состоялся запуск ракеты-носителя «Союз-2.1б», которая вывела на полярную орбиту «Бион‑М» №2 — крупнейшую в России медико-биологическую космическую лабораторию. На борту исследовательского спутника находятся 75 лабораторных мышей, более 1 500 мух дрозофил, культуры клеток, семена и образцы растений, микроорганизмы, бактерии и грибки. Главная задача — изучить, как условия дальнего космоса, включая повышенную радиацию и невесомость, влияют на биологические организмы.

Миссия продлится около месяца, после чего аппарат вернется на Землю. В течение полета данные собираются при помощи 25 камер в видимом и ИК-диапазонах. Видеозаписи эксперимента суммарно займут более двух лет.

Животные будут находиться в 25 изолированных боксах с различными условиями питания и фармакологической устойчивостью. Планируется провести более 30 экспериментов. По расчетам, за месяц полета мыши получат дозу радиации, эквивалентную трем годам непрерывного космического путешествия человека.

Также на борту спутника пройдет эксперимент «Метеорит-2»: в теплозащиту космического аппарата встроены фрагменты базальтов с микроорганизмами, чтобы изучить выживаемость жизни при входе в атмосферу — это важно для подтверждения гипотезы панспермии, утверждающей, что жизнь на Землю занесли метеориты.

Почему это важно:

Анализ полученных данных позволит глубже понять воздействие орбитального полета на здоровье и восстановление живых организмов после путешествия.
Результаты будут использоваться для подготовки долгосрочных пилотируемых миссий в дальний космос.
Результаты экспериментов помогут в подготовке безопасных условий для будущих пилотируемых миссий за пределы низкой околоземной орбиты.

«Яндекс» разработал мобильного робота-комплектовщика

«Яндекс Роботикс» представил прототип первого в России мобильного робота-комплектовщика, который автоматизирует до половины всех операций по сборке заказов на складе. Он самостоятельно перемещается по складу, отбирает коробки на палеты и отвозит их в зону отгрузки — это позволяет снизить физическую нагрузку на сотрудников и ускорить процессы комплектации.

Склад — живой организм. Здесь постоянно появляются новые палеты, перемещаются люди и техника, меняется конфигурация проходов. Процесс перестройки склада требует много времени и ресурсов, поэтому компании рассматривают гибкий, недорогой и эффективный инструмент, который можно быстро включить в операционку — и так же быстро отключить. Поэтому мы решили разработать робота, который выполняет задачи комплектации и при этом вписывается в требования бизнеса.
Валерий Ильин, руководитель сектора разработки мобильных роботов в «Яндекс Роботикс»

Робот оснащён вакуумным манипулятором, системой компьютерного зрения и управляется через платформу Yandex RMS. Он умеет распознавать коробки разных размеров, аккуратно размещать их на палете по принципу «тетриса» и прокладывать безопасный маршрут с учётом препятствий. В будущем в его функциональность добавят упаковку палет и работу со штрихкодами.

Особенности робота:

В основе устройства — мобильная база от робота-инвентаризатора, переработанная для задач комплектовки.
Робот ориентируется с помощью камер и ИИ, а его маршруты оптимизируются под реальные складские процессы без перестройки инфраструктуры.
Ожидается, что робот возьмёт на себя самую тяжёлую часть работы: сотрудники вручную могут перемещать до 10 тонн за смену.
Пилотные проекты с российскими ритейлерами запланированы до конца 2026 года.

Мобильная платформа и роботизированная рука UR10

Почему это важно:

Разработан первый в России прототип мобильного робота-комплектовщика.
Решение снижает физическую нагрузку на людей и автоматизирует ключевые складские операции.
Не требует изменений в логистической инфраструктуре, может масштабироваться под нужды ритейла.

Подписывайся на наш Telegram-канал — там мы рассказываем о главных достижениях России в IT, науке, космосе и инженерии. Если у тебя есть интересные новости о российских технологиях, присылай их на support@codenrock.com.

Опубликован крупнейший в России открытый датасет и синтезатор речи для TTS

ИИ от ВШЭ ускорит поиск решений для сложных задач без больших вычислительных затрат

Сбер создал модель, которая распознает русскую речь, лучше, чем Whisper

IVA Technologies обновила сервис распознавания речи IVA Terra

«Роскосмос» доставил на орбиту биоспутник «Бион-М» №2 для изучения влияния космоса на живые организмы

«Яндекс» разработал мобильного робота-комплектовщика

Оставьте заявку, мы подберем для вас лучшие решения для работы с ИТ-сообществом