Made in Russia: дайджест №12 новостей из мира IT, науки, космоса и технологий

В новом выпуске — технологии автоматического распознавания и синтеза речи. Сразу несколько российских команд представили новые решения в области ASR и TTS для русского языка. Кроме того, рассказываем о разработках ВШЭ и «Яндекса» в области ML и робототехники, а также о запуске спутника с живыми организмами, который поможет подготовиться к пилотируемым миссиям в дальний космос.

Опубликован крупнейший в России открытый датасет и синтезатор речи для TTS

Российская команда разработчиков опубликовала один из самых масштабных открытых датасетов для задач синтеза речи (TTS) на русском языке — ESpeech. Общий объем данных превышает 4000 часов речи, охватывающей как многоголосые, так и одноголосые корпуса. Датасет доступен на HuggingFace, а технический отчет — на GitHub.

Что входит в датасет

Многоголосые корпуса:

  • ESpeech-podcasts — 3200 часов.
  • ESpeech-webinars — 850 часов.

Одноголосые записи:

  • ESpeech-igm — 220 часов.
  • ESpeech-buldjat — 54 часа.
  • ESpeech-upvote — 296 часов.
  • ESpeech-tuchniyzhab — 306 часов.

Также команда выложила модели синтеза речи. Они обучены на 10 000 часов записей и, по заявлению авторов, демонстрируют один из лучших результатов среди русскоязычных TTS-моделей с открытым кодом. Доступные версии:

  • ESpeech-TTS-1 [RL] V1/V2 — с дообучением через reinforcement learning
  • ESpeech-TTS-1 PODCASTER [SFT] — на базе подкастов, подходит для спонтанной речи
  • ESpeech-TTS-1 [SFT] — чекпоинты на 95K и 265K шагов

Модели можно протестировать без скачивания: huggingface.co/spaces/Den4ikAI/ESpeech-TTS

Почему это важно:

  • Появился крупнейший открытый датасет русской речи, подходящий для обучения и тестирования моделей TTS.
  • Опубликованы сильные open-source TTS-модели, ориентированные на естественную и спонтанную русскую речь.
  • Создан лидерборд для оценки качества русскоязычных TTS‑систем — важный шаг к стандартизации в области синтеза речи.

ИИ от ВШЭ ускорит поиск решений для сложных задач без больших вычислительных затрат

Исследователи факультета компьютерных наук НИУ ВШЭ представили новый подход к обучению генеративных потоковых нейросетей GFlowNets. Предложенный метод Trajectory Likelihood Maximization (TLM) позволяет значительно повысить эффективность и скорость поиска оптимальных решений при работе с неструктурированными задачами: от генерации молекул до настройки языковых моделей. Работа была представлена на конференции ICLR 2025 и опубликована в открытом доступе на arXiv.

GFlowNets — это алгоритмы, которые шаг за шагом строят сложные объекты (например, молекулы лекарств), ориентируясь не на точные данные, а на заданную функцию вознаграждения. В их основе — взаимодействие двух моделей: «прямой» (создающей объекты) и «обратной» (реконструирующей шаги). Для стабильной и эффективной работы сети важно, чтобы эти модели были сбалансированы, но ранее это требовало больших вычислительных ресурсов и ограничивало гибкость алгоритма.

Мы сделали так, что поиск оптимального решения стал похож на переговоры, в которых обе стороны готовы менять свою позицию. В  задачах с большой степенью неизвестности обратная модель — лишь вспомогательный инструмент, улучшающий результаты прямой модели. Мы искали способ сделать работу обратной модели гибкой и наконец смогли его получить.

Тимофей Грицаев, исследователь Центра глубинного обучения и байесовских методов Института искусственного интеллекта и цифровых наук ФКН НИУ ВШЭ, один из авторов исследования

Команда ВШЭ предложила метод TLM, который позволяет обратной модели адаптироваться в ходе обучения и учитывать поведение прямой модели. Такой «диалог» между моделями увеличивает гибкость системы и ускоряет поиск лучших решений без дополнительных затрат.

Наш метод заметно быстрее просматривает пространство возможных решений и находит больше качественных вариантов. Этот подход в целом сближает генеративные модели с методами обучения с подкреплением. 

Никита Морозов, младший научный сотрудник Центра глубинного обучения и байесовских методов Института искусственного интеллекта и цифровых наук ФКН НИУ ВШЭ

Почему это важно:

  • Метод TLM делает генеративные модели гибче и эффективнее без увеличения вычислительных затрат.
  • Результаты могут быть применимы в фармацевтике, материаловедении и при работе с крупными языковыми моделями.
  • Исследование ВШЭ получило признание международного сообщества и было представлено на ICLR 2025 — одной из ведущих конференций по ML.

Сбер создал модель, которая распознает русскую речь, лучше, чем Whisper

Исследователи Сбера продемонстрировали новый метод предобучения моделей автоматического распознавания речи — HuBERT-CTC, позволяющий существенно повысить точность распознавания русского языка. Разработка уже продемонстрировала снижение количества ошибок на 50% по сравнению с моделью Whisper-large-v3 от OpenAI. Результаты открытия представлены на международной конференции Interspeech 2025 и опубликованы в статье GigaAM: Efficient Self-Supervised Learner for Speech Recognition.

В отличие от существующих подходов (wav2vec2.0, HuBERT, BEST-RQ), которые используют низкоуровневые акустические признаки, новая архитектура обучается на семантических представлениях, извлеченных из CTC-моделей распознавания. Такой подход делает модель более «понимающей» и устойчивой к шумам и вариативности произношения.

Мы переосмыслили сам подход к предобучению моделей, сместив фокус на семантические представления. Это не просто инкрементальное улучшение метрики, а качественный скачок. Новая архитектура демонстрирует высокую эффективность и гибкость. Она ломает барьеры, которые долгое время сдерживали развитие ASR-систем для языков с малым количеством данных. Думаю, что метод HuBERT-CTC может стать новым стандартом для индустрии, ускорит прогресс и заложит основу для следующего поколения голосовых интерфейсов.

Фёдор Минькин, технический директор GigaChat Сбербанка

HuBERT-CTC основан на self-supervised обучении и обладает рядом ключевых преимуществ:

  • работает с неразмеченными аудиоданными, что особенно ценно для языков с дефицитом обучающих ресурсов;
  • масштабируется по размеру модели и объёму данных;
  • использует динамическое маскирование self-attention, что позволяет одной и той же модели функционировать и в онлайн, и офлайн-режиме, а также избежать дополнительных затрат на переобучение.

Почему это важно:

  • Метод HuBERT-CTC снижает ошибки при распознавании речи.
  • Обучение на неразмеченных данных позволяет масштабировать технологию для языков с малым количеством ресурсов.
  • Разработка применима в голосовых помощниках, чат-ботах, контакт-центрах и мультимодальных системах.
  • Открытый код модели доступен для сообщества — его можно адаптировать под свои языки и задачи.

IVA Technologies обновила сервис распознавания речи IVA Terra

Компания IVA Technologies выпустила IVA Terra 2.0 — обновленную версию сервиса на базе ИИ для автоматической расшифровки и анализа аудио- и видеоконференций. Новый релиз улучшил точность, структурированность и стилистическую корректность итоговых текстов, а также снизил нагрузку на вычислительные ресурсы.

Что умеет IVA Terra 2.0:

  • Преобразует аудиопотоки в текст, создает расшифровки и саммари по итогам встреч.
  • Поддерживает многоголосую речь и специализированную лексику.
  • Генерирует субтитры и осуществляет перевод в реальном времени.
  • Создает структурированные выжимки с учетом семантики обсуждений (лекция, совещание, интервью и другие).
  • Обеспечивает безопасность корпоративных данных.

Новые возможности:

  • Семантический анализ на основе больших языковых моделей.
  • Обновленный веб-интерфейс с настройками API, управления лицензиями и экспортом логов.
  • Кастомизация шаблонов протоколов под корпоративные нужды.

Почему это важно:

  • Поддерживает работу с профессиональной лексикой и многоголосой речью, что делает ее удобной для бизнес-встреч, лекций и интервью.
  • Использование семантического анализа и LLM повышает качество итоговых текстов и снижает нагрузку на команды аналитиков.
  • Сервис входит в Реестр отечественного ПО и поддерживает корпоративные требования к безопасности и кастомизации.

«Роскосмос» доставил на орбиту биоспутник «Бион-М» №2 для изучения влияния космоса на живые организмы

На космодроме Байконур состоялся запуск ракеты-носителя «Союз-2.1б», которая вывела на полярную орбиту «Бион‑М» №2 — крупнейшую в России медико-биологическую космическую лабораторию. На борту исследовательского спутника находятся 75 лабораторных мышей, более 1 500 мух дрозофил, культуры клеток, семена и образцы растений, микроорганизмы, бактерии и грибки. Главная задача — изучить, как условия дальнего космоса, включая повышенную радиацию и невесомость, влияют на биологические организмы. 

Миссия продлится около месяца, после чего аппарат вернется на Землю. В течение полета данные собираются при помощи 25 камер в видимом и ИК-диапазонах. Видеозаписи эксперимента суммарно займут более двух лет.

Животные будут находиться в 25 изолированных боксах с различными условиями питания и фармакологической устойчивостью. Планируется провести более 30 экспериментов. По расчетам, за месяц полета мыши получат дозу радиации, эквивалентную трем годам непрерывного космического путешествия человека. 

Также на борту спутника пройдет эксперимент «Метеорит-2»: в теплозащиту космического аппарата встроены фрагменты базальтов с микроорганизмами, чтобы изучить выживаемость жизни при входе в атмосферу — это важно для подтверждения гипотезы панспермии, утверждающей, что жизнь на Землю занесли метеориты. 

Почему это важно:

  • Анализ полученных данных позволит глубже понять воздействие орбитального полета на здоровье и восстановление живых организмов после путешествия.
  • Результаты будут использоваться для подготовки долгосрочных пилотируемых миссий в дальний космос.
  • Результаты экспериментов помогут в подготовке безопасных условий для будущих пилотируемых миссий за пределы низкой околоземной орбиты.

«Яндекс» разработал мобильного робота-комплектовщика

«Яндекс Роботикс» представил прототип первого в России мобильного робота-комплектовщика, который автоматизирует до половины всех операций по сборке заказов на складе. Он самостоятельно перемещается по складу, отбирает коробки на палеты и отвозит их в зону отгрузки — это позволяет снизить физическую нагрузку на сотрудников и ускорить процессы комплектации.

Склад — живой организм. Здесь постоянно появляются новые палеты, перемещаются люди и техника, меняется конфигурация проходов. Процесс перестройки склада требует много времени и ресурсов, поэтому компании рассматривают гибкий, недорогой и эффективный инструмент, который можно быстро включить в операционку — и так же быстро отключить. Поэтому мы решили разработать робота, который выполняет задачи комплектации и при этом вписывается в требования бизнеса.

Валерий Ильин, руководитель сектора разработки мобильных роботов в «Яндекс Роботикс»

Робот оснащён вакуумным манипулятором, системой компьютерного зрения и управляется через платформу Yandex RMS. Он умеет распознавать коробки разных размеров, аккуратно размещать их на палете по принципу «тетриса» и прокладывать безопасный маршрут с учётом препятствий. В будущем в его функциональность добавят упаковку палет и работу со штрихкодами.

Особенности робота:

  • В основе устройства — мобильная база от робота-инвентаризатора, переработанная для задач комплектовки.
  • Робот ориентируется с помощью камер и ИИ, а его маршруты оптимизируются под реальные складские процессы без перестройки инфраструктуры.
  • Ожидается, что робот возьмёт на себя самую тяжёлую часть работы: сотрудники вручную могут перемещать до 10 тонн за смену.
  • Пилотные проекты с российскими ритейлерами запланированы до конца 2026 года.
Мобильная платформа и роботизированная рука UR10

Почему это важно:

  • Разработан первый в России прототип мобильного робота-комплектовщика.
  • Решение снижает физическую нагрузку на людей и автоматизирует ключевые складские операции.
  • Не требует изменений в логистической инфраструктуре, может масштабироваться под нужды ритейла.

Подписывайся на наш Telegram-канал — там мы рассказываем о главных достижениях России в IT, науке, космосе и инженерии. Если у тебя есть интересные новости о российских технологиях, присылай их на support@codenrock.com


    Оставьте заявку, мы подберем для вас лучшие решения для работы с ИТ-сообществом

    Будьте в курсе лучших кейсов хакатонов, ML-турниров, CTF и соревнований по спортивному программированию на Codenrock
    Добавить комментарий