Кейс Ozon E-CUP 2025: как 2900+ инженеров создали ML-решения для миллионов пользователей

Коротко

На Ozon E-CUP 2025 зарегистрировались 2984 участника, 1221 команда прислала 453 решения; призовой фонд — 7,2 млн рублей.
Три трека на реальных данных маркетплейса: рекомендации покупок, автопланирование курьеров и выявление поддельных товаров.
Codenrock обеспечил ML-инфраструктуру: GitLab-репозитории с CI/CD, контейнерный запуск решений, автоскоринг и лидерборд в реальном времени.
Команды работали с датасетами на десятки гигабайт целиком внутри платформы, без внешних сервисов.
В треке рекомендаций участники работали с фэшн-категорией Ozon, где ассортимент превышает 150 млн товаров.

Кейс Ozon E-CUP 2025: как 2900+ инженеров создали ML-решения для миллионов пользователей

Команда Ozon Tech провела крупнейшее соревнование по машинному обучению благодаря поддержке платформы Codenrock. На E-CUP 2025 участники решали три задачи, основанные на реальных потребностях e-commerce отрасли и данных от ведущего маркетплейса России:

Рекомендации: предсказание следующей покупки пользователя;
Логистика: автопланирование курьеров;
Контроль качества: автоматическое выявление поддельных товаров.

Финал прошёл на IT-конференции E-CODE, где команды из ТОП-5 по каждому треку представили свои проекты экспертам Ozon Tech.

Команда Codenrock занималась организацией соревновательной части, подготовкой инфраструктуры, маркетинговой кампанией и работой с участниками. Подробнее о E-CUP 2025 — в этом кейсе.

Питчинг финалистов

Содержание

E-CUP 2025: главное
Подготовка к проведению
Разработка задач
Инфраструктура ML-соревнования
Трек 1. Рекомендации: предсказание следующей покупки пользователя
Трек 2. Логистика: автопланирование курьеров
Трек 3. Контроль качества: автоматическое выявление поддельных товаров
Привлечение и удержание участников
Работа с участниками
Обучающие курсы
Итоги соревнования
Конференция E-CODE
Эксперты соревнования
Отзывы участников

E-CUP 2025: главное

Мероприятие прошло в формате ML-соревнования — Ozon Tech предоставил участникам данные для работы, а команды обучали модели и соревновались в достижении целевой метрики. Те, кто справился с задачей лучше всего, защитили свои решения на питчинге, по итогам которого эксперты Ozon Tech определили победителей.

Главные цифры E-CUP 2025:

2984 зарегистрированный участник.
1221 команда.
453 присланных решений.
15 команд финалистов.
Призовой фонд — 7 200 000 рублей.

Подготовка к проведению

Платформа Codenrock обеспечила полную инфраструктуру для соревнования: хранение и раздачу объёмных датасетов, автоматический скоринг и подсчёт итоговых баллов. Для решения командам предоставлялись репозитории для работы в Gitlab от Codenrock, с преднастроенной структурой проекта и CI/CD. Это помогло организаторам автоматизировать сбор и проверку решений, а участники смогли сфокусироваться на ML-задачах.

Разработка задач

Эксперты Codenrock адаптировали реальные производственные кейсы под формат ML-соревнования. Рекомендации, логистика и контроль качества — три направления, где машинное обучение уже активно применяется в e-commerce. Задача специалистов Codenrock заключалась в том, чтобы перевести эти процессы в понятные и соревновательные задачи, сохранив их прикладную ценность и техническую сложность.

Эксперты платформы отвечали за полный цикл методологической подготовки:

анализ исходных данных;
проработку архитектуры пайплайнов;
разработку baseline-решений;
выбор метрик, критериев оценки и сценариев проверки проектов.

Специалисты Codenrock помогли превратить внутренние документы Ozon Tech в понятные и мотивирующие для участников описания с чёткими ограничениями и прозрачными критериями оценки.

Кейсы максимально приближены к реальным производственным задачам. Участники работают с данными, с которыми мы имеем дело ежедневно — большие объемы, разреженность, шум в данных. Мы старались максимально сохранить реалистичность данных — оставили естественные дисбалансы, сезонные паттерны, разреженность пользовательских профилей. Данные анонимизированы, но структурно очень близки к тем, что используются в реальных условиях.
Илья Осиновсков, руководитель отдела разработки «Эффективность рекомендаций»

Кроме методологии, команда платформы подготовила скрипты расчёта метрик, автоматизировала проверку файлов и валидацию форматов, протестировала корректность базовых решений и корректность датасетов.

Напрямую перенести решение в продакшн едва ли получится, так как мы предлагаем весьма упрощенный вариант задачи. Но, конечно, мы всегда смотрим вокруг в поиске новых идей и свежих взглядов. Не будет секретом, если я скажу, что E-CUP для меня — площадка для поиска таких идей.
Егор Осипов, руководитель отдела разработки «Маршрутизация курьеров» и «Операционная аналитика»

Инфраструктура ML-соревнования

Codenrock предоставил Ozon Tech готовую ML-среду. Инфраструктура платформы позволяет участникам решать задачи без ручной настройки окружения и внешних зависимостей. Все вычисления происходят внутри платформы, а код и данные изолированы и защищены. Ключевые возможности платформы:

автоматический скоринг и обновление лидерборда в реальном времени;
контейнерное исполнение решений для воспроизведения окружения и контроля за потребляемыми ресурсами;
интеграция с Gitlab для предоставления участникам понятной и привычной среды разработки и автоматизации сборки и проверки решений;
проверка репозиториев на наличие исходников и конфигураций;
безопасное хранение больших файлов.

Каждой команде предоставлялся собственный репозиторий, интегрированный с GitLab. Это позволило хранить весь исходный код, baseline-решения, скрипты обучения и инференса, а также фиксировать изменения через систему версионирования. Организаторы могут запустить любое решение даже спустя месяцы после окончания соревнования.

Работа с большими объёмами данных реализована через распределённое хранение файлов. На E-CUP команды работали с датасетами на десятки гигабайт данных. Несмотря на такой масштаб, участники могли загружать и обрабатывать данные без внешних сервисов, полностью полагаясь на вычислительные ресурсы Codenrock.

Результаты всех загрузок обрабатываются автоматически: платформа пересчитывает метрики и в режиме реального времени обновляет лидерборд. Это позволяет командам сразу видеть динамику и корректировать подход. После завершения онлайн-этапа инфраструктура обеспечивает автоматическую проверку решений — система запускает контейнеры, сверяет результаты и формирует приватный рейтинг для финальной проверки экспертами.

В результате совместной работы экспертов Ozon Tech и команды Codenrock E-CUP 2025 получил три трека.

Трек 1. Рекомендации: предсказание следующей покупки пользователя

Актуальность. Ассортимент фэшн-категории на Ozon превышает 150 миллионов товаров в категории Apparel: одежда, обувь, аксессуары. При таком объёме покупателям сложно быстро находить нужные вещи: лента рекомендаций становится перегруженной, а процесс выбора — долгим. Персональные рекомендации позволяют решать эту проблему, помогая экономить время и получать релевантные подборки.

Мы выбрали Apparel, потому что это одна из самых распространённых категорий для рекомендаций. При этом у неё есть уникальные особенности: сезонность, размерная сетка, стилевые предпочтения, цветовая гамма. Также здесь сильно влияют тренды.
Илья Осиновсков, руководитель отдела разработки «Эффективность рекомендаций»

Задача. Разработать масштабируемую рекомендательную систему, которая по истории действий пользователя в категории Apparel предсказывает, какие товары он купит следующими, и формирует персональный топ-100 рекомендаций.

Система должна:

анализировать события и учитывать хронологию действий;
интегрировать товары с атрибутами и CLIP-эмбеддингами изображений, обученными на фэшн-сегменте;
использовать заказы и иерархию категорий для уточнения контекста;
строить end-to-end пайплайн — от подготовки данных до инференса;
обеспечивать работу с большими parquet-файлами.

Цель. Создать рекомендательную модель, способную масштабироваться до десятков миллионов пользователей и сотен миллионов товаров, при этом выдающую персональные и точные предсказания следующей покупки.

Ключевые элементы решения:

Модель рекомендательной системы (lightFM, BERT4Rec, SASRec, LightGCN или собственный гибрид).
Feature engineering по временным, поведенческим и контентным признакам.
Обработка CLIP-эмбеддингов изображений для учёта визуального сходства товаров.
Корректная временная валидация.
Репозиторий с воспроизводимым окружением (Poetry, pyproject.toml).

Датасет. Для работы над задачей все команды получили:

История заказов — более 19 миллионов записей.
Каталог товаров с атрибутами и CLIP-эмбеддингами 6,4 миллиона млн позиций.
Трекинг действий пользователей — примерно 1,6 млрд событий.
Иерархия 7 тысяч категорий
Тестовая выборка пользователей.

Ожидаемый результат для бизнеса. Модели финалистов помогут улучшить релевантность рекомендаций на Ozon, сократить время выбора и повысить удовлетворённость клиентов, обеспечивая рост конверсии и среднего чека.

Трек 2. Логистика: автопланирование курьеров

Актуальность. Ежедневно курьеры Ozon доставляют миллионы заказов по всей стране. Маршруты формируются с учётом микрополигонов — мелких областей, которые могут представлять собой квартал, район или даже один дом. Эти зоны связаны с логикой сортировки посылок на сортцентрах и сильно влияют на эффективность последней мили.

Но классические алгоритмы маршрутизации ограниченно масштабируются, не полностью учитывают персональные особенности курьеров и городских микрорайонов, а при объёме данных Ozon — десятки тысяч заказов — работают недостаточно быстро.

Задача автопланирования в E-CUP отличается от классических VRP-задач (Vehicle Routing Problem, задача маршрутизации транспорта). Мало кто в России может похвастаться таким количеством точек заказов, доставляемых из одного места, а значит, и планируемых в рамках одной задачи. Объём и масштабируемость алгоритмов планирования становятся здесь критически важными.
Егор Осипов, руководитель отдела разработки «Маршрутизация курьеров» и «Операционная аналитика»

Задача. Разработать алгоритм маршрутизации, который распределяет более 20 000 заказов между 240 курьерами так, чтобы:

каждый курьер обслуживал заказы с учётом индивидуального времени обслуживания по микрополигонам;
ни один курьер не работал дольше 12 часов;
решение масштабировалось и укладывалось в ограничение по времени инференса менее часа.

Цель. Построить эффективный алгоритм планирования маршрутов, который минимизирует суммарное время работы всех курьеров и обеспечивает равномерную нагрузку между ними.

Ключевые элементы решения:

Эвристический или точный алгоритм.
Учет микрополигонов (MpId): все заказы из одного MpId обслуживаются одним курьером.
Индивидуальные сервис-таймы курьеров по районам: зависимость скорости от опыта.
Ограничение по длительности маршрута.

Датасет. Для работы над задачей все команды получили:

20 160 заказов с координатами и идентификаторами микрополигонов;
240 курьеров с персональными сервис-таймами по районам и рабочими окнами;
400 миллионов пар «точка ↔ точка» с предрасчитанными длительностями.

Ожидаемый результат для бизнеса. Алгоритмы помогут Ozon рациональнее планировать доставку, снижать издержки и нагрузку на курьеров, улучшая качество и скорость «последней мили» — ключевого этапа клиентского опыта.

Трек 3. Контроль качества: автоматическое выявление поддельных товаров

Актуальность. Ozon ежедневно публикует миллионы новых товаров. Чтобы защитить пользователей и бренд, Ozon Tech внедряет ML-алгоритмы, способные автоматически выявлять подозрительные позиции ещё на этапе размещения.

Автоматическое выявление поддельных товаров на платформе Ozon связано с рядом серьёзных трудностей. Самая большая из них кроется в самой сути задачи: контрафактные товары очень сильно мимикрируют под оригинальные, что делает их поиск по-настоящему сложным.
Артём Коньшин, старший математик-разработчик группы разработки «ML контроль качества»

Задача. Разработать мультимодальную ML-систему, которая по описанию, изображениям и атрибутам товара определяет, является ли он контрафактным или оригинальным. Модель должна объединять признаки из трёх источников — текст, изображения и табличные поля — и выдавать финальное предсказание с вероятностью класса.

Цель. Создать ML-пайплайн, который автоматически классифицирует товары и повышает качество каталога, помогая предотвращать размещение поддельной продукции.

Ключевые элементы решения:

Объединение трёх модальностей: текстовое описание, изображения, табличные признаки.
Использование мультимодальных архитектур: CLIP, ViT, BERT и другие.
Полный пайплайн в одном запуске — подготовка данных, обучение, инференс.

Датасет. Для работы над задачей все команды получили:

табличные данные с атрибутами и описаниями;
изображения товаров;
архив с данными.

Ожидаемый результат для бизнеса. Решения помогут Ozon автоматически обнаруживать поддельные товары, что сократит ручную модерацию.

Привлечение и удержание участников

E-CUP 2025 — самое масштабное ML-соревнование, которое когда-либо организовывала команда Ozon Tech. Специалисты Codenrock помогли провести рекламную кампанию, которая охватила все этапы коммуникации.

Маркетинговая поддержка

Подготовка к запуску продвижения началась с разработки Key Visual и концепции визуального стиля. Дизайнеры Codenrock создали узнаваемую визуальную систему на основе фирменной стилистики Ozon Tech. На её основе оформлялись лендинг, баннеры, карточки для соцсетей и визуальные элементы для email-рассылок.

Команда платформы подготовила все коммуникационные материалы: анонсы, напоминания, приглашения. Помимо текстов, были созданы несколько коротких роликов разных форматов:

легкий смешной вовлекающий контент;
более серьезные видео, подчеркивающие экспертность организаторов;
видеозаписи от экспертов соревнования для Telegram-чата участников.

Все материалы были опубликованы в социальных сетях Codenrock. Для увеличения охвата специалисты использовали посевы в тематических сообществах по Data Science и ML, а также таргетированную рекламу в VK и Telegram. Дополнительно была проведена камлания по размещению пресс-релизов в крупных IT-изданиях:

Для email-коммуникаций команда Codenrock разработала и отправила серию брендированных рассылок по собственной базе более чем в 100 000 человек. Первая волна включала приглашения и анонсы треков, вторая — полезные ссылки, FAQ и советы от экспертов. Каждое письмо оформлялось в едином визуальном стиле.

Параллельно шла работа над контентом, предназначенным для вовлечения и обучения участников. Для блога Codenrock была подготовлена техническая статья, где подробно разбирались задачи соревнования и давались рекомендации по выбору открытых моделей и инструментов. Следом вышло интервью с командой экспертов Ozon Tech, которое объясняло, как рождались треки, чем соревнование отличается от внутренних задач компании и какие перспективы ждут участников.

Как победить на E-CUP 2025: советы от экспертов Ozon Tech
Коротко Эксперты Ozon Tech разобрали три трека E-CUP 2025 с призовым фондом 7,2 млн рублей. Трек рекомендаций — категория apparel: важны сезонность, размеры, бренды; опасный сигнал — «подарочная» активность в праздники. Трек логистики — распределить 20 000 заказов между 200 курьерами с учётом микрополигонов… Читать далее: Как победить на E-CUP 2025: советы от экспертов Ozon Tech
Выбираем стэк для ML-соревнования: мощные решения на базе открытых технологий
Коротко Обзор open-source стэка для ML-соревнований на примере трёх треков E-CUP 2025: рекомендации, логистика, антиконтрафакт. Для подготовки данных: Pandas для старта, Polars (Rust) для скорости, PySpark для распределённой обработки. Для рекомендаций новичкам — LensKit и Surprise, опытным — RecBole (100+ моделей), Microsoft Recommenders и… Читать далее: Выбираем стэк для ML-соревнования: мощные решения на базе открытых технологий

Суммарный охват составил более 2,3 миллионов человек.

Работа с участниками

Работа с командами на E-CUP 2025 — полноценная система сопровождения. Каждый участник вовлекался в мероприятие сразу же после регистрации и получал помощь и поддержку до самого финала.

С первых дней за капитанами команд закреплялись кураторы Codenrock — специалисты, которые помогали пройти все этапы соревнования. Многие участники приходили на хакатон соло, и именно кураторы помогали им найти тиммейтов на платформе и в Telegram-чате. Благодаря такой поддержке сформировались сотни сильных команд, которые дошли до финала и представили качественные решения.

Команда Codenrock провела все коммуникационные мероприятия:

Сразу после окончания регистрации прошла церемония открытия, на которой к участникам обратился Антон Степаненко, CTO Ozon Tech. Специалисты платформы подготовили текстовые и визуальные материалы для мероприятия.
Также состоялась онлайн Q&A-сессия, во время которой участники могли пообщаться с авторами задач. Эксперты Codenrock поддерживали представителей организатора, а кураторы заранее собрали самые актуальные вопросы.
На чекпоинтах команды рассказывали о прогрессе, а эксперты давали советы.

На платформе для E-CUP 2025 была запущена реферальная программа. Каждый зарегистрированный участник получал персональную ссылку, по которой мог позвать на соревнование друзей или коллег. В результате по таким приглашениям на мероприятие пришло 80 человек, а 20 самых участников программы получили подарочные сертификаты на маркетплейс Ozon.

Обучающие курсы

Специально для E-CUP 2025 эксперты Codenrock подготовили обучающие курсы. Задача курсов — снизить порог входа и сделать соревнование доступным даже тем, кто не имел опыта участия в ML-чемпионатах, а также быстро ввести участников в специфику треков и дать стартовую базу по обработке данных, архитектуре пайплайнов и выбору инструментов.

Формат включал:

текстовые лекции с основными понятиями по ML-задачам;
пошаговые гайды по подготовке данных и настройке окружения;
примеры кода с объяснениями baseline-решений;
готовые шаблоны и наборы инструментов;
мини-тесты и чек-листы для самопроверки, разбор ошибок.

Многие команды использовали эти модули как основу для собственных решений, дорабатывая бейзлайны и пробуя свои модели. Это в итоге сильно повысило качество проектов, которые дошли до финала — практически каждый второй участник, выступивший на питчинге, прошёл курс.

Итоги соревнования

Победителями ML-соревнования E-CUP 2025 стали 9 команд, которые по итогам питчинга представили самые сильные решения.

Трек 1. Рекомендации: предсказание следующей покупки пользователя

🥇 1 место – команда madgnome.

Решение комбинировало два подхода для персонализации: один алгоритм анализировал ключевые поведенческие признаки пользователя, другой — последовательность недавних действий. Это позволило эффективно учитывать индивидуальные предпочтения, находя баланс между точностью и скоростью работы.

🥈 2 место – команда «Анатолий И».

Решение включало два этапа: сначала отбирались потенциальные товары на основе активности пользователя и популярных позиций, затем — их ранжирование с помощью модели, учитывающей поведенческие и временные признаки. Подход обеспечил сбалансированную и релевантную выдачу.

🥉 3 место – команда «Лидируй катбустируй».

Система генерирует рекомендации, опираясь на его прошлые действия и предсказания нейросети, обученной распознавать поведенческие паттерны. Такой подход позволяет модели реагировать на историю взаимодействий и прогнозировать следующие шаги с учётом контекста.

Трек 2. Логистика: автопланирование курьеров

🥇 1 место – команда X5

Решение построено на трёх этапах: группировка районов, оптимизация маршрутов и выравнивание нагрузки. Курьеры получали зоны, где работают эффективнее, после чего строился маршрут и распределялись заказы. Подход позволил доставить все заказы быстро и с минимальным временем обработки.

🥈 2 место – команда Trolltunga

Команда разработала комбинированный подход: сначала формировалось базовое распределение районов между курьерами, затем оно уточнялось с помощью локальных преобразований. Маршруты внутри районов рассчитывались точно, без упрощений, а в конце выполнялась балансировка нагрузки для повышения равномерности загрузки.

🥉 3 место – Команда avi

В решении реализована многоэтапная систему оптимизации, сочетающая готовые алгоритмы и собственные улучшения. Проект последовательно уточнял маршруты и балансировал нагрузку, обеспечивая эффективное и сбалансированное распределение заказов.

Трек 3. Контроль качества: автоматическое выявление поддельных товаров

🥇 1 место – команда hype and chill

Решение основано на ансамбле текстовых моделей, где разные версии BERT последовательно обрабатывают запросы: быстрые модели справляются с простыми случаями, а более сложные передаются на глубокую обработку. Такой подход обеспечил высокую точность при минимальном времени отклика.

🥈 2 место – команда lab260

Решение сочетало текстовые, визуальные и табличные данные в единой архитектуре. Обработка и балансировка классов позволили достичь конкурентной точности без излишней сложности.

🥉 3 место – Команда BBR Team

Команда использовала комбинацию трёх разных подходов. Упор сделан на качественную подготовку признаков и стабильность: глубокую инженерию, очистку данных и псевдо-разметку, чтобы повысить точность без потери надёжности.

Конференция E-CODE

Финал соревнования E-CUP 2025 стал частью основной программы конференции E-CODE 2025. На отдельной сцене прошли питч-сессии финалистов, где команды представили свои решения экспертам Ozon Tech, а также состоялась церемония награждения победителей.

E-CODE — ежегодная IT-конференция от Ozon Tech, которая в этом году прошла 13–14 сентября 2025 года в Москве, на площадке Loft Hall. Главная концепция события — комьюнити-пространство, где код упрощает и меняет жизнь. На мероприятии все, кто строит технологии, развивающие e-commerce-индустрию, могу узнать о передовых решениях Ozon Tech, обменяться опытом с коллегами из индустрии и обсудить, как принципы Everything as Code помогают выстраивать гибкие процессы.

Участников ждали два насыщенных дня с докладами, мастер-классами, дискуссиями, живым нетворкингом. Выступали спикеры Ozon Tech и ведущих компаний российского IT-рынка: более 50 докладчиков от ведущих специалистов российских бигтехов. Главные темы выступлений: машинное обучение, микросервисная архитектура, мониторинг инфраструктуры, оптимизация производительности и командная культура.

Конференция сочетала технический контент и живое общение:

Burning Talks: неформальные рассказы о жизни в IT в формате открытого микрофона.
Онлайн-стримы для тех, кто не смог приехать.
Вечеринка каждый день: караоке и выступления музыкальных групп: Нейромонах Феофан, НТР, Заточка и другие.
Зоны отдыха и нетворкинга, где участники обсуждали идеи и обменивались контактами и искали новые коллаборации.

Эксперты соревнования

Отзывы участников

Частые вопросы

Что такое Ozon E-CUP 2025?

Крупнейшее ML-соревнование от Ozon Tech на платформе Codenrock с тремя треками на реальных данных маркетплейса: рекомендации (предсказание следующей покупки), логистика (автопланирование курьеров) и контроль качества (выявление поддельных товаров). Финал прошёл на IT-конференции E-CODE.

Сколько участников и какой призовой фонд был на E-CUP 2025?

2984 зарегистрированных участника, 1221 команда, 453 присланных решения, 15 команд-финалистов (ТОП-5 в каждом из трёх треков). Призовой фонд — 7 200 000 рублей.

С какими данными работали участники E-CUP 2025?

С анонимизированными, но структурно близкими к реальным данными Ozon: большие объёмы (датасеты на десятки гигабайт), естественные дисбалансы, сезонные паттерны, разреженность пользовательских профилей и шум. В треке рекомендаций — фэшн-категория с ассортиментом более 150 млн товаров.

Какую инфраструктуру предоставила платформа Codenrock для E-CUP?

Готовую ML-среду: автоматический скоринг и лидерборд в реальном времени, контейнерное исполнение решений, GitLab-репозитории с преднастроенным CI/CD, распределённое хранение больших датасетов и автоматическую проверку с формированием приватного рейтинга после онлайн-этапа.

Как готовились задачи ML-соревнования E-CUP?

Эксперты Codenrock адаптировали реальные производственные кейсы Ozon Tech под соревновательный формат: анализировали данные, прорабатывали архитектуру пайплайнов, делали baseline-решения, выбирали метрики и критерии оценки, писали скрипты расчёта метрик и валидации форматов сабмитов.

Кейс Ozon E-CUP 2025: как 2900+ инженеров создали ML-решения для миллионов пользователей

E-CUP 2025: главное

Подготовка к проведению

Разработка задач

Инфраструктура ML-соревнования

Трек 1. Рекомендации: предсказание следующей покупки пользователя

Трек 2. Логистика: автопланирование курьеров

Трек 3. Контроль качества: автоматическое выявление поддельных товаров

Привлечение и удержание участников

Работа с участниками

Обучающие курсы

Итоги соревнования

Конференция E-CODE

Эксперты соревнования

Отзывы участников

Частые вопросы

Оставьте заявку, мы подберем для вас лучшие решения для работы с ИТ-сообществом