Как победить на E-CUP 2025: советы от экспертов Ozon Tech

E-CUP 2025 — масштабное ML-соревнование от Ozon Tech с призовым фондом 7 200 000 рублей. В этом интервью эксперты компании, которые знают всё о треках, делятся советами для участников — на основе своего опыта в решении сложных инженерных задач для маркетплейса, которым ежедневно пользуются миллионы человек.

Мы обсудили с экспертами Ozon Tech:

Какие задачи предстоит решать в каждом из треков.
Насколько близки данные к реальным.
Что важно показать в решении и финальной презентации.
Какие навыки и подходы особенно ценятся в команде Ozon Tech.
Какие вакансии Ozon Tech сейчас актуальны.

Содержание

Эксперты о треках
Рекомендации: предсказание следующей покупки пользователя
Логистика: автопланирование курьеров
Контроль качества: автоматическое выявление поддельных товаров
Интервью с экспертами E-CUP
Задачи соревнования
Тренды в ML
Перспективы для участников
О соревновании E-CUP 2025

Эксперты о треках

Рекомендации: предсказание следующей покупки пользователя

Помогите миллионам покупателей Ozon экономить время на поиске наиболее подходящих товаров. Разработайте рекомендательную систему, которая на основе прошлых покупок пользователя предскажет, какой товар он купит следующим в категории apparel (одежда, обувь, аксессуары), и сформируйте персональный топ рекомендаций.

Подробнее о задаче трека рассказал Илья Осиновсков, руководитель группы разработки «Эффективность рекомендаций».

Мы выбрали apparel, потому что это одна из самых распространённых категорий для рекомендаций. При этом у неё есть уникальные особенности: сезонность, размерная сетка, стилевые предпочтения, цветовая гамма. Также здесь сильно влияют тренды.

При разработке рекомендательной системы для этой категории важно учитывать полезные маркеры — например, предпочтения брендов и размеров. Опасные сигналы — это добавление товара в корзину без покупки или активность в праздничные периоды, которая может быть связана с покупкой подарков и не отражать личные интересы пользователя.

Среди других типичных ошибок — переоценка популярности товаров без учёта персонализации, игнорирование проблемы «холодного старта» и недооценка важности времени в последовательности действий пользователя.

Логистика: автопланирование курьеров

Оптимизируйте доставку. Создайте алгоритм, который распределит 20 000 заказов между 200 курьерами, минимизирует суммарное время их работы с учётом микрополигонов и сократит индивидуальную скорость выполнения заданий.

Подробнее о задаче трека рассказал Егор Осипов, руководитель отдела разработки «Маршрутизация курьеров» и «Операционная аналитика».

Задача автопланирования в E-CUP отличается от классических VRP-задач.

Первое — большой объём планирования. Мало кто в России может похвастаться таким количеством точек заказов, доставляемых из одного депо, а значит, и планируемых в рамках одной задачи. Объём и масштабируемость алгоритмов планирования становятся здесь критически важными.

Второе — наличие микрополигонов, то есть небольших зон доставки, в пределах которых все заказы должны быть отданы одному курьеру. Это важный элемент логистической модели Ozon. Микрополигоны — небольшие зоны, из которых заказы нельзя распределять между разными курьерами. Формируются они по довольно сложной логике: на основе истории объёмов заказов в конкретной области, времени, необходимого курьеру на их объезд, плотности заказов и топологии.

Наличие микрополигонов решает сразу несколько задач. Прежде всего, они нужны для того, чтобы сортцентр мог начать предварительную сортировку посылок ещё до построения маршрутов. Поскольку маршруты формируются накануне дня доставки, важно отложить планирование как можно позже, чтобы данные были актуальнее — ведь клиенты продолжают оформлять заказы вплоть до самого вечера.

Третье — разная скорость курьеров в разных микрополигонах. В большинстве VRP-задач маршруты строятся с участием абстрактных, универсальных курьеров. В нашей логистике всё иначе: если курьер регулярно обслуживает один и тот же район, он начинает работать в нём существенно быстрее. Это наблюдение важно учитывать при построении маршрутов.

Ограничения, заданные в соревновании, также соответствуют реальной логистике Ozon. Количество курьеров — 200 — выбрано с небольшим запасом, чтобы не перегружать задачу ограничениями по ресурсам. При этом целевая функция определена так, что участникам будет выгодно минимизировать число курьеров, а не использовать весь доступный пул.

20 000 заказов — это вполне типичный объём для одного сортировочного центра в рамках клиентской доставки. Конечно, не каждый сортировочный центр выдаёт такие объёмы, но для крупных, особенно в сезон — это реальные цифры. Внутреннее нагрузочное тестирование мы проводим на ещё больших объёмах.

Контроль качества: автоматическое выявление поддельных товаров

Защитите клиентов и репутацию Ozon, выявляя поддельные товары. Разработайте ML-решение, которое по описанию и метаданным определяет, контрафакт это или нет.

Подробнее о задаче трека рассказал Артём Коньшин, математик-разработчик группы разработки «ML контроль качества».

Автоматическое выявление поддельных товаров на платформе Ozon связано с рядом серьёзных трудностей. Самая большая из них кроется в самой сути задачи: контрафактные товары очень сильно мимикрируют под оригинальные, что делает их поиск по-настоящему сложным.

По опыту, участники соревнований могут допустить типичную ошибку — попытаться построить модель только по одной группе данных, например, анализируя исключительно описание товара. Такой подход существенно ограничивает возможности алгоритма и снижает его эффективность.

В нашей практике проверка и мониторинг моделей выявления контрафакта устроены следующим образом. Все товары, которые система помечает как потенциальный контрафакт, отправляются на ручную проверку операционистов. На основе их решений мы рассчитываем метрики Precision и Recall и по ним оцениваем качество модели. Для бизнеса Recall — чуть более приоритетная метрика, однако важно соблюдать баланс с Precision, потому что мы не можем направлять слишком много товаров на ручную проверку.

Интервью с экспертами E-CUP

Задачи соревнования

— Что в кейсах E-CUP 2025 заинтересует ML-инженеров больше всего?

Илья Осиновсков: Кейсы максимально приближены к реальным производственным задачам. Участники работают с данными, с которыми мы имеем дело ежедневно — большие объемы, разреженность, шум в данных.

Артём Коньшин: Интерес представляет оптимизация всего пайплайна: приходится работать с мультимодальными данными из разных источников и при этом поддерживать определённый RPS.

— Как для соревнования готовили данные и насколько они близки к реальным?

Илья Осиновсков: Мы старались максимально сохранить реалистичность данных — оставили естественные дисбалансы, сезонные паттерны, разреженность пользовательских профилей. Данные анономизированы, но структурно очень близки к тем, что используются в реальных условиях.

Егор Осипов: Данные весьма близки к «боевым». Это обезличенная и незначительно модифицированная информация о реальных заказах и реальных курьерах. Мы для планирования, конечно, используем больше данных, которые опускаем тут для упрощения задачи.

Артём Коньшин: Данные самые «боевые», насколько позволяет политика безопасности компании. При подготовке данных большое внимание мы уделяем различным ликам, которые могут быть в признаках, которые мы используем в наших моделях.

— Какие инструменты хотели бы увидеть от команд, что может удивить и есть ли важные ограничения?

Илья Осиновсков: Ожидаем как решения на основе нейросетей, так и классические ML-подходы. Главное ограничение — решение должно работать в разумное время на предоставленных ресурсах.

Егор Осипов: Основные ограничения касаются времени расчёта. В остальном мне бы не хотелось ограничивать участников в их фантазии.

Артём Коньшин: Мы используем классические алгоритмы машинного обучения и кастомные небольшие нейронные сети. Мы бы не хотели как-то ограничивать участников, но решения на основе больших LLM для нас менее актуальны из-за скорости инференса.

— В каком формате лучше презентовать решение, и на что сделать упор?

Илья Осиновсков: Ценим чёткую структуру: проблема → подход → результаты → выводы. Важны визуализация метрик, объяснение архитектурных решений, анализ ошибок модели. Особенно полезны инсайты о данных и обоснование выбора подхода.

Егор Осипов: Я бы хотел услышать цепочку рассуждений. Как команда пришла к итоговому решению? Какие варианты команда обсуждала и почему выбрала именно итоговый вариант? Какие факторы сочла ключевыми и от чего отталкивалась в своих суждениях?

Артём Коньшин: Хотелось бы видеть хорошее и понятное представление архитектуры решения с фокусом на генерации признаков, если были получены сильные признаки, которые сильно улучшают результаты решения. Также интерес представляют необычные или нестандартные архитектурные подходы, если такие использовались.

— Какой самый главный совет дадите участникам перед стартом?

Илья Осиновсков: Начинайте с глубокого анализа данных и простых baseline-моделей. Часто понимание данных важнее сложных архитектур. Итеративно улучшайте решение, каждый шаг должен быть обоснован.

Артём Коньшин: Попробуйте как можно больше подходов к решению или к переформулировке задачи.

Тренды в ML

— Какие ML-направления кажутся вам сейчас самыми перспективными в e-com?

Илья Осиновсков: Мультимодальные sequential-модели с возможностью realtime-инференса и дообучения — одно из самых перспективных направлений в e-com. Они позволяют учитывать поведение пользователя и быстро адаптироваться к изменениям.

Артём Коньшин: В контексте e-com самыми перспективными выглядят реклама и рекомендации. Также активно развивается генеративный контент — это глобальный мировой тренд.

— Какие свежие ML-тренды помогут участникам прокачать свои решения?

Илья Осиновсков: Из актуального стоит обратить внимание на Transformer-архитектуры для sequential-данных и Graph Neural Networks для моделирования связей между пользователем и товаром.

Артём Коньшин: Не думаю, что можно выделить какие-то новые тренды. Я бы порекомендовал участникам изучить завершённые соревнования и хакатоны по машинному обучению — именно там можно найти много практических подходов, которые усиливают решения.

Перспективы для участников

— Планируете ли внедрять лучшие решения соревнования и что для этого нужно?

Илья Осиновсков: Да, мы планируем изучать интересные подходы. Решение должно быть интерпретируемым, масштабируемым, с понятной архитектурой и возможностью A/B тестирования. Важна не только точность модели, но и время инференса.

Егор Осипов: Напрямую перенести решение в продакшн едва ли получится, так как мы предлагаем весьма упрощенный вариант задачи. Но, конечно, мы всегда смотрим вокруг в поиске новых идей и свежих взглядов. Не будет секретом, если я скажу, что E-CUP для меня площадка для поиска таких идей.

Артём Коньшин: Мы безусловно надеемся на инсайты, которые могут повысить качество нашего решения в продакшене. Поэтому да, какие-то подходы или фичи, предложенные участниками, могут быть использованы для разработки решений.

— Какие качества особенно цените в участниках? Что отличает тех, кого потом зовёте в команду Ozon Tech?

Илья Осиновсков: Особенно ценим системное мышление, умение объяснить решение, работать с реальными ограничениями, креативность в feature engineering и понимание бизнес-контекста задач.

Егор Осипов: Мы часто видим, что к нам на интервью приходят люди, которые хотят заниматься только исследованиями, но не готовы доводить их до реализации. Сейчас наша команда построена так, что мы не разделяем исследовательскую и продакшн-часть. Для меня важна готовность и умение нести ответственность за свой код и свой решение в проде.

Артём Коньшин: В нашей команде мы ценим «генералистов» — людей, которые могут заниматься разными задачами и направлениями. А также тех, кому не все равно, и кто готов пройти «extra mile» для достижения успеха.

— Какие вакансии Ozon Tech сейчас актуальны и какие навыки для них особенно важны?

Илья Осиновсков: У нас есть позиции ML-инженеров как в продуктовые команды рекомендаций, так и в R&D-команду. Ключевые компетенции: знание Python, опыт работы с большими данными, например PySpark, понимание современных архитектур для рекомендательных систем, способность доводить эксперименты до продакшена.

Егор Осипов: Одна из ключевых задач для нас сейчас — прогнозирование времени работы курьера. Команда активно работает над повышением качества наших моделей. Как раз под эту задачу мы ищем Data Scientist’а. Задача очень интересная, решаемая, и есть возможность принести большую ценность.

О соревновании E-CUP 2025

E-CUP 2025 — соревнование, где Everything as code. Что вас ждёт:

Работа над проектом для миллионов пользователей на основе данных от ведущего e-com в России.

Призовой фонд — 7 200 000 рублей для девяти сильнейших команд.
Обмен опытом с экспертами Ozon Tech.
Эксклюзивный мерч и подарки.
Питчинг — 13 сентября онлайн или очно на конференции E-CODE. Финалистам Ozon Tech предоставит билеты и оплатит проживание.