ML-специалисты Ozon Tech о моделях и советах в преддверии E-CUP

Привет, участник E-CUP!

На этой странице ты узнаешь, кто будет в жюри, и получишь советы по прохождению соревнования. Читай до конца и заряжайся на контест!

Давай знакомиться: мы — члены жюри контеста.

Команда «Генеративный дизайн»

Елена Никитина
🧑‍🎓 МГУ им.М.В. Ломоносова / Математические методы в экономике
🧑‍💻 тимлид
Максим Белобородов
🧑‍🎓РТУ МИРЭА / Прикладная математика
🧑‍💻 разработчик
Валерия Петренко
🧑‍🎓 НИУ МЭИ / Мехатроника и робототехника
МФТИ / Прикладная математика и информатика (ip)
🧑‍💻 математик-разработчик

Лена: «Моя команда занимается огромным спектром задач: от модерации контента до генеративных моделей. Причём мы генерим и текст, и изображения, и видео».

Команда «Матчинг»

Антон Рябцев
🧑‍🎓 МФТИ ФПМИ (ex. ФУПМ) / Прикладная математика и физика
🧑‍💻 тимлид

Никита Божедомов

🧑‍🎓МФТИ ФПМИ (ex. ФУПМ) / Прикладная математика и физика ШАД от Яндекса
🧑‍💻 Data Scientist
Михаил Захватаев
🧑‍🎓 ВМК МГУ и ФКН ВШЭ / Прикладная математика и информатика
🧑‍💻 Data Scientist

Антон: «Ozon Tech — это развитая и сложная инфраструктура, а мы в ней разрабатываем, внедряем и поддерживаем инженерные решения в матчинге (CV, классический ML, NLP)».

Задачи проекта и датасеты

Трек модерации изображений

Датасет будет предоставлен в полном виде. Мы вручную разметили train/test выборки и поделили на категории.

Как пользоваться размеченными данными, вы выбираете сами. Можно объединять их в группы или строить решения для каждой категории отдельно. Остановились на таком подходе, чтобы вам было удобнее и понятнее разобраться с масштабами различий в актах курения.

Проверку будем проводить с помощью похожего размеченного датасета. Его данные не вошли в обучающую выборку.

Трек матчинга товаров

Датасет для обучения состоит из 1 000 000+ строк и тестовой выборки, по которой будет формироваться лидерборд. Разметку мы создали с помощью крауд-сервиса Ozon.Profit.

В оценке решений исключена предвзятость — кто выбьет лучший скор на лидерборде, тот и победит.

Советы участникам по выбору моделей и подготовке данных

Трек модерации изображений

Максим: По задаче модерации фото можно смотреть в сторону моделей детекции и сиамских сетей. Но и задачу классификации с нестандартными препроцессами изображения можно красиво реализовать.

Рекомендую при подготовке данных выявить максимально детально признаки сигареты и её область нахождения на изображении.

Лена: Добавлю, что стоит обратить внимание на жанр картинки, ведь сигареты могут быть как реальные, так и нарисованные, например, изображение курящих персонажей аниме.

Лера: Советую попробовать переразметить класс smoking на несколько подклассов, попробовать выделить бросающиеся в глаза признаки сигарет и курения, а ещё обязательно провести аугментацию.

Трек матчинга товаров

Антон: В наших задачах может потребоваться продуманный фича-инжиниринг. Важно изучить особенности каждой отдельной товарной категории. Чтобы поймать вдохновение, могу порекомендовать посты нашей команды на Хабре:

  1. Два сапога — пара, а три — уже community: как алгоритмы на графах помогают собирать группы товаров
    О матчинге и сопутствующих процессах — кластеризации на графах, выделении сообществ, self-supervised и unsupervised задачах.
  2. Что лучше: Spark Structured Streaming или полное прекращение работы прода?
    О пайплайне ETL, который у нас работает постоянно, и о том, как мы пришли к Spark Structured Streaming.
  3. Векторное представление товаров Prod2Vec: как мы улучшили матчинг и избавились от кучи эмбеддингов
    О том, как мы вместо векторов, которые описывают отдельную часть товара, получили один вектор для всего товара сразу.
  4. Realtime-матчинг: находим матчи за считанные минуты вместо 24 часов
    О форматах batch и realtime и нашем переходе с первого на второй.

Технотренды: актуальные технологии и подходы в ML

Максим: Сейчас самым прорывным и идейным направлением в ML является генерация фото/видео (img2img, text2img, img2video, text2video) во всех возможных направлениях, например, анимации людей на фото, создание фона и т. д.

Также в тренде большие языковые модели с подходами LoRA, alignment, finetune, Distillate training. Весь набор — для облегчения взаимодействия с биг датой.

Лена: Не стоит забывать и об оптимизации тяжелых моделей — дистилляции, квантизации, прунинге.

Лера: Мне интересно наблюдать за развитием новых фреймворков (Jax, например) и языков (Mojo, Bend, Rust). Они существенно ускоряют обучение и работу нейронных сетей и точнее следят за используемой памятью.

Главная причина во всё это погрузиться и участвовать

Задачи контеста — реальные задачи инженеров Ozon Tech. Ваши решения будут изучать не только члены жюри, но и лиды команд. Потому что мы всегда рады усилить команду яркими личностями. 

А вам точно понравится у нас, вот как минимум 4 доказательства.

Максим: «В Ozon интересно, потому что это место для реализации самых разных проектов и воплощения своих идей для развития продуктов. Процессы отлажены, а руководители всегда идут навстречу новым предложениям и поощряют инициативы по их внедрению».

Лера: «Хочу ещё отметить, что Ozon не боится экспериментировать — это огромный плюс при выборе решения задач».

Никита: «У нас развитая IT-культура, широкий стек технологий, железо под команду. Мне также важно, что есть равенство членов команды в обсуждениях задач и решений».

Миша: «Потому что Ozon Tech — это сильная команда специалистов. У нас интересные задачи, а ещё много возможностей для карьерного роста».

Почувствуйте себя инженером Ozon Tech в демо-формате — удачи на контесте!


    Оставьте заявку, мы подберем для вас лучшие решения для работы с ИТ-сообществом

    Блог Codenrock — Кейсы, истории успеха и интервью с экспертами