Привет, участник E-CUP!
На этой странице ты узнаешь, кто будет в жюри, и получишь советы по прохождению соревнования. Читай до конца и заряжайся на контест!
Давай знакомиться: мы — члены жюри контеста.
Команда «Генеративный дизайн»
Елена Никитина 🧑🎓 МГУ им.М.В. Ломоносова / Математические методы в экономике 🧑💻 тимлид |
Максим Белобородов 🧑🎓РТУ МИРЭА / Прикладная математика 🧑💻 разработчик |
Валерия Петренко 🧑🎓 НИУ МЭИ / Мехатроника и робототехника МФТИ / Прикладная математика и информатика (ip) 🧑💻 математик-разработчик |
Лена: «Моя команда занимается огромным спектром задач: от модерации контента до генеративных моделей. Причём мы генерим и текст, и изображения, и видео».
Команда «Матчинг»
Антон Рябцев 🧑🎓 МФТИ ФПМИ (ex. ФУПМ) / Прикладная математика и физика 🧑💻 тимлид |
Никита Божедомов 🧑🎓МФТИ ФПМИ (ex. ФУПМ) / Прикладная математика и физика ШАД от Яндекса🧑💻 Data Scientist |
Михаил Захватаев 🧑🎓 ВМК МГУ и ФКН ВШЭ / Прикладная математика и информатика 🧑💻 Data Scientist |
Антон: «Ozon Tech — это развитая и сложная инфраструктура, а мы в ней разрабатываем, внедряем и поддерживаем инженерные решения в матчинге (CV, классический ML, NLP)».
Задачи проекта и датасеты
Трек модерации изображений
Датасет будет предоставлен в полном виде. Мы вручную разметили train/test выборки и поделили на категории.
Как пользоваться размеченными данными, вы выбираете сами. Можно объединять их в группы или строить решения для каждой категории отдельно. Остановились на таком подходе, чтобы вам было удобнее и понятнее разобраться с масштабами различий в актах курения.
Проверку будем проводить с помощью похожего размеченного датасета. Его данные не вошли в обучающую выборку.
Трек матчинга товаров
Датасет для обучения состоит из 1 000 000+ строк и тестовой выборки, по которой будет формироваться лидерборд. Разметку мы создали с помощью крауд-сервиса Ozon.Profit.
В оценке решений исключена предвзятость — кто выбьет лучший скор на лидерборде, тот и победит.
Советы участникам по выбору моделей и подготовке данных
Трек модерации изображений
Максим: По задаче модерации фото можно смотреть в сторону моделей детекции и сиамских сетей. Но и задачу классификации с нестандартными препроцессами изображения можно красиво реализовать.
Рекомендую при подготовке данных выявить максимально детально признаки сигареты и её область нахождения на изображении.
Лена: Добавлю, что стоит обратить внимание на жанр картинки, ведь сигареты могут быть как реальные, так и нарисованные, например, изображение курящих персонажей аниме.
Лера: Советую попробовать переразметить класс smoking на несколько подклассов, попробовать выделить бросающиеся в глаза признаки сигарет и курения, а ещё обязательно провести аугментацию.
Трек матчинга товаров
Антон: В наших задачах может потребоваться продуманный фича-инжиниринг. Важно изучить особенности каждой отдельной товарной категории. Чтобы поймать вдохновение, могу порекомендовать посты нашей команды на Хабре:
- Два сапога — пара, а три — уже community: как алгоритмы на графах помогают собирать группы товаров
О матчинге и сопутствующих процессах — кластеризации на графах, выделении сообществ, self-supervised и unsupervised задачах. - Что лучше: Spark Structured Streaming или полное прекращение работы прода?
О пайплайне ETL, который у нас работает постоянно, и о том, как мы пришли к Spark Structured Streaming. - Векторное представление товаров Prod2Vec: как мы улучшили матчинг и избавились от кучи эмбеддингов
О том, как мы вместо векторов, которые описывают отдельную часть товара, получили один вектор для всего товара сразу. - Realtime-матчинг: находим матчи за считанные минуты вместо 24 часов
О форматах batch и realtime и нашем переходе с первого на второй.
Технотренды: актуальные технологии и подходы в ML
Максим: Сейчас самым прорывным и идейным направлением в ML является генерация фото/видео (img2img, text2img, img2video, text2video) во всех возможных направлениях, например, анимации людей на фото, создание фона и т. д.
Также в тренде большие языковые модели с подходами LoRA, alignment, finetune, Distillate training. Весь набор — для облегчения взаимодействия с биг датой.
Лена: Не стоит забывать и об оптимизации тяжелых моделей — дистилляции, квантизации, прунинге.
Лера: Мне интересно наблюдать за развитием новых фреймворков (Jax, например) и языков (Mojo, Bend, Rust). Они существенно ускоряют обучение и работу нейронных сетей и точнее следят за используемой памятью.
Главная причина во всё это погрузиться и участвовать
Задачи контеста — реальные задачи инженеров Ozon Tech. Ваши решения будут изучать не только члены жюри, но и лиды команд. Потому что мы всегда рады усилить команду яркими личностями.
А вам точно понравится у нас, вот как минимум 4 доказательства.
Максим: «В Ozon интересно, потому что это место для реализации самых разных проектов и воплощения своих идей для развития продуктов. Процессы отлажены, а руководители всегда идут навстречу новым предложениям и поощряют инициативы по их внедрению».
Лера: «Хочу ещё отметить, что Ozon не боится экспериментировать — это огромный плюс при выборе решения задач».
Никита: «У нас развитая IT-культура, широкий стек технологий, железо под команду. Мне также важно, что есть равенство членов команды в обсуждениях задач и решений».
Миша: «Потому что Ozon Tech — это сильная команда специалистов. У нас интересные задачи, а ещё много возможностей для карьерного роста».
Почувствуйте себя инженером Ozon Tech в демо-формате — удачи на контесте!