Как платформа Codenrock для ML-соревнований помогла организовать AgroCode DataScience Cup

Россельхозбанк в четвертый раз провел Data Science чемпионат для сообщества AgroCode Hub. Оператором выступила компания Spinon. Codenrock предоставил платформу для соревнования по машинному обучению: регистрацию, датасеты, лидерборды, экспертизу, аналитику. Как использовать нашу площадку для AI и ML соревнований – в этом кейсе. 

Подготовительный этап

Задача для AgroCode DataScience Cup 2023 – создать модель, которая сможет предсказывать продуктивность животных на основе данных о контрольных дойках и родословных коров. Первый этап соревнования – регистрация участников. Он прошел на ML-платформе Codenrock

На странице мероприятия будущий конкурсант должен заполнить анкету, после чего сможет создать свою команду или присоединиться к существующей. Участники заранее изучают описание соревнования, правила, ответы на часто задаваемые вопросы. В назначенный день открывается доступ к заданиям. 

AgroCode DataScience Cup стартовал 20 октября. На этапе подготовки к мероприятию организаторы предоставили Codenrock:

  • учебный датасет для обучения моделей конкурсантов;
  • тестовый датасет для проверки представленных решений;
  • benchmark-файл с ответами;
  • пример ответа (sample-submission);
  • метод расчета результата решения.

Никаких других действий от организатора до оглашения итогов не требуется – проведение конкурса и оценка результатов автоматизированы на ML-платформе Codenrock.

Как прошло соревнование

Участники AgroCode DataScience Cup получили данные о первых 10 контрольных дойках для каждого животного, а также сведения о лактациях (номер, дата начал, ферма, хозяйство, дата рождения коровы). На основании обучающей выборки участник должен создать модель для предсказания продуктивности животных и опробовать ее на тестовой выборке. 

Для каждой команды ML-платформа Codenrock генерирует Gitlab-репозиторий, в котором находится демонстрационное baseline-решение. Участники могут сразу же приступить к выполнению задания. Сборка проекта происходит автоматически при внесении в него изменений. 

Контейнеризация при помощи Docker позволяет сразу же отправить код решения на проверку точности работы модели (инференс) – участнику достаточно нажать соответствующую кнопку на странице задачи. Для расчетов используется сервер с графическим процессором NVIDIA Tesla T4 или NVIDIA A100.

Как определить финалистов

ML-платформа Codenrock поддерживает функцию лидерборда. Участники могут отслеживать эффективность работы своей модели, а организаторы – определять победителей по заданным условиям. В AgroCode DataScience Cup для оценки точности решения выбрана метрика RMSE, которая хорошо измеряет отклонения между предсказанным и фактическим значением.

Лидерборды Codenrock состоят из двух частей:

  • Публичный рейтинг. Формируется по результатам тестирования модели на датасете, который доступен всем конкурсантам, и обновляется в реальном времени. Команды могут сравнивать свою модель с конкурентами.
  • Приватный лидерборд. Составляется по данным, скрытым от участников до окончания соревнования. Это необходимо, чтобы конкурсанты не могли «заточить» решение только на работу с конкретным датасетом. В результате победят те команды, которые сделают универсальную модель. 

На AgroCode DataScience Cup публичный лидерборд был открыт с 25 октября. До 16 ноября участники продолжали обучать и дорабатывать свои решения. По результатам приватного рейтинга жюри отобрало 10 финалистов, которых пригласили на питч-сессию и код-ревью. 19 ноября организаторы назвали имена победителей:

🥇 1 место – Марк Филиппов, приз – 200 000 рублей. 

🥈 2 место – Андрей Кузнецов, приз – 150 000 рублей.

🥉 3 место – Игорь Дробященко, приз – 100 000 рублей. 

Подводим итог

ML-платформа Codenrock – это отличное решение, чтобы с минимальными усилиями организовать Data Science соревнование. Используя площадку, Россельхозбанк получил:

  • Доступ к комьюнити. На наших ресурсах зарегистрировано более 75 000 IT-специалистов, которые регулярно участвуют в конкурсах и хакатонах. Ежегодно на платформе проходит более 50 ML-соревнований. 
  • Экспертизу. Мы поддерживаем организатора на всех этапах проведения мероприятия. Наши специалисты подробно объяснили, какие направления сейчас популярны в ML-сфере, как сформулировать задачу, подготовить датасеты для проведения конкурса и выбрать подходящую метрику. 
  • Автоматизацию. Мы организовали регистрацию и анкетирование участников, создали страницу мероприятия и подвели итог соревнования. Все расчеты происходили на наших серверах, оптимизированных для работы с машинным обучением и нейросетями.
  • Продвижение. Подготовили анонсы соревнования и маркетинговые материалы для рассылки по социальным сетям и СМИ. 

Наша ML-платформа и экспертиза – гарантия успешного и популярного Data Science соревнования. 

Оцените статью
Codenrock Blog


    Оставьте заявку, мы подберем для вас лучшие решения для работы с ИТ-сообществом

    X


      Оставьте заявку, мы подберем для вас лучшие решения для работы с ИТ-сообществом