В сентябре 2023 года прошел хакатон AI News Hack. Организатор соревнования – AI Open News. Компания разработала одноименного Telegram-ассистента, который фильтрует новостные ленты и уведомляет только о важных событиях по заданному расписанию.
На конкурсе участники получили возможность разработать ML-решение для виртуального помощника, которое сможет классифицировать тексты новостей, определять и удалять дубликаты. Лучший проект был внедрен в реальный бизнес AI Open News.
Подробнее о соревновании – в этом кейсе.
Цели проведения хакатона
Хакатон – отличный способ проверки новых технологий на реальных кейсах, изучения ИТ-рынка и актуальных продуктов. AI News Hack не стал исключением.
Хакатоны являются эффективным инструментом для решения технологических задач компании. Они позволяют быстро создавать прототипы решений, находить нестандартные подходы к решению задач, формировать команду для дальнейшего развития проекта.
Никита Ворожбитов, Python & ML-developer в AI Open News
Другое важное направление AI News Hack – поиск талантливых специалистов, их погружение в специфику конкретных задач. Команда Telegram-ассистента рассматривала соревнование как инструмент для поиска не только подходящих решений, но и людей, способных их разрабатывать и поддерживать.
Помимо денежных призов участники хакатонов AI News получают невероятно ценные знания, навыки и умения, а также опыт работы в команде над реальными задачами и проектами. Более того, призерам и победителям хакатона может быть предложено дальнейшее сотрудничество с организаторами или трудоустройство в компанию.
Никита Ворожбитов, Python & ML-developer в AI Open News
Задача соревнования
Цель хакатона – разработка сервиса классификации новостей, идентификации и удаления дубликатов. Участникам предстояло обучить модель, способную эффективно определять одинаковые текстовые фрагменты в больших блоках информации и классифицировать их.
Было необходимо создать два алгоритма:
- Алгоритм, который способен точно и быстро идентифицировать пары текстов, содержащих схожие или практически идентичные новости.
- Алгоритм, классифицирующий тип сообщения по более чем 25 категориям.
Решаемая проблема. Telegram – одно из самых популярных приложений для чтения и обсуждения новостей. Но в нем существует множество каналов, которые охватывают широкий спектр тем и нередко дублируют друг друга. Такая информация не предоставляет интереса – пользователь уже видел ее. Получение сообщений без дубликатов очень важно – это позволяет читать только актуальные новости.
Необходимость создания бота появилась из-за удобства, доступности, функциональности и простоты использования данного подхода. Кроме того, учитывая, что многие пользователи в основном узнают новости через Telegram, мы стремились быть ближе к нашей аудитории и предоставить им информацию в максимально удобном для них формате.
Никита Ворожбитов, Python & ML-developer в AI Open News
Датасеты. Участники получили два набора данных без разметки из реальных Telegram-каналов. Среди них могли встречаться короткие фразы, предложения и абзацы текста. Обучать алгоритмы предстояло по unsupervised подходу. Конкурсантам было разрешено использовать различные методы NLP и глубокого обучения, включая предобученные модели.
Ожидаемый результат:
- Репозиторий с исходным кодом (REST API и сервисы обучения моделей). API должен быть реализован на FastAPI и обернут в Docker.
- Репозиторий со скриптами обучения моделей.
- Время работы алгоритма для поиска дубликатов и классификации.
Инструменты Codenrock
Площадку для проведения ML-соревнования предоставил Codenrock. На этапе разработки задачи эксперты помогли оформить ее в понятном виде и подготовить исходные данные для участников в GitLab:
- Датасеты, подходящие для обучения и тестирования моделей.
- Benchmark-файл с ответами.
- Метод расчета результата решения.
- Выбор подходящей метрики.
После начала соревнования команды получили доступ к собственному репозиторию GitLab с готовым baseline-решением, которое предстояло доработать. В распоряжении участников – все необходимые инструменты для работы с машинным обучением: возможность загружать собственный код, проверять результативность обученных моделей и отслеживать изменение метрик после каждого инференса. Расчет и сборка выполнялись на серверах, оптимизированных для работы с ИИ.
Помимо предоставления площадки для ML-соревнования, Codenrock занималась остальными этапами проведения хакатона:
- Привлечение аудитории. За месяц до начала AI News Hack стартовала рекламная кампания мероприятия: email-рассылки, размещение постов в соцсетях и СМИ, подготовка экспертных материалов для блога на сайте.
- Сбор и регистрация участников. На сайте была создана страница соревнования. Пользователи могли изучить всю информацию о хакатоне, заполнить анкету и присоединиться к конкурсу.
- Формирование команд. На платформе участники могли найти тиммейтов или создать собственную команду.
- Коммуникация. Кураторы хакатона сопровождали конкурсантов на всех этапах соревнования, помогали регистрироваться, собираться в команды и загружать решения, напоминали о дедлайнах.
- Взаимодействие с жюри. Эксперты Codenrock консультировали организаторов во время подготовки и оценки решений участников.
- Подведение итогов. После завершения хакатона была доступна вся статистика по участникам, решениям и итогам маркетинговой кампании.
Результаты хакатона
На AI News Hack зарегистрировались 502 участника, было сформировано 152 команды и загружено на платформу 42 решения , 10 из которых представлены на финальном питчинге.
Большинство конкурсантов владели профильными навыками: машинное обучение, алгоритмы и структуры данных, Python, PyTorch, SQL. Самые популярные сферы деятельности участников – Data Scientist, бэкенд-разработчик, аналитик, исследователь и студент. Уровень квалификации – от trainee до senior и lead.
🥇 Победитель соревнования – команда FAI, которая стала обладателем главного приза в 500 000 рублей.
Лучшее решение не осталось на этапе прототипов – оно было использовано для улучшения Telegram-ассистента, а команду пригласили в компанию для дальнейшего развития проекта.
Разработки победителя были внедрены в реальные бизнес-процессы компании в полном объеме – нейросетевая модель классификации информационно-новостных сообщений и механизм идентификации и удаления синтаксических и семантических дубликатов. Созданные подходы к обработке информации продолжают развиваться и совершенствоваться.
Никита Ворожбитов, Python & ML-developer в AI Open News
Отзывы организаторов
На данный момент бот полноценно функционирует, но продолжает активно развиться. Ведется работа по совершенствованию всех компонентов, используемых для обеспечения бесперебойной и высокопроизводительной работы продукта. Немалое внимание уделяется развитию пользовательского интерфейса, функционала и использованию технологий машинного обучения для максимальной персонализации взаимодействия с каждым из пользователей.
Никита Ворожбитов, Python & ML-developer в AI Open News
Дальнейшие планы
AI News Hack завершен, но возможность «прокачать» новостного ассистента, выиграть призы и получить предложение о сотрудничестве от AI Open News снова открыта. Компания приглашает участников на новый хакатон для маркетологов – AI News Marketing.
После успешного проведения хакатона по искусственному интеллекту, который позволил нам эффективно удалять дублирующийся контент, мы видим огромные возможности для дальнейшего роста. Теперь наша цель — донести ценность бота до широкой аудитории, помогая людям получать актуальные новости из Telegram-каналов без лишнего информационного шума.
Никита Ворожбитов, Python & ML-developer в AI Open News
Задача соревнования – разработать и реализовать маркетинговую стратегию для Telegram-ассистента.
Призовой фонд – 500 000 рублей.
Победители, кроме денежного приза, получат бюджет более 45 000 000 рублей на реализацию своих самых грандиозных планов по продвижению AI-помощника.
Хакатон позволит нам объединить усилия креативных специалистов в области маркетинга для разработки инновационных стратегий продвижения. Мы стремимся найти новые способы коммуникации с нашей аудиторией, чтобы максимально подчеркнуть преимущества и уникальные возможности нашего бота. Это расширит нашу пользовательскую базу и усилит ценность, которую мы предлагаем каждому пользователю.
Никита Ворожбитов, Python & ML-developer в AI Open News
Этапы соревнований:
- 4-18 октября. Командам предстоит подготовить медиа-планы и начать их реализацию бесплатными методами. Эксперты оценят оригинальность концепции, оптимизацию расходов и первые результаты.
- 19-25 октября. Подведение итогов первого этапа и защита концепций. Участники, которые подготовят самые сильные планы и смогут привлечь больше всего реальных подписчиков для виртуального помощника, пройдут дальше.
- 26 октября – 8 ноября. Успешно завершившие первый этап команды получат бюджет для тестирования своих гипотез.
- 8-10 ноября. Подведение итогов: эксперты оценивают результаты продвижения виртуального помощника и приглашают лучшие команды на финальный онлайн-питчинг, по результатам которого будет определен победитель.
Регистрация открыта до 4 октября!
Будущим участникам хакатона для достижения высоких результатов и победы в хакатоне хотим посоветовать взглянуть на задачу с разных сторон, оценить преимущества, недостатки и риски каждого из подходов. Лучшее решение должно отличаться своей оригинальностью, новизной гипотез и, конечно же, подтверждено высокими результатами.
Не ограничивайтесь узкими областями и стандартными стратегиями – рассмотрите разнообразные сферы деятельности, различные возрастные и демографические группы, не упускайте из внимания географический фактор, выберите как можно больше эффективных способов распространения информации. Желаем успехов!
Никита Ворожбитов, Python & ML-developer в AI Open News