Выбираем стэк для ML-соревнования: мощные решения на базе открытых технологий

В арсенале ML-разработчика — сотни фреймворков, моделей, библиотек и подходов для самых разных задач. Успех на соревновании зависит от умения быстро выбрать подходящий стэк.

В этой статье мы собрали наиболее полезные и эффективные инструменты из большой экосистемы open-source решений, которые помогут быстро экспериментировать и создавать прототипы на хакатонах. Вы найдете как проверенные временем библиотеки, так и современные и не всегда очевидные решения, способные усилить ваш проект.

Мы продемонстрируем их возможности на примере E-CUP 2025 — масштабного соревнования от Ozon Tech, охватывающего основные направления прикладного машинного обучения в трех треках:

Рекомендации: предсказание следующей покупки пользователя. Разработка системы для персонализированных рекомендаций, основанных на поведенческих логах и атрибутах товаров.
Логистика: автопланирование курьеров. Оптимизация логистики и маршрутизации с учётом геоданных, микрополигонов и ограничений времени.
Контроль качества: автоматическое выявление поддельных товаров. Создание решения для обнаружения подделок, где требуется мультимодальный анализ изображений, текста и табличных данных.

Содержание

Рекомендательные системы
Особенности задачи
Работа с данными: с чего начинается рекомендация
Выбор технологий
Ищем скрытые связи: как семантические графы усиливают рекомендации
Делаем модель умнее с градиентным бустингом
Инфраструктура и развёртывание
Логистика и оптимизация маршрутов
Особенности задачи
Выбор технологий
Превращаем карты в алгоритмы: работа с геоданными
Как описать логистику на языке формул
Как прогнозирование усиливает модель
Инфраструктура и развёртывание
Контроль качества
Особенности задачи
Выбор технологии
Как классификация данных помогает распознавать дефекты
Детекция аномалий: находим отклонения
Как компьютерное зрение находит скрытые дефекты
Развёртывание и интеграция
Подводим итог
Выбор стэка для ML-соревнования в вопросах и ответах

Рекомендательные системы

Пример формулировки. Задача первого трека E-CUP 2025 — помочь миллионам покупателей экономить время на поиске и получать идеальные вещи первыми. Участникам необходимо разработать рекомендательную систему, которая предскажет, какой товар пользователь купит следующим в категории apparel (одежда, обувь, аксессуары), и сформировать персональный топ рекомендаций.

Разберем, какой подход к выбору инструментов можно использовать для решения подобных задач.

Особенности задачи

Задачи персонализированных рекомендаций выходят за рамки простого подбора похожих товаров и требуют глубокого понимания пользовательского поведения. Что стоит учитывать при подготовке решений:

Покупатели совершают действия не хаотично: сначала смотрят продукцию и отзывы, и только затем принимают решение о приобретении. Важно учитывать временной порядок и типы событий, а не просто факт взаимодействия.
Релевантность важна. Недостаточно просто порекомендовать популярный товар — он должен быть интересен конкретному пользователю.
Разнородность данных. Системе предстоит учитывать и объединять множество категориальных признаков: табличных, текстовых и других.
Важно не только качество рекомендаций, но и скорость работы моделей, особенно если речь идёт о больших каталогах и миллионах пользователей.
Рекомендательные системы — это всегда компромисс между точностью, масштабируемостью и интерпретируемостью. Универсального рецепта нет — понадобятся эксперименты с разными подходами и архитектурами.

Работа с данными: с чего начинается рекомендация

До того, как строить графы или обучать модели, данные нужно прочитать, очистить и привести к нужному виду. В условиях хакатона особенно важны инструменты, которые позволяют это делать быстро, надёжно и масштабируемо. Вот три популярных open-source библиотеки, которые помогут справиться с подготовкой данных:

Pandas — классический инструмент для анализа и обработки табличных данных. Отлично подойдёт, если объём данных не выходит за рамки пары миллионов строк. Удобен для быстрой отладки, фильтрации, агрегаций и первых экспериментов.
Polars — современная альтернатива Pandas, написанная на Rust. Обеспечивает более высокую производительность, особенно при работе с большими таблицами, множеством join’ов и агрегаций. Удобный инструмент для ноутбуков и скриптов, где важна скорость.
PySpark — если данных действительно много и требуется распределённая обработка. Полезен, если в соревновании данные объёмные и уже представлены в Spark-формате, либо нужно работать с несколькими источниками. Хорошо масштабируется и поддерживается в промышленной среде.

Совет: начните с Pandas или Polars для исследования и первых итераций. Если данные слишком велики или появляется узкое место в обработке — переходите на PySpark.

Выбор технологий

Рекомендательные системы традиционно опираются на два подхода к фильтрации:

Коллаборативный — учёт предпочтений пользователей.
Контентный — учёт свойств объектов.

Рассмотрим инструменты в открытом доступе, которые помогут реализовать такие алгоритмы. Для новичков отлично подойдут:

LensKit — лёгкая в использовании библиотека с реализацией самых распространённых алгоритмов. Подходит для быстрого старта и получения первых результатов, особенно новичкам.
Surprise (scikit-surprise) — популярный Python-пакет для коллаборативной фильтрации. Поддерживает готовые реализации матричных разложений для обнаружения скрытых предпочтений, kNN для поиска похожих пользователей или товаров, а также другие алгоритмы.

Если вы хотите выйти за рамки базовых методов и попробовать более продвинутые подходы к рекомендательным системам, в open-source среде есть мощные фреймворки для опытных ML-специалистов.

RecBole — универсальный фреймворк на Python/PyTorch, включающий более 100 моделей для разных типов рекомендаций:

классические (matrix factorization),
последовательные (например, GRU4Rec, SASRec),
учитывающие контекст (время, категорию, устройство и др.).

Microsoft Recommenders — набор примеров и библиотек для построения рекомендательных систем, изначально разработанный Microsoft, а теперь развиваемый как проект Linux Foundation. Включает готовые ноутбуки с реализациями коллаборативной фильтрации, глубоких моделей и гибридных подходов.

TorchRec — библиотека от PyTorch/Meta, ориентированная на масштабные рекомендательные системы. Поддерживает работу с разреженными признаками (sparse features), характерными для товарных и пользовательских данных, и включает инструменты для распределённого обучения — т.е. возможность обучать модель сразу на нескольких GPU/серверов.

Совет: если вы планируете работать с масштабными рекомендательными моделями, ориентированными на продакшн, стоит обратить внимание на стэк PyTorch + TorchRec. Он позволяет строить масштабируемые двухбашенные архитектуры — пользователь и товар обрабатываются отдельными подмоделями, а результат формируется на основе сравнения их эмбеддингов. Такой подход хорошо масштабируется и особенно эффективен при отборе релевантных объектов из большого каталога.

Когда базовая рекомендательная система уже работает, можно переходить к следующему этапу: усилению модели за счёт дополнительных структур и признаков.

Ищем скрытые связи: как семантические графы усиливают рекомендации

Семантические графы (или графы знаний) описывают предметную область в виде сети связанных сущностей. Такие графы позволяют учитывать связи между объектами, их атрибутами и категориями, помогая рекомендательным системам строить более осмысленные гипотезы — особенно при нехватке данных о пользователе или товаре.

Такие графы помогают преодолевать проблему холодного старта и обогатить представление о товарах или пользователях:

Даже если товар новый, у него есть связи: категория, бренд, свойства.
Если пользователь только что зарегистрировался и посмотрел всего пару товаров, этого достаточно, чтобы пройти по графу и сделать осмысленные рекомендации.

Отличный выбор для новичков — Neo4j, графовая база данных с возможностями построения и хранения знания в виде связных сущностей. Поддерживает простой и понятный язык запросов Cypher.

Решения для более опытных разработчиков:

PyKEEN. Фреймворк на Python для обучения эмбеддингов сущностей и связей в графах знаний. Поддерживает SOTA-модели и хорошо сочетается с рекомендательными системами.
DGL-KE. Расширение для DGL, которое позволяет строить масштабируемые графовые эмбеддинги. Особенно подходит, если знаниевый граф очень крупный.

Делаем модель умнее с градиентным бустингом

Помимо нейросетевых методов, в задачах с табличными признаками по-прежнему очень силен градиентный бустинг — способ сделать простую модель умнее, постепенно улучшая её с помощью последовательных шагов. Как это работает:

Берётся очень простая модель.
Она делает предсказания — с ошибками.
Следующая модель обучается на ошибках первой.
Еще одна — снова на ошибках предыдущей.
И так далее: каждая новая модель помогает немного скорректировать общую ошибку.
Финальный результат — сумма всех моделей.

Бустинг не просто усредняет, а фокусируется на ошибках. Он учится на том, что пока не получается, и постепенно улучшает результат. Технология хорошо работает на табличных признаках: история пользователя, свойства товара, статистики категорий.

Совет. Бустинговые модели проще отлаживать, они быстро обучаются, хорошо работают на созданных вручную признаках и дают сильные результаты уже на базовом наборе данных. Это особенно полезно на старте, когда важно быстро получить рабочее решение.

XGBoost, LightGBM и CatBoost — три популярные open-source библиотеки, которые считаются золотым стандартом для работы со структурированными табличными данными и отлично подходят и опытным специалистам, и начинающим ML-разработчикам. Они часто применяются в рекомендательных системах и других задачах машинного обучения, особенно когда:

размер датасета ограничен;
важна интерпретируемость и скорость обучения;
модель должна работать с заранее построенными признаками.

Исследования показывают, что на структурированных данных XGBoost и аналогичные модели нередко превосходят глубокие нейросети по качеству и простоте настройки. Поэтому в соревнованиях и хакатонах такие инструменты используются наряду с deep learning — как бенчмарк или в паре с нейросетевыми моделями.

Инфраструктура и развёртывание

Разработка рекомендательной модели — половина задачи. Не менее важно сделать решение удобным для интеграции и воспроизводимым для команды. Здесь на помощь приходят современные open-source инструменты, которые позволяют быстро развёртывать проекты и эффективно управлять процессом экспериментов.

FastAPI — современный веб-фреймворк на Python, который отлично подходит для упаковки модели в REST API. С его помощью можно буквально в несколько строк кода развернуть сервис, к которому другие компоненты системы будут обращаться за рекомендациями. FastAPI автоматически генерирует документацию (Swagger UI), что ускоряет интеграцию и делает сервис понятным для команды.
DVC (Data Version Control) — инструмент для версионирования кода, данных, моделей, параметров и метрик. Он интегрируется с Git и позволяет отслеживать, на каких данных и с какими настройками обучалась каждая версия модели. Это особенно важно в условиях соревнования или командной разработки, где важна чёткая структура и контроль изменений, однако инструмент требует хороших знаний в ML и не подходит для новичков
MLflow и ClearML — инструменты для мониторинга экспериментов, логирования метрик, параметров и артефактов. Они позволяют сравнивать разные подходы, отслеживать прогресс команды и выбирать лучшие модели на основе полной истории обучения.

Инструмент	Для чего подходит	Преимущества	Когда не подойдёт	Что даёт в E-CUP
Surprise (scikit-surprise)	Коллаборативная фильтрация, эксперименты с алгоритмами	Много алгоритмов из коробки, удобный API	Последовательные/гибридные модели, глубокое обучение	Хорош для быстрого старта и создания базового рекомендателя
RecBole	Моделирование сложных рекомендательных систем	100+ моделей, гибкость, масштабируемость	Очень простые задачи, без нужды в настройке	Позволяет протестировать разные архитектуры и выбрать лучшую по метрике
Microsoft Recommenders	Прототипирование и изучение различных подходов	Хорошая документация, готовые примеры	Требуется лёгкая интеграция и минимальный код	Даст быстрое понимание, какие алгоритмы работают на выборках с пользовательской историей
TorchRec	Создание масштабируемых нейросетевых моделей	Интеграция с PyTorch, оптимизация под большие системы	Простые офлайн-задачи, ограниченные ресурсы	Подходит для решений, где важно качество и масштабируемость
XGBoost / LightGBM / CatBoost	Модели на табличных признаках, создание baseline-решения	Быстро обучаются, стабильные результаты	Работа с последовательностями или текстом напрямую	Улучшает результат за счёт ручных признаков: категории, бренды, статистики

Логистика и оптимизация маршрутов

Пример формулировки. Задача второго трека E-CUP 2025 — оптимизировать доставку. Участникам необходимо создать алгоритм, который распределит 20 000 заказов между 200 курьерами и минимизирует суммарное время их работы, учитывая микрополигоны и индивидуальную скорость выполнения заданий.

Разберем, какой подход к выбору инструментов можно использовать для решения подобных задач.

Особенности задачи

В машинном обучении логистические задачи чаще всего сводятся к оптимизации маршрутов, планированию перевозок и управлению цепочками поставок, соблюдая множество реальных ограничений.

Что делает задачу нетривиальной:

Классические алгоритмы маршрутизации быстро перестают работать при увеличении числа заказов и исполнителей. Понадобится эффективная эвристика или приближённые методы.
Простое деление территории не работает: требуется учитывать предварительно заданные зоны.
Курьеры работают по-разному: у них отличается скорость, доступность, временные рамки. Это напрямую влияет на построение маршрутов.
Решение должно быть достаточно быстрым, чтобы реально применяться в масштабной логистике.

Цель — не просто «оптимизировать», а сбалансировать. Важно не только минимизировать общее время, но и избежать перегрузки отдельных курьеров.

Выбор технологий

Для решения на первый план выходят:

Комбинаторная оптимизация.
Методы для Vehicle Routing Problem (VRP).
Алгоритмы поиска оптимальных решений.

Один из основных open-source инструментов для этих задач, подходящий и новичкам, и профессионалам — Google OR-Tools. Это набор быстрых портативных библиотек от Google для комбинаторной оптимизации и решения задач маршрутизации в логистике. Основные возможности:

VRP. Решение задач маршрутизации с множеством ограничений, в том числе по временным интервалам, вместимости транспорта, маршрутам с возвратом и без.
CP-SAT Solver. Мощный модуль для целочисленного линейного программирования с ограничениями. Подходит для сложных задач планирования и составления расписаний.

OR-Tools позволяет сформулировать логистическую задачу и решить её встроенными алгоритмами. Например, для маршрутизации доставки инструмент предлагает удобный API и примеры кода, позволяющие задать количество машин, адреса, матрицу расстояний и получить близкий к оптимальному план маршрутов.

Когда модель уже работает и задача решена на базовом уровне, стоит перейти к следующему шагу — учёту реалистичных ограничений, расписаний и ресурсов, которые делают модель ближе к практике. Здесь помогут геоданные, математическое программирование и прогнозирование. Для каждой задачи есть подходящие открытые решения.

Превращаем карты в алгоритмы: работа с геоданными

Если задача выходит за рамки абстрактной маршрутизации и требует учёта реальной дорожной сети, пригодятся специализированные инструменты для работы с картографическими данными. Они позволяют прокладывать пути с учётом физической инфраструктуры на основе OpenStreetMap и других источников.

Для этого используются движки, которые строят кратчайшие или оптимальные маршруты по картографическим данным:

GraphHopper.
OSRM (Open Source Routing Machine).

Эти инструменты особенно полезны, если в логистической задаче требуется учитывать реальные дороги и транспортные ограничения, однако требуют определенного навыка. Для более простого подхода есть готовые сервисы/библиотеки, облегчающие использование таких движков:

OpenRouteService — сервис и библиотека с API для маршрутизации и построения изохрон — зон достижимости по заданному времени .
pgRouting — расширение к PostGIS, которое позволяет искать маршруты прямо в базе данных.
OR-Tools — поддерживает расчёт маршрутов и оптимальных последовательностей точек с учётом расстояний и трафика.

Как описать логистику на языке формул

Логистическая задача может включать сложные ограничения и расписания. В таком случае она выходит за рамки классической маршрутизации, и понадобятся инструменты для решения оптимизационных моделей. В Python это библиотеки для математического программирования:

PuLP — простая и понятная библиотека для линейного программирования. Отличный выбор, если формулы — не самая сильная ваша сторона.
Pyomo — более гибкий фреймворк, позволяющий в алгебраической форме описывать переменные, ограничения и целевую функцию, однако предназначенный для опытных программистов.

С Pyomo можно подключать внешние и встроенные open-source солверы для поиска оптимального решения задачи, заданной в виде уравнений, ограничений и целевой функции:

CBC, HiGHS — для линейных и целочисленных задач.
SCIP — мощный решатель для целочисленного программирования, доступный для некоммерческого использования.
IPOPT — для задач без целочисленных переменных.

Совет. Один из плюсов Pyomo — простое переключение между солверами, буквально одной строкой кода. Это особенно удобно при экспериментах и подборе конфигураций под конкретную постановку задачи.

Библиотеки для математического программирования позволяют формализовать и решить в рамках полностью открытого стэка (например, Pyomo + CBC/HiGHS) даже сложные задачи по распределению товаров по складам, построению сменных графиков или многоресурсному планированию.

Но иногда ограничения задачи трудно выразить алгебраически, но можно описать логикой. Открытое ПО предлагает инструмент и для такого случая.

OptaPlanner — ведущий open-source движок на Java для решения задач планирования. Проект изначально разрабатывался под эгидой Red Hat. Сейчас он продолжает развитие под названием Timefold (open-core). Инструмент поддерживает эвристики, локальный поиск и другие методы оптимизации, позволяя находить приближённые решения даже в сложных случаях с множеством бизнес-правил. Отличный выбор для опытной ML-команды.

Совет. Движок позволяет задавать ограничения: временные окна, объёмы грузов, индивидуальные предпочтения и другие условия, актуальные в реальной логистике. Это гибкий инструмент, способный искать приближённые решения даже для очень сложных случаев, хотя требует понимания постановки ограничений.

Как прогнозирование усиливает модель

Чтобы точно спланировать логистику, часто нужно спрогнозировать спрос, объёмы заказов или время доставки. Это позволяет заранее оценить нагрузку, эффективно распределить ресурсы и передать более точную входную информацию в оптимизационные модели.

Поэтому могут потребоваться инструменты для прогнозирования, которые подходят и начинающим, и опытным специалистам:

LightGBM, CatBoost — бустинг снова помогает. Такие модели хорошо работают с агрегированными табличными признаками, особенно когда важна скорость и простота отладки.
Prophet (Meta) — библиотека для моделирования сезонности, трендов и праздничных эффектов. Удобна для быстрого прототипирования и понимания структуры временного ряда.
statsmodels — классическая библиотека для статистического моделирования. Поддерживает модели ARIMA, SARIMA и другие линейные подходы, часто применяемые в логистике.
GluonTS — библиотека от Amazon для глубокого прогнозирования временных рядов. Поддерживает как традиционные, так и нейросетевые модели (DeepAR и прочие).
Kats (Facebook/Meta) —инструмент с единой оболочкой для ARIMA, Prophet, нейросетевых моделей и анализа аномалий.

Эти библиотеки позволяют предсказывать количество будущих заказов, пики нагрузки, задержки в доставке, изменение спроса по регионам или временным интервалам. Но нередко в задаче требуется оперативное принятие решений в реальном времени, например, для диспетчеризации курьеров или реагирования на срочные заказы.

Тут помогут подходы на основе обучения с подкреплением, при котором модель учится принимать решения, взаимодействуя с окружающей средой. Экспериментируя и получая «награду» за быстрые доставки, минимальные издержки и балансировку нагрузки, ИИ-агент начинает принимать всё более разумные и гибкие решения с учетом прогнозируемых данных. Для экспертов в области ML можно рекомендовать две открытые библиотеки:

Ray RLlib.
Stable Baselines3.

Оба инструмента позволяют обучать агентов, которые учатся действовать в симулированной среде. Это особенно полезно, если есть симулятор логистического процесса: тогда можно обучить модель управлять автопарком, учитывать задержки, перераспределять ресурсы и минимизировать издержки в условиях неопределённости.

Инфраструктура и развёртывание

Как и в других треках, финальное решение по логистике нужно презентовать в понятной форме. Помимо FastAPI, который поможет быстро обернуть модель в API, в логистике особенно важна визуализация маршрутов. Библиотеки folium и Kepler.gl позволяют отобразить результаты на карте, что делает презентацию наглядной и понятной для жюри.

Для совместной работы с геоданными пригодятся GeoPandas и OSMnx — открытые инструменты, которые упрощают обработку координат, дорог и границ микрополигонов.

Инструмент	Для чего подходит	Преимущества	Когда не подойдёт	Что даёт в E-CUP
OR-Tools	Оптимизация маршрутов и расписаний	Гибкий API, поддержка VRP/CP задач	Очень нестандартные постановки, сложные логические ограничения	Быстрая маршрутизация курьеров с учётом микрополигонов и окон доставки
Pyomo	Формализация задач с ограничениями	Поддержка алгебраической постановки, совместимость с солверами	Простые задачи без строгих ограничений	Позволяет формализовать бизнес-ограничения: количество полигонов, время на заказ
PuLP	Линейное программирование	Простота, удобство для начальных задач	Сложные нелинейные или многоресурсные задачи	Подходит для минимального планирования и первых прототипов
GraphHopper / OSRM	Маршруты по картам OpenStreetMap	Учет дорожной сети, скорость	Задачи без привязки к реальной географии	Помогает учитывать реальные дороги и ограничения движения
OpenRouteService	Маршруты и изохроны через API	Готовый API, просто использовать	Нет контроля над внутренней логикой	Быстрое получение маршрутов и зон досягаемости
pgRouting	Маршрутизация в PostGIS	Работа прямо в БД	Проекты без PostGIS-инфраструктуры	Интеграция маршрутизации в базу координат микрополигонов
OptaPlanner (Timefold)	Гибкое планирование с логикой	Поддержка эвристик, правила и предпочтения	Нет Java-экспертизы, простые задачи	Поиск приближённых решений с учётом реальных ограничений и предпочтений

Контроль качества

Пример формулировки. Задача третьего трека E-CUP 2025 — защитить клиентов и репутацию Ozon, выявляя поддельные товары. Участникам необходимо разработать ML‑решение, которое по описанию и метаданным определяет, контрафакт это или нет.

Разберем, какой подход к выбору инструментов можно использовать для решения подобных задач.

Особенности задачи

Подобные задачи — отличный тест на умение работать с мультимодальными данными, проектировать пайплайн под реальные ограничения и находить неочевидные признаки отклонения от нормы. Что делает задачу технически интересной:

Мультимодальность. Решение должно учитывать сразу несколько источников информации: текстовые описания, характеристики товара и изображения.
Нестандартизованные входные данные. Названия, описания и визуальные признаки товаров могут быть неструктурированы, неполны или намеренно искажены.
Контрафакт не всегда очевиден — нужно искать неявные сигналы и отклонения от нормы, а не просто выявлять явные ошибки. Это ставит задачу ближе к обнаружению аномалий.
Система должна работать в потоке, без ручного вмешательства, и при этом оставаться воспроизводимой, стабильной и достаточно быстрой для применения в реальном времени.

Выбор технологии

Для подготовки решения в треке по поиску контрафакта стоит подсмотреть подходы, применяемые в промышленности для определения брака и дефектов с помощью машинного обучения и компьютерного зрения. В зависимости от доступных данных, применяются два основных метода:

Обучение с учителем — если имеются размеченные изображения годных и бракованных изделий, можно использовать модели классификации или обнаружения объектов для построения системы визуального контроля.
Обнаружение аномалий — когда разметка отсутствует или она неполная, подойдут подходы без учителя или слабо контролируемое обучение, при котором сравниваются текущие изображения с «эталонными» для выявления отклонений.

В таких условиях важно правильно выбрать подход к обучению модели — в зависимости от того, есть ли разметка и какие сигналы доступны. В индустрии для схожих задач контроля качества применяются как классические методы классификации, так и современные техники обнаружения аномалий и компьютерного зрения. Рассмотрим популярные и не только open-source инструменты.

Как классификация данных помогает распознавать дефекты

Имея даже небольшой датасет с разметкой дефектов, команда может воспользоваться готовыми open-source моделями и сразу получить систему автоматического визуального инспектирования.

Основные инструменты и библиотеки, которые подойдут для начинающих ML-специалистов:

PyTorch, TensorFlow/Keras — фреймворки глубокого обучения с поддержкой transfer learning. Позволяют дообучать предобученные модели под свою задачу.
ResNet, EfficientNet — предобученные архитектуры для задач классификации, которые хорошо адаптируются даже к небольшим датасетам.

Детекция аномалий: находим отклонения

Во многих случаях в контроле качества невозможно заранее собрать большой набор примеров брака. Например, дефекты появляются редко, могут быть новыми или трудно поддающимися классификации. В таких случаях задача формулируется как обнаружение аномалий — объектов, которые отклоняются от нормы.

Здесь лучше всего проявляют себя подходы без учителя, когда модель не знает правильных ответов и пытается самостоятельно найти структуру в данных. Есть две популярные библиотеки, и обе они подойдут и опытным, и начинающим ML-специалистам:

PyOD (Python Outlier Detection). Библиотека с поддержкой более 30 алгоритмов обнаружения аномалий — от статистических до нейросетевых. Поддерживает кластеризацию, одно-классовые SVM, изоляционные леса, автокодировщики и другие методы. Особенно полезна для табличных, сенсорных и гибридных данных, где дефекты не обязательно видны на изображении.
PySAD (Python Streaming Anomaly Detection). Библиотека для онлайн-обнаружения аномалий в потоках данных. Подходит для задач, где сведения поступают в систему в реальном времени, например, от датчиков производственной линии или видеокамер, и нужно быстро зафиксировать отклонение от нормы.

Совет: PySAD может дополнять PyOD в случаях, где важен мониторинг текущего состояния системы, а не только анализ исторических данных.

Как компьютерное зрение находит скрытые дефекты

В задачах визуального контроля особенно востребованы инструменты компьютерного зрения для поиска аномалий на изображениях. Один из самых современных open-source фреймворков для ML-специалистов любого уровня — Anomalib, разработанный сообществом OpenVINO.

Anomalib объединяет актуальные алгоритмы глубокого обучения для обнаружения и локализации аномалий. Инструмент часто показывает лучшие результаты на промышленных бенчмарках, таких как MVTec AD — набор изображений с типовыми производственными дефектами.

Совет. Главное преимущество Anomalib — простота использования. Можно взять предобученную на нормальных образцах модель, подать новое изображение и получить тепловую карту с подсвеченными аномальными участками. Это особенно ценно, когда нет готовой разметки брака.

Если есть желание углубиться в компьютерное зрение, то Anomalib поддерживает state-of-the-art методы: PaDiM, PatchCore, GANomaly, FastFlow и другие.

Развёртывание и интеграция

После разработки модели её нужно встроить в производственный процесс. Здесь пригодятся инструменты из DevOps/MLOps-практик:

FastAPI — быстрый способ создать REST API вокруг модели. Например, система может отправлять фотографии в API, а в ответ получать метку «годен/брак» и координаты дефекта. Такой сервис подключается буквально за считаные минуты.
DVC — для версионирования отснятых изображений, моделей и обучающих данных.
MLflow — для отслеживания экспериментов, сравнения качества разных подходов, хранения метрик и моделей.
FiftyOne, CVAT — удобные инструменты для визуализации и анализа предсказаний модели: можно просматривать изображения, аномалии, сегментации и вручную проверять ошибки.

Инструмент	Для чего подходит	Преимущества	Когда не подойдёт	Что даёт в E-CUP
PyTorch / TensorFlow	Обучение и дообучение моделей	Гибкость, поддержка transfer learning	Нет навыков DL, очень ограниченные ресурсы	Дообучение на размеченных примерах поддельных/настоящих товаров
Anomalib	Обнаружение визуальных аномалий	Поддержка SOTA моделей, удобство	Нет данных изображений или визуального сигнала	Подсветка аномалий на новых товарах без разметки
PyOD	Обнаружение аномалий в табличных/сенсорных данных	30+ алгоритмов, подходит под разные форматы	Много шума, без нормализованных признаков	Выявление нетипичных сочетаний признаков товара
PySAD	Аномалии в потоковых данных	Поддержка онлайн-режима	Исторический анализ, batch-задачи	Обнаружение отклонений в режиме реального времени
FiftyOne / CVAT	Визуализация и анализ ошибок	Удобная отладка и просмотр изображений	Не подходит для не-визуальных данных	Визуальный контроль предсказаний, ручная проверка

Подводим итог

Даже для такого масштабного соревнования, как E-CUP, сегодня доступен мощный арсенал open-source инструментов: от моделей и алгоритмов до средств развёртывания и визуализации. Они позволяют командам быстро перейти от идеи к рабочему прототипу, не теряя время на рутину и изобретение уже решённых задач.

Открытые решения дают гибкость, прозрачность и возможность адаптации под конкретный кейс. На хакатоне это особенно важно — скорость и креатив напрямую влияют на результат. Советы из статьи позволят выработать универсальный подход к решению типичных ML-задач и при необходимости легко адаптируются под специфику конкретного соревнования. Используя достижения open-source сообщества, команды могут сосредоточиться на самом главном — разработке уникального проекта.

Рекомендательные системы

Особенности задачи

Работа с данными: с чего начинается рекомендация

Выбор технологий

Ищем скрытые связи: как семантические графы усиливают рекомендации

Делаем модель умнее с градиентным бустингом

Инфраструктура и развёртывание

Логистика и оптимизация маршрутов

Особенности задачи

Выбор технологий

Превращаем карты в алгоритмы: работа с геоданными

Как описать логистику на языке формул

Как прогнозирование усиливает модель

Инфраструктура и развёртывание

Контроль качества

Особенности задачи

Выбор технологии

Как классификация данных помогает распознавать дефекты

Детекция аномалий: находим отклонения

Как компьютерное зрение находит скрытые дефекты

Развёртывание и интеграция

Подводим итог

Выбор стэка для ML-соревнования в вопросах и ответах

Оставьте заявку, мы подберем для вас лучшие решения для работы с ИТ-сообществом