Фильм как набор данных: почему ИИ меняет производство кино

Кино — это данные. Каждый сценарий можно разложить на сущности, а каждую сцену — на параметры. Машинное обучение помогает превратить эти данные в инструмент: автоматизировать планирование, визуализацию и оценку контента.

Сегодня искусственный интеллект способен стать полноправным участником киносъёмочной группы: сценарным ассистентом, художником по превизу, аналитиком и даже советником продюсера. Именно такие решения предстоит создавать участникам Wink AI Challenge — хакатона на стыке IT и кино с призовым фондом 1 125 000 рублей.

А в этой статье разберёмся, как выглядит полный ML-маршрут в киноиндустрии, который способен ускорить производство фильмов и сериалов.

Содержание

Модель данных фильма
Сценарий как структура
Этап 1. Формализация
Этап 2. Извлечение сущностей
Этап 3. Проверка целостности сценария
Бонусный этап: как превратить данные в деньги
Подготовка к съёмкам с ИИ
Этап 1. Генерация превизуализации
Этап 2. Управление кадром
Этап 3. Связь сценария с кадром
Бонусный этап: выбираем художественный стиль
ML как инструмент принятия решений
Этап 1. Определяем задачу
Этап 2. Обнаружение критериев
Этап 3. Формирование отчёта и рекомендаций
Единый ML-маршрут кинопроизводства

Модель данных фильма

Каждая сцена фильма содержит десятки параметров: локации, персонажи, реквизит, время, свет, звук. Они формируют основу производственного цикла и необходимы для планирования съёмок, бюджета, маркетинга и промо. Эти этапы нередко оформляются в виде связанных таблиц, поэтому многие этапы кинопроизводства можно анализировать, оптимизировать и даже автоматизировать с помощью ML.

Рассмотрим этот процесс на примере культовой сцены из фильма Стэнли Кубрика «Космическая Одиссея 2001 года».

Командир исследовательского корабля Discovery One Дейв Боуман возвращается на борт судна в спасательной капсуле. Он приказывает бортовому компьютеру HAL 9000 открыть шлюз, чтобы пристыковаться. Искусственный интеллект спокойным, почти ласковым голосом объявляет астронавта угрозой и отказывается впустить внутрь, обрекая на гибель.

Сцена на первый взгляд не выглядит очень сложной. Она практически статична: демонстрируется общий план корабля и шаттла, ожидающего стыковки. В кадре находится всего один актёр, который разговаривает с ИИ. Роль HAL 9000 исполняет легендарный «красный глаз». Из звука — только фоновый шум систем Discovery One.

Но для ML-инженера эта сцена — огромный источник данных, которые могут помочь и упростить планирование съёмок и постпродакшен фильма:

Из сценария можно автоматически извлечь структуру сцен: кто участвует, где происходит действие и при каком освещении. В примере из «Космической Одиссеи» — один персонаж-человек (Дейв), один искусственный интеллект (HAL), локации — кабина корабля, шлюз и капсула. Модель могла бы рассчитать, что для съёмки понадобится минимум актёров и смен, но сложное освещение и работа с макетами, а также подготовить ТЗ для актёра озвучания, которому предстоит нелёгкая задача отыграть одним лишь голосом неоднозначного персонажа-ИИ, способного на сарказм и скрытые угрозы.
Из описания операторских приёмов в режиссёрском сценарии можно автоматически построить черновой шот-лист или превизуализацию сцены. В документе может быть указано: «панорама на аппаратную комнату с HAL», «крупный план лица Дейва», «крупный план “красного глаза”». ML-модель могла бы распознать эти элементы и сгенерировать монтажную схему «человек ↔ ИИ» или даже визуальную раскадровку по описанию.
Из описаний реквизита и декораций — составить инвентаризационный список и рассчитать потребности съёмки. Упоминания вроде «скафандр», «модель корабля», «кабина капсулы», «панели управления» могут быть автоматически классифицированы по категориям: костюмы, декорации, спецэффекты.
Из диалогов — определить эмоциональную тональность и потенциально «рисковые» реплики для проверки возрастного рейтинга. Разговор между персонажами «Alright HAL, I’ll go in through the emergency airlock. — Without your space helmet Dave…you’re going to find that rather difficult» может быть классифицирован как напряжённый конфликт и угроза жизни, что даст повод отнести сцену к категории 12+ или 16+. Особый интерес в интерпретации этой реплики — саркастичный тон HAL 9000, который требует учёта характера и мотивации персонажа для правильного анализа: он не предупреждает Дейва об опасности, а планирует убийство.
Из ремарок в сценарии — построить черновой звуковой план и разметить аудиособытия. Модель может выделить реплики, фоновый шум и тип звуковой среды — всё это данные для синтеза, очистки или адаптации озвучки.

Любопытный факт: изначально классическая музыка, звучащая в «Космической одиссее», была временной заглушкой. Когда композитор Алекс Норт уже написал оригинальный саундтрек, Кубрик решил оставить произведения Штрауса и Хачатуряна. Современная ML-система могла бы сильно упростить внесение таких радикальных изменений и избежать проблем на поздних этапах постпродакшена — например, подсказать риски лицензирования или предложить альтернативы на основе темпа и настроения сцены.

«Космическая Одиссея» стала одним из самых масштабных и технологически сложных фильмов во всей истории кинематографа. Работа над картиной продвигалась медленно и с сильным отставанием от графика. К счастью, современный ИИ совершенно не похож на HAL 9000 и может помочь с производством даже такого эпичного кино. Рассмотрим конкретные подходы и технологии, которые способны структурировать сценарий, ускорить этапы превизуализации и подготовить материалы к промо.

Сценарий как структура

Сценарий — ядро фильма. Зачастую он создаётся на самом раннем этапе для того, чтобы формализовать идею проекта и дать ему «зелёный свет» — автор приносит текст в киностудию, и продюсер решает, стоит ли материал запускать в производство. Сценарий помогает учесть, что понадобится для создания готового фильма: сцены, персонажи, которые будут в них играть, локации для съемок, необходимый реквизит.

Хотя сценарий уже содержит почти всю информацию, необходимую для съёмок, она записана в литературной форме, плохо предназначенной для машинного анализа. Для обработки с помощью ML нужны не художественные детали, а измеряемые единицы:

Локация влияет на транспорт, аренду, свет, график актёров.
Персонажи и массовка — это конкретные актёры, смены, грим, костюмы.
Реквизит требует закупки, хранения и доставки на место съёмок.
Спецэффекты влияют на постпродакшн, CGI, работу команды пиротехников.

Поэтому ML-система должна уметь распознавать эти сущности (NER) и привязывать их к сценам.

Этап 1. Формализация

Для написания сценария существуют определённые правила: шрифт, объём текста, деление на сцены, описание реплик и места действия. Но они созданы для людей, чтобы продюсер и режиссёр могли открыть текст на любой странице и быстро найти там нужную информацию.

Для цифровой обработки сценария необходимо использовать машинно-читаемые форматы. Для оформления на русском языке чаще всего использутся стандарт, основанный на Fountain. Он подходит для того, чтобы сценарии можно было писать в любом текстовом редакторе, а потом легко конвертировать и перенести в профессиональные программы, например, FilmToolz. Формат основан на принципах Markdown: структура задаётся разметкой через символы, а не визуальным форматированием.

1-1. ИНТ. ОФИС. НОЧЬ Сцен. день 3.
 
ИРИНА
СЕРГЕЙ
 
Небольшой кабинет освещён светом монитора. За столом сидит ИРИНА,
инженер по данным. На экране — код и графики.
 
ИРИНА
(шёпотом)
Если модель ошибается на этих данных... значит, дело не в данных.
 
Она встаёт, подходит к окну. За стеклом — город, мерцающий огнями.
 
СЕРГЕЙ
(спокойно)
Иногда нужно просто довериться алгоритму.
 
Ирина закрывает ноутбук и гасит свет.

Пример оформления сцены

Как читать этот пример:

Каждая сцена в сценарии начинается с заголовка, который задаёт место и время действия. Он всегда пишется заглавными буквами и начинается с ИНТ. (интерьер) или НАТ. (экстерьер). ML-модель может классифицировать типы сцен и использовать это при расчёте смен, света и логистики.
Далее указывается название локации и, при необходимости, уточняющая информация: ШКОЛА.КАБИНЕТ ДИРЕКТОРА. После объекта идёт информация и времени суток: УТРО / ДЕНЬ / ВЕЧЕР / НОЧЬ и при необходимости номер сценарного дня. Для сериалов в начале проставляется номер серии и сцены: 1-12. Для полнометражных картин будет достаточно указать только сцену: 12.
Обычный текст без специальных символов интерпретируется как описание действий или обстановки. Он идёт сразу после заголовка сцены. ML-модель может применить эти данные, чтобы определить, какие объекты взаимодействуют, использовать их как источник для генерации раскадровок.
Когда начинается реплика, имя персонажа пишется заглавными буквами, обычно по центру строки. Реплики пишутся под именем персонажа, без кавычек. Персонажей можно указать прямо в шапке, если в сцене есть немые роли без реплик. Парсер понимает, что дальше будут строки диалога, на основе которых можно автоматически составить список всех действующих лиц и посчитать их количество по сценам. Можно анализировать тональность, эмоции, длину реплик.
Ремарки обычно оформляются в круглых скобках и размещаются под именем персонажа — описывают, как произносится реплика.

Final Draft (.fdx)

Стандарт разработан для одноименной программы Final Draft и предназначен для машин. Файл fdx представляет собой XML-документ, внутри которого сценарий разбит на структурированные блоки с тегами. Несмотря на то, что формат практически не используется при работе с русскоязычными текстами, приведение к такой структуре может оказаться более удобным для машинной обработки.

<?xml version="1.0" encoding="UTF-8"?>
<FinalDraft DocumentType="Script" Template="Standard Template" Version="1">
  <Content>
    <Paragraph Type="Scene Heading" Number="1">INT. OFFICE - NIGHT</Paragraph>
    <Paragraph Type="Action">Небольшой кабинет освещён светом от монитора. За столом сидит ИРИНА, инженер по данным. На экране — строки кода и графики.</Paragraph>
    <Paragraph Type="Character">ИРИНА</Paragraph>
    <Paragraph Type="Parenthetical">(шёпотом)</Paragraph>
    <Paragraph Type="Dialogue">Если модель ошибается на этих данных... значит, дело не в данных.</Paragraph>
    <Paragraph Type="Action">Она встаёт, подходит к окну. За стеклом — город, мерцающий огнями.</Paragraph>
    <Paragraph Type="Character">СЕРГЕЙ (V.O.)</Paragraph>
    <Paragraph Type="Parenthetical">(спокойно)</Paragraph>
    <Paragraph Type="Dialogue">Иногда нужно просто довериться алгоритму.</Paragraph>
    <Paragraph Type="Action">Ирина закрывает ноутбук и гасит свет.</Paragraph>
    <Paragraph Type="Transition">CUT TO:</Paragraph>
  </Content>
</FinalDraft>

Пример оформления сцены в формате Final Draft

Общая структура файла. Сценарий хранится внутри тега <FinalDraft>. Главная часть содержится в <Content>, а каждая строка сценария заключена в <Paragraph> с атрибутом Type.
Типы параграфов. Каждая строка сценария в .fdx имеет тип. Для ML-инженера — это готовая разметка NER. Каждый тег уже определяет тип сущности, поэтому модель может не угадывать, а читать структуру напрямую.
Атрибуты и идентификаторы. Каждый параграф может иметь внутренний ID, что позволяет отслеживать связи между элементами. Это удобно при построении графа отношений персонажей или автоматическом подсчёте количества реплик для каждого актёра.

Этап 2. Извлечение сущностей

На этом этапе сценарий перестаёт быть художественным текстом и превращается в структурированные данные, пригодные для аналитики, планирования и расчёта бюджета. Сущность в контексте сценария — это единица информации, которую можно однозначно выделить из текста и использовать в дальнейших вычислениях.

Для извлечения таких сущностей применяются NER-модели (Named Entity Recognition) — разновидность NLP-моделей, которые выделяют элементы текста и классифицируют их по типам, например Location, Character, Prop, Effect. Это универсальная техника извлечения структурированной информации из неразмеченного текста.

Чаще всего NER-модели обучены на новостных или диалоговых корпусах, что не подходит для работы со сценариями — в них нужны доменные типы. В отличие от стандартных текстов, сценарии:

содержат сцены и реплики — разные стили внутри одного документа;
имена персонажей повторяются много раз, часто без артиклей;
локации могут меняться по монтажу, а не линейно.

Поэтому ключевая задача ML-инженера на этом этапе — создать собственную схему аннотации и маппинг между Fountain/FDX-элементами и категориями NER. Модели стоит дообучать с учётом структурных подсказок в зависимости от выбранного формата, например:

разделение по сценам (INT./EXT. — явный сигнал для Location);
заглавные строки (часто Character);
круглые скобки — ремарки (Tone, Action).

При fine-tuning модели можно добавить в эмбеддинги позиционные признаки — например, токен принадлежит сцене, диалогу или ремарке.

Этап 3. Проверка целостности сценария

После того как сущности извлечены, сценарий важно проверить на логическую и структурную целостность. На этом этапе система работает как модуль QA: выявляет пропуски, несоответствия и дубли — то, что на съёмочной площадке неизбежно обернулось бы потерей времени и бюджета. Цель проверки — убедиться, что сценарий можно использовать для автоматического планирования и расчётов без ручной доразметки.

Что стоит сделать:

Первый уровень — проверка полноты. Система анализирует, есть ли у каждой сцены минимальный набор параметров, необходимых для производства: место действия, время суток, персонажи и т.д.
Второй уровень — проверка согласованности. Даже при полном наборе данных сценарий может быть структурно противоречив: например, персонажи появляются в сцене до своего первого упоминания или одинаковая локация записана под разными именами
На третьем уровне система может анализировать смысловые и временные связи между сценами. Для этого используются более продвинутые модели — от rule-based подходов до LLM, которые способны учитывать контекст. Система может заметить, что герой говорит в сцене, хотя по описанию уже покинул локацию, или действия персонажей противоречат предыдущим сценам.

Бонусный этап: как превратить данные в деньги

Зачем нужны все сложности со специфической разметкой сценариев и извлечением данных? Чтобы применить ML-модель для реальной помощи продюсеру и превратить факты из сценария в измеримые показатели: время съёмки, количество смен, бюджет.

Как это сделать:

Используйте простые эвристики — не обязательно строить сложную модель. На старте можно задать базовые правила. Например, три персонажа в сцене принимаются за 0,5 смены, а ночная съёмка — это увеличение времени на 20%.
Добавьте весовые коэффициенты для разных типов сцен. Можно создать словарь признаков, к примеру, на основе коэффициента сложности сцены.
Используйте извлечённые данные повторно. NER-модель уже выделяет локации, персонажей, спецэффекты. Добавьте небольшой модуль, который суммирует их по сценам без необходимости обучать новую нейросеть.
Добавьте визуализацию. Даже простая диаграмма (например, распределение сцен по сложности или длительности) делает результат более понятным для продюсеров.
Подумайте о сценарных аномалиях. В тексте регулярно могут встречаться нетипичные ситуации, которые важно корректно анализировать для правильного расчёта бюджета и времени. Если система видит сцену с 1 персонажем и 20 строками диалога — это разговор по рации или монолог. Требования к съёмке этого эпизода могут быть строже, либо, напротив, проще.

Подготовка к съёмкам с ИИ

NER-модель, способная анализировать сценарий — мощный инструмент, который может лечь в основу других решений, упрощающих производство фильмов. Например, ИИ-ассистент может научиться генерировать раскадровки, иллюстрации, схему движения камеры.

В киноиндустрии над превизуализацией работает отдельная команда художников. ML-модель способна взять на себя часть этой работы — преобразовать текст сценария в визуальную раскадровку автоматически. Это поможет команде проекта гораздо раньше увидеть и оценить все сцены заранее, до того, как будет запущен самый сложный и затратный процесс — съёмка.

Этап 1. Генерация превизуализации

На первом этапе необходимо решить задачу автоматической превизуализации. После того, как NER-модель извлекла из сценария ключевые сущности — локации, персонажей, объекты, атмосферу и действия —ML-система должна сгенерировать визуальные представления этих сцен:

Text-to-Image модели создают отдельные кадры и раскадровки — статические ключевые сцены, композиции, концепт-арты.
Text-to-Video модели формируют короткие клипы и аниматики, показывая движение камеры, смену ракурсов и динамику света.

Золотой стандарт для работы с изображениями — Stable Diffusion. Это базовая и самая популярная open-source модель для генерации изображений по описанию. Её главное преимущество — наличие готовых чекпоинтов под разные стили, которые могут быть легко расширены пользовательскими моделями вроде Open Journey или DreamShaper. Также существуют и другие надстройки: например, ControlNet для управления кадрами.

При желании можно использовать российскую альтернативу SD — Kandinsky 3.1. Модель также работает по принципу диффузии и хорошо справляется с композиционными сценами и надписями на кириллице.

Среди открытых Text-to-Video моделей обратить внимание стоит на Text2Video-Zero — это хороший baseline для исследовательских целей, который умеет преобразовывать любой текст в видео без обучения. Также хороший выбор для старта — Zeroscope v2 XL, легковесная модель, создающая видео длительностью 3-5 секунд в разрешении 480p.

Также с превизуализацией видео отлично справляются:

Wan-AI — «золотой стандарт» среди open-source решений для генерации видео. Позволяет создавать реалистичные ролики с плавной динамикой и высоким визуальным качеством, поддерживает длинные последовательности кадров и гибко адаптируется под стилистику сцены.
VideoCrafter — открытая альтернатива Runway Gen-2. Генерирует видео 16–32 кадра, поддерживает text-to-video и image-to-video режимы.

Этап 2. Управление кадром

После генерации ключевых кадров следующая задача — сделать визуализацию управляемой. Чтобы персонажи сохраняли идентичность от сцены к сцене, а их позы и ракурсы можно было регулировать, необходимо подключить дополнительные модели. Они помогут превратить набор картинок в связную кинематографическую раскадровку.

Простую классификацию и поиск персонажей, реквизита и локаций можно реализовать с помощью модели детектирования объектов по текстовому описанию Grounding DINO. Она совместима с моделью для выделения контуров Segment Anything Model (SAM) и ControlNet для детекции ключевых точек человеческого тела и поз, что позволит создать сильную связку для автоматической сегментации персонажей и реквизита для их повторного использования в других кадрах.

Сценарий не статичен — персонажи постоянно двигаются, а локации сменяются. Базовые модели неспособны учитывать эти параметры, поэтому нужны инструменты, которые позволят сохранять преемственность кадров:

ControlNet. Надстройка для Stable Diffusion, которая добавляет контроль над структурой изображения. Позволяет фиксировать позы, контуры и композицию, поддерживает ввод в виде скелетных схем или depth maps.
Depth Anything. Модель для создания карты глубины, чтобы при следующей генерации оставить пространство неизменным.
InsightFace. Модель для проверки согласованности внешнего вида персонажей между сценами. Определяет, один ли это персонаж на разных изображениях.
Track-Anything. Добавляет поддержку трекинга объектов и персонажей в видео для контроля движения персонажей и стабильности визуализации между кадрами, что особенно важно при генерации клипов.

Этап 3. Связь сценария с кадром

После того как сцены сгенерированы и структурированы, важно убедиться, что соблюдено соответствие визуализации тексту. Даже если кадры визуально стабильны, важно убедиться, что они соответствуют сценарию по смыслу и отражают его содержание: эмоции, атмосферу, отношения персонажей. Для этого можно использовать мультимодальные CLIP-подобные модели, которые учатся совместно на текстах и изображениях. Например, они могут предложить исправить визуальный фокус сцены и изменить освещение на более подходящее.

OpenCLIP — самый популярный и простой инструмент для этой задачи. Открытая версия модели CLIP обучена на огромном мультимодальном датасете LAION-5B и способна преобразовывать изображения и тексты в эмбеддинги общего пространства, где можно измерять их семантическое сходство. Отлично подходит для baseline-решения благодаря универсальности и возможности быстро проверить, насколько картинка соответствует описанию.
BLIP — более продвинутая и сложная мультимодальная модель. Сочетает визуальный энкодер (ViT) и языковую GPT-подобную модель. Умеет генерировать текстовые описания и отвечать на вопросы по изображению. Глубже «понимает» сцену — может объяснить, что происходит в кадре.
CLIP2Video — расширяет концепцию CLIP-моделей на видео и учитывает временную последовательность кадров, извлекая общий семантический вектор для целого клипа. Идеально подходит для оценки соответствия коротких превиз-роликов сценарию, но требует очень больших вычислительных ресурсов и предобработки кадров.

CLIP-подобные решения хорошо подходят для оценки соответствия текста и изображения.
Но если нужно понять всю сцену целиком, подойдут мультимодальные архитектуры. Qwen3-Omni — модель, которая объединяет анализ текста, изображения, аудио и видео. Она помогает оценивать визуальное соответствие сценарию, эмоциональный тон, взаимодействие персонажей и звуковое оформление, для глубокого анализа сцен, где важно учитывать и визуальную, и акустическую составляющую.

Как работает семантическая связь изображений с текстом:

В фильме «Бегущий по лезвию» есть сцена, которая могла бы быть описана в сценарии так: «Декард выходит из автомобиля под дождём и медленно идёт по тёмной улице, освещённой неоновыми вывесками. Камера поднимается вверх, показывая переполненный город будущего».
OpenCLIP рассчитывает степень семантического сходства между текстом и изображением. Если в кадре модель «видит» человека, автомобиль, дождь и улицу, метрика сходства будет высокой — значит, картинка соответствует сценарию.
BLIP может описать сцену своими словами или ответить на уточняющий вопрос.
CLIP2Video анализирует серию кадров и оценивает, насколько динамика видео соответствует сценарию. Например, модель проверяет, действительно ли персонаж выходит из машины и идёт по улице, а не просто стоит на месте.

Бонусный этап: выбираем художественный стиль

ИИ-ассистент может адаптировать превулизацию к разным стилям: реализму, ретрофутуризму, нуару, триллеру, анимации. Такой функционал позволит на ранних стадиях производства быстро проверять, как один и тот же сценарий выглядит в разных жанровых концепциях.

Стилизация сцен помогает не только режиссёрам и художникам-постановщикам, но и маркетинговым командам: можно заранее подготовить визуальные референсы под разные целевые аудитории, обложки для презентаций или тизерные материалы.

Для этой задачи можно использовать:

IP-Adapter — лёгкая модель для переноса художественного стиля с референсного изображения.
DreamBooth — позволяет обучить модель на визуальном стиле конкретного художника или проекта.
LoRA — быстрый способ адаптировать Stable Diffusion под нужный визуальный стиль без полного переобучения.

Такой подход помогает студии гибко тестировать визуальную концепцию, не тратя недели на ручной концепт-арт, и ускоряет процесс принятия решений.

ML как инструмент принятия решений

ИИ-ассистенты для киноиндустрии способны не только помогать в производственных задачах. Они могут использоваться для аналитики и творческих решений: прогнозировать кассовые сборы, автоматизировать монтаж, адаптировать контент. Рассмотрим один из таких подходов — определение сцен, которые могут потенциально влиять на повышение возвратного рейтинга фильма. Это помогает продюсеру заранее оценить ограничения и скорректировать сценарий или маркетинговую стратегию.

Этап 1. Определяем задачу

Продюсеры изначально ориентируются на конкретный возрастной рейтинг — он напрямую влияет на целевую аудиторию и коммерческий успех проекта. Однако в процессе производства в сценарий могут случайно попасть элементы, которые будут мешать получить нужную категорию. Такие случаи ставят команду перед сложным выбором: переснимать фрагменты картины, исключать важные сцены или же переориентировать фильм на более взрослую аудиторию. ML-система поможет избежать подобных инцидентов, если она понимает, как устроена оценка кино.

Возрастной рейтинг — это система классификации контента, которая определяет, какая аудитория может безопасно просматривать фильм, сериал или игру. Цель — предупредить зрителей о наличии сцен, способных вызвать страх, дезориентацию. Рейтинг напрямую влияет на стратегию продвижения: кино с высоким ограничением 16+ или 18+ требует присутствия взрослых зрителей, сокращает дневные сеансы в кинотеатрах и может повлиять на рекламные кампании. В отдельных случаях наличие спорных сцен может привести к запрету проката.

Наиболее известные международные стандарты: MPAA (США) и BBFC (Великобритания). В России возрастные ограничения регулируются Законом № 436-ФЗ «О защите детей от информации, причиняющей вред их здоровью и развитию» и системой RARS (Russian Age Rating System, Возрастная классификация информационной продукции). Несмотря на различия в названиях категорий, критерии у рейтингов схожи:

Тематика насилия (физическое, психологическое, сексуальное).
Сцены употребления алкоголя, наркотиков, табака.
Откровенные или сексуальные сцены.
Нецензурная лексика и оскорбления.
Страх, тревожность, жестокость, кровь.

Наличие таких признаков само по себе не приводит к плашке 18+ — эксперты учитывают контекст. Та же сцена может получить разный рейтинг в зависимости от того, как и зачем она используется: удар в боевике не так сильно повлияет на рейтинг, как избиение в бытовой драме. Также учитывается форма подачи, длительность демонстрации контента и интенсивность. Даже лёгкие элементы (например, редкое употребление алкоголя) при многократном повторении повышают рейтинг. После анализа всех критериев система формирует сводный рейтинг, который и определяет возрастные ограничения.

Таким образом, задача модели — не просто обнаружить и запретить определённые сцены, а оценить их интенсивность и контекст, чтобы предположить категорию.

Этап 2. Обнаружение критериев

Определить возрастной рейтинг — значит понять не только, что показано или сказано в сцене, но и в каком контексте это происходит. Машинное обучение должно научиться отличать единичное упоминание от сюжетного приёма, бытовой диалог от унижения, приключенческое насилие от жестокости. Есть три подхода к анализу, которые могут как дополнять друг друга, так и использоваться независимо друг от друга.

Анализ сценария

Помогает определить смысл и эмоциональный тон текста: кто говорит, что делает и в каком контексте. Используется для поиска триггерных слов, анализа диалогов и определения настроения сцены. Главное преимущество подхода — он может определить элементы, негативно влияющие на рейтинг, ещё до начала активной фазы производства фильма, когда кроме текста ничего нет.

Здесь пригодятся NLP-модели:

RuBERT — предобученный трансформер для русского языка с готовыми чекпоинтами и пайплайнами Hugging Face отлично подойдёт для классификации реплик и сцен по категориям, а также определения тональности.
GPT-NeoX и MPT-7B-Instruct — модели для более сложных задач, которые способны глубже интерпретировать контекст сцены: определять мотивацию персонажей и сюжетную оправданность «рисковых» элементов.

Работа с визуалом

ИИ способен оценить, что именно происходит в кадре, присутствуют ли элементы насилия, страха, употребления веществ. Особенно полезно применять этот тип анализа сразу же после создания превизуализации и заранее выявить рисковые визуальные элементы.

Самое простое решение — снова использовать OpenCLIP, который уже применялся на этапе генерации превиза. Для данной задачи инструмент позволит обнаружить, действительно ли в кадре присутствует оружие, кровь или сигареты, которые были указаны в описании.

Но можно дополнить систему и другими моделями, чтобы расширить возможности:

ViLBERT — мощное решение для анализа композиции сцены и контекста, использование которого ограничивает только необходимость предобработки кадров.
Whisper — модель для распознавания речи поможет проанализировать, какие темы обсуждают персонажи и как часто используют нецензурную лексику.
Wav2Vec 2.0 — модель для извлечения векторных представлений речи, которая позволяет анализировать звуковые паттерны, идентифицировать говорящих, определять эмоции.

Мультимодальные классификаторы

По визуальному ряду или тексту сценария не всегда можно понять контекст, который так важен для определения возрастного рейтинга.

Например, в сцене «исправления» главного героя Алекса в «Заводном апельсине» Кубрика по описанию не происходит ничего ужасного (его просто заставляют смотреть видео), но снята она очень гротескно и пугающе. И наоборот, мультяшное насилие из «Тома и Джерри» или «Ну, погоди!» может показаться очень жестоким, но стилизация, звуковое сопровождение и юмор персонажей дают понять, что всё происходит понарошку.

Мультимодальные системы объединяют текстовые и визуальные признаки, формируя итоговую оценку для каждой сцены и всего проекта. Для решения этой задачи лучше всего подойдут уже упомянутые выше решения для семантического анализа сцен BLIP и CLIP2Video, а также сочетание VisualBERT + BERT, если нужна простая комбинация текстового и визуального энкодеров с линейным классификатором для финального решения о рейтинге фильма.

Этап 3. Формирование отчёта и рекомендаций

Цель интерпретации результатов — представить выводы модели в понятной форме для продюсеров, сценаристов и монтажёров. Важно, чтобы ИИ не просто ставил метку рейтинга, а объяснял, почему он сделал такой вывод и что можно изменить, чтобы скорректировать категорию фильма.

Что ожидает получить продюсер:

Отчёт по рисковым сценам с эпизодами, в которых система обнаружила признаки, влияющие на рейтинг: насилие, нецензурную лексику, откровенные сцены. Пример отчёта: Сцена 24 — категории «Насилие», «Страх». Вероятный рейтинг: 16+. Причина — драка и выраженные крики.
Прогноз возрастной категории фильма на основе суммарных оценок по сценам с указанием, какие факторы повлияли на решение. Это позволит принять решение — стоит ли смягчать отдельные эпизоды или оставить фильм в текущей категории.
Возможность пересчитать бюджет. Рейтинг повлияет на прокат: 16+ и 18+ ограничивают аудиторию, а значит, уменьшают потенциальную выручку. Можно будет заранее адаптировать маркетинговые материалы для определенной возрастной группы.
Рекомендации для сценариста и монтажёра. Алгоритм предложит конкретные правки: заменить слова с высокой эмоциональной нагрузкой, укоротить сцены насилия, уменьшить психологическое воздействие.

Чтобы реализовать такую систему, заранее организуйте в проекте агрегацию данных: храните результаты в pandas DataFrame или SQLite с колонками: scene_id, risk_factor, probability, recommendation. Для визуализации отчёта подойдут инструменты Plotly или Streamlit — можно сделать тепловую карту сценария, где красные сегменты обозначают сцены с повышенным риском. Сгенерировать pdf-отчёт можно через ReportLab с кратким резюме и автоматическими подсказками.

Единый ML-маршрут кинопроизводства

Фильм — это набор данных, проходящих через полный ML-конвейер: от текста — к изображению, от анализа — к интерпретации, от факта — к решению. Если объединить все этапы, описанные выше, получится связанная цепочка:

Сценарий:

→ NER и структурирование сущностей (локации, персонажи, реквизит).

→ Анализ сценария (NLP) и извлечение рисковых элементов.

→ Генерация превизуализации (text-to-image / text-to-video).

→ Управление кадром (ControlNet, , SAM).

→ Семантическая проверка сцен (CLIP, BLIP, CLIP2Video).

→ Оценка контента и прогноз возрастного рейтинга.

→ Формирование отчёта и рекомендаций для продюсера.

Но кинопроизводство — это сложная экосистема, где пересекаются творчество, технологии и строгая организация процессов. ML уже умеет помогать на каждом этапе: от сценария до финального монтажа. Но ни одна модель пока не способна заменить режиссёра, продюсера или актёра — она лишь помогает сделать рутину прозрачной и решения осознанными.

Участие человека необходимо на самых важных этапах кинопроизводства:

Художественное решение. Алгоритм предложит композицию, но не придумает визуальный язык сцены.
Интерпретация смысла. Машина может распознать эмоцию, но не почувствовать подтекст.
Этические и культурные нюансы. Только человек способен понять, уместна ли шутка, не обидит ли образ зрителя.
Интуиция продюсера и режиссёра. Они решают, где риск уместен, а где может привести к провалу кинокартины.

Разработать собственное решение, которое ускорит производство фильмов и сериалов, можно на Wink AI Challenge — первом в России хакатоне, посвящённом применению ИИ в кинопроизводстве.

Регистрация открыта до 31 октября.

Приглашаем ML-инженеров, backend- и frontend-разработчиков, специалистов в DevOps, MLOps, а также инженеров в сфере мультимедиа.

Вас ждёт:

Призовой фонд — 1 125 000 рублей.
Разработка ML-модели, которую оценят и будут использовать продюсеры популярных российских фильмов и сериалов.
Работа с настоящими сценариями и видеоматериалами, анализ текстов, извлечение сущностей, генерация структуры съёмок.
Задачи, основанные на реальных кейсах, с которыми продюсеры сталкиваются каждый день.

Треки Wink AI Challenge:

Трек «Платформа автоматического разбора и структурирования сценариев». Разработайте решение, которое на основе сценария проведет анализ каждой сцены, определит место действия, персонажей, реквизит и поможет оптимизировать планирование съемок.
Трек «Автоматическая проверка возрастной категории по сценарию». Обучите систему определять возрастную категорию контента и выделять ключевые сцены, влияющие на рейтинг. Решение сэкономит время профильных юристов и облегчит адаптацию контента для разных медиа.
Трек «Интеллектуальный сервис превизуализации сценариев». Создайте систему, которая превращает текст сценария в превиз с эскизами, ключевыми кадрами, анимацией и возможностью командного редактирования.