От движения к смыслу: как Annotate помогает описывать видео для ИИ

Мультимодальные ИИ-системы всё чаще становятся частью повседневной цифровой жизни. Пользователь вводит текст — модель подбирает релевантное изображение, аудио или видео. Но чтобы такая система работала точно, ей нужен большой и качественно размеченный датасет.

В этом проекте Annotate подключился к масштабной задаче: разметке видео с целью формирования текстовых описаний фрагментов. Представьте: человек вводит запрос «колышется лист на ветру» — и получает видеоролик, где ветер действительно колышет листья. Чтобы такое стало возможным, нужно тысячи разметок, сделанных вручную.
О проекте
Клиент обратился с задачей:
  • обрабатывать видео длиной около 5 минут;
  • выделять фрагменты с наиболее динамичными действиями (от 5 до 60 секунд);
  • к каждому фрагменту писать 1−2 осмысленных, насыщенных предложения, описывающих происходящее в кадре.

Пример: «Стая голубей внезапно взмывает в небо, оставляя позади пустую площадь» или «Человек в синей куртке спешит через дорогу под моросящим дождём, укрываясь газетой».

Один ролик может содержать несколько таких фрагментов. Важно было избегать шаблонных, повторяющихся фраз и максимально учитывать детали: одежду, движения, атмосферу, настроение сцены.

Разметка велась через внутреннюю платформу клиента.
Как работала команда Annotate
Проект стартовал в мае 2024 года и продолжается по сей день. В команде работают 15 операторов Annotate, обученных под специфику задачи.

  • Сначала прошла тестовая разметка и отбор исполнителей;
  • Разметка выполняется вручную: операторы просматривают видео, выделяют ключевые отрезки, пишут описания;
  • Каждое описание проходит модерацию на стороне клиента.
Оптимизация процесса
Со временем команда выработала стандарты, которые:
  • повысили разнообразие и выразительность описаний;
  • снизили процент отклонённых фрагментов;
  • позволили ускорить работу без потери качества.
Внутри Annotate внедрена система обратной связи и предварительной проверки, что помогает стабильно удерживать высокий уровень разметки.
Почему клиент выбрал Annotate
  • Умение быстро сформировать команду под задачу;
  • Прозрачные процессы и адаптивность к внутренней платформе клиента;
  • Лучшее соотношение качество / скорость / масштаб по итогам теста.
Результаты
  • Обработаны тысячи видео;
  • Сформированы десятки тысяч фрагментов с подробными и разнообразными текстовыми описаниями;
  • Данные легли в основу обучения мультимодальной модели, способной по тексту подбирать релевантное видео.
Выводы
Этот кейс показывает, что разметка — это не только про полигоны и bounding box. В мире мультимодальных моделей текст имеет не меньшую ценность. Annotate умеет:

  • быстро масштабировать команды под нестандартные задачи;
  • обеспечивать качество даже при высоких требованиях к деталям;
  • эффективно участвовать в построении ИИ будущего.
Работаете с мультимодальными моделями?
Annotate поможет масштабировать текстовую разметку — быстро, гибко и с высокой точностью.

Оставить заявку →

Дата публикации: 17.10.2025