Взлет китайских генеративных видеомоделей
Если 2022 год ознаменовался годом, когда генеративный ИИ действительно захватил воображение публики, то 2025 год, похоже, станет годом, когда новая волна генеративных видеофреймворков из Китая займет центральное место.
Hunyuan Video от Tencent уже произвел значительный фурор в сообществе любителей ИИ. Его выпуск с открытым исходным кодом диффузионной модели видео всего мира позволяет пользователям адаптировать технологию к своим конкретным потребностям.
Вслед за ним идет Wan 2.1 от Alibaba, выпущенный совсем недавно. Эта модель выделяется как одно из самых мощных решений Free and Open Source Software (FOSS) для преобразования изображений в видео, доступных в настоящее время, и теперь она поддерживает настройку с помощью Wan LoRAs.
В дополнение к этим разработкам мы также ожидаем выпуска комплексного пакета VACE для создания и редактирования видео от Alibaba, а также доступности недавней ориентированной на человека базовой модели SkyReels.
Сцена исследований генеративного видео ИИ столь же взрывоопасна. Еще только начало марта, а количество заявок, поданных во вторник в раздел компьютерного зрения Arxiv (ключевой центр для статей по генеративному ИИ), составило почти 350 – число, которое обычно наблюдается в разгар сезона конференций.
Два года, прошедшие с момента запуска Stable Diffusion летом 2022 года (и последующей разработки методов настройки Dreambooth и LoRA), характеризовались относительным отсутствием крупных прорывов. Однако последние несколько недель стали свидетелями всплеска новых выпусков и инноваций, поступающих с такой скоростью, что практически невозможно оставаться в курсе, не говоря уже о том, чтобы всесторонне освещать все.
Решение проблемы временной согласованности, но возникают новые проблемы
Модели диффузии видео, такие как Hunyuan и Wan 2.1, наконец-то решили проблему временной согласованности. После многих лет безуспешных попыток сотен исследовательских инициатив эти модели в значительной степени решили проблемы, связанные с генерацией последовательных людей, окружения и объектов с течением времени.
Нет никаких сомнений в том, что студии VFX активно выделяют персонал и ресурсы для адаптации этих новых китайских видеомоделей. Их ближайшая цель – решить насущные проблемы, такие как замена лиц, несмотря на текущее отсутствие вспомогательных механизмов типа ControlNet для этих систем.
Должно быть, это огромное облегчение, что такое значительное препятствие потенциально преодолено, даже если это произошло не через ожидаемые каналы.
Однако среди оставшихся проблем одна выделяется как особенно значимая:
Все доступные в настоящее время системы преобразования текста в видео и изображения в видео, включая коммерческие модели с закрытым исходным кодом, имеют тенденцию создавать ошибки, нарушающие законы физики. В приведенном выше примере показан камень, катящийся вверх, сгенерированный из подсказки: ‘Маленький камень катится вниз по крутому каменистому склону, смещая почву и мелкие камни’.
Почему ИИ-видео искажают физику?
Одна из теорий, недавно предложенная в академическом сотрудничестве между Alibaba и ОАЭ, предполагает, что модели могут обучаться таким образом, что это мешает их пониманию временного порядка. Даже при обучении на видео (которые разбиваются на последовательности отдельных кадров для обучения), модели могут не понимать правильную последовательность изображений “до” и “после”.
Однако наиболее правдоподобное объяснение состоит в том, что рассматриваемые модели использовали процедуры аугментации данных. Эти процедуры включают в себя демонстрацию модели исходного обучающего клипа как вперед, так и назад, фактически удваивая объем обучающих данных.
Уже некоторое время известно, что этого не следует делать без разбора. Хотя некоторые движения работают в обратном направлении, многие – нет. Исследование 2019 года, проведенное Бристольским университетом в Великобритании, было направлено на разработку метода различения эквивариантных, инвариантных и необратимых исходных видеоклипов в одном наборе данных. Цель состояла в том, чтобы отфильтровать неподходящие клипы из процедур аугментации данных.
Авторы этой работы четко сформулировали проблему:
‘Мы обнаружили, что реалистичность перевернутых видео выдают артефакты реверса, аспекты сцены, которые были бы невозможны в естественном мире. Некоторые артефакты едва заметны, в то время как другие легко заметить, например, перевернутое действие ‘броска’, когда брошенный объект спонтанно поднимается с пола.
‘Мы наблюдаем два типа артефактов реверса: физические, демонстрирующие нарушения законов природы, и невероятные, изображающие возможный, но маловероятный сценарий. Они не являются взаимоисключающими, и многие перевернутые действия страдают от обоих типов артефактов, например, при расправлении листа бумаги.
‘Примеры физических артефактов включают: инвертированную гравитацию (например, ‘падение чего-либо’), спонтанные импульсы на объектах (например, ‘вращение ручки’) и необратимые изменения состояния (например, ‘горение свечи’). Пример невероятного артефакта: взять тарелку из шкафа, вытереть ее и поставить на сушилку.
‘Такое повторное использование данных очень распространено во время обучения и может быть полезным – например, для того, чтобы модель не изучала только один вид изображения или объекта, который можно перевернуть или повернуть без потери его центральной согласованности и логики.
‘Это работает только для объектов, которые действительно симметричны, конечно; и изучение физики по ‘перевернутому’ видео работает только в том случае, если перевернутая версия имеет столько же смысла, сколько и прямая версия.’
У нас нет конкретных доказательств того, что такие системы, как Hunyuan Video и Wan 2.1, допускали произвольные “перевернутые” клипы во время обучения (ни одна из исследовательских групп не уточняла свои процедуры аугментации данных).
Однако, учитывая многочисленные сообщения (и мой собственный практический опыт), единственное другое разумное объяснение состоит в том, что гипермасштабные наборы данных, питающие эти модели, могут содержать клипы, которые действительно показывают движения, происходящие в обратном направлении.
Камень в примере видео, встроенном ранее, был сгенерирован с использованием Wan 2.1. Он представлен в новом исследовании, которое исследует, насколько хорошо модели диффузии видео справляются с физикой.
В тестах для этого проекта Wan 2.1 набрал всего 22% в своей способности последовательно придерживаться законов физики.
Удивительно, но это лучший результат среди всех протестированных систем, что позволяет предположить, что мы, возможно, определили следующее серьезное препятствие для видео ИИ:
Представляем VideoPhy-2: новый бенчмарк для физического здравого смысла
Авторы новой работы разработали систему бенчмаркинга, которая сейчас находится во второй итерации, под названием VideoPhy. Код доступен на GitHub.
Хотя объем работы слишком велик, чтобы охватить его здесь всесторонне, давайте рассмотрим его методологию и его потенциал для установления метрики, которая могла бы направлять будущие сеансы обучения моделей, избегая этих причудливых случаев реверса.
Исследование, проведенное шестью исследователями из UCLA и Google Research, называется VideoPhy-2: A Challenging Action-Centric Physical Commonsense Evaluation in Video Generation. Также доступен исчерпывающий сопутствующий сайт проекта, а также код и наборы данных на GitHub и средство просмотра наборов данных на Hugging Face.
Авторы описывают последнюю версию, VideoPhy-2, как “сложный набор данных для оценки здравого смысла для реальных действий”. Коллекция включает 197 действий в различных физических активностях, включая вращение обруча, гимнастику и теннис, а также взаимодействие с объектами, например, сгибание объекта до тех пор, пока он не сломается.
Большая языковая модель (LLM) используется для генерации 3840 подсказок из этих начальных действий. Затем эти подсказки используются для синтеза видео с использованием различных тестируемых фреймворков.
На протяжении всего процесса авторы составили список “кандидатских” физических правил и законов, которым должны соответствовать видео, сгенерированные ИИ, используя модели “зрение-язык” для оценки.
Авторы заявляют:
‘Например, в видео о спортсмене, играющем в теннис, физическим правилом будет то, что теннисный мяч должен следовать параболической траектории под действием силы тяжести. Для суждений по золотому стандарту мы просим аннотаторов-людей оценивать каждое видео на основе общего семантического соответствия и физического здравого смысла, а также отмечать его соответствие различным физическим правилам.’
Курирование действий и генерация подсказок
Первоначально исследователи курировали набор действий для оценки физического здравого смысла в видео, сгенерированных ИИ. Они начали с более чем 600 действий, полученных из наборов данных Kinetics, UCF-101 и SSv2, сосредоточив внимание на действиях, связанных со спортом, взаимодействием с объектами и реальной физикой.
Две независимые группы аннотаторов-студентов, прошедших подготовку в области STEM (с минимальной квалификацией бакалавра), просмотрели и отфильтровали список. Они выбрали действия, которые проверяли такие принципы, как гравитация, импульс и упругость, удалив при этом задачи с низкой подвижностью, такие как набор текста, поглаживание кошки или жевание.
После дальнейшего уточнения с помощью Gemini-2.0-Flash-Exp для устранения дубликатов окончательный набор данных включал 197 действий. 54 включали взаимодействие с объектами, а 143 были сосредоточены на физической и спортивной деятельности:
На втором этапе исследователи использовали Gemini-2.0-Flash-Exp для генерации 20 подсказок для каждого действия в наборе данных, в результате чего получилось 3940 подсказок. Процесс генерации был сосредоточен на видимых физических взаимодействиях, которые можно было четко представить в сгенерированном видео. Это исключало невизуальные элементы, такие как эмоции, сенсорные детали и абстрактный язык, но включало разнообразных персонажей и объекты.
Например, вместо простой подсказки, такой как ‘Лучник выпускает стрелу’, модель была ориентирована на создание более подробной версии, такой как ‘Лучник натягивает тетиву до полного натяжения, затем выпускает стрелу, которая летит прямо и попадает в яблочко на бумажной мишени’.
Поскольку современные видеомодели могут интерпретировать более длинные описания, исследователи дополнительно уточнили подписи, используя апсемплер подсказок Mistral-NeMo-12B-Instruct. Это добавило визуальные детали, не изменяя исходного значения.
Вывод физических правил и выявление сложных действий
На третьем этапе физические правила были выведены не из текстовых подсказок, а из сгенерированных видео. Это связано с тем, что генеративные модели могут испытывать трудности с соблюдением обусловленных текстовых подсказок.
Сначала были созданы видео с использованием подсказок VideoPhy-2, а затем “дополнены” с помощью Gemini-2.0-Flash-Exp для извлечения ключевых деталей. Модель предложила три ожидаемых физических правила для каждого видео. Аннотаторы-люди просмотрели и расширили их, выявив дополнительные потенциальные нарушения.
Затем, чтобы определить наиболее сложные действия, исследователи сгенерировали видео с использованием CogVideoX-5B с подсказками из набора данных VideoPhy-2. Затем они выбрали 60 из 197 действий, в которых модель последовательно не следовала как подсказкам, так и базовому физическому здравому смыслу.
Эти действия включали богатые физикой взаимодействия, такие как передача импульса при метании диска, изменения состояния, такие как сгибание объекта до тех пор, пока он не сломается, задачи балансировки, такие как ходьба по канату, и сложные движения, которые включали сальто назад, прыжки с шестом и подбрасывание пиццы, среди прочего. В общей сложности было выбрано 1200 подсказок, чтобы увеличить сложность поднабора данных.
Набор данных VideoPhy-2: исчерпывающий ресурс для оценки
Полученный набор данных включал 3940 подписей – в 5,72 раза больше, чем в предыдущей версии VideoPhy. Средняя длина исходных подписей составляет 16 токенов, в то время как длина подписей после апсемплинга достигает 138 токенов – в 1,88 раза и 16,2 раза больше соответственно.
Набор данных также включает 102 000 аннотаций, сделанных людьми, охватывающих семантическое соответствие, физический здравый смысл и нарушения правил в нескольких моделях генерации видео.
Определение критериев оценки и аннотации, сделанные людьми
Затем исследователи определили четкие критерии для оценки видео. Основная цель состояла в том, чтобы оценить, насколько хорошо каждое видео соответствует своей входной подсказке и следует основным физическим принципам.
Вместо простого ранжирования видео по предпочтениям они использовали обратную связь на основе рейтинга, чтобы зафиксировать конкретные успехи и неудачи. Аннотаторы-люди оценивали видео по пятибалльной шкале, что позволяло делать более подробные суждения. Оценка также проверяла, следуют ли видео различным физическим правилам и законам.
Для оценки, сделанной людьми, группа из 12 аннотаторов была отобрана из испытаний на Amazon Mechanical Turk (AMT) и предоставила рейтинги после получения подробных удаленных инструкций. Для справедливости семантическое соответствие и физический здравый смысл оценивались отдельно (в исходном исследовании VideoPhy они оценивались совместно).
Аннотаторы сначала оценивали, насколько хорошо видео соответствуют своим входным подсказкам, затем отдельно оценивали физическую правдоподобность, оценивая нарушения правил и общий реализм по пятибалльной шкале. Отображались только исходные подсказки, чтобы сохранить справедливое сравнение между моделями.
Автоматизированная оценка: на пути к масштабируемой оценке моделей
Хотя суждение человека остается золотым стандартом, оно дорого и сопряжено с некоторыми оговорками. Поэтому автоматизированная оценка необходима для более быстрой и масштабируемой оценки моделей.
Авторы статьи протестировали несколько моделей “видео-язык”, включая Gemini-2.0-Flash-Exp и VideoScore, на их способность оценивать видео на семантическую точность и “физический здравый смысл”.
Модели снова оценивали каждое видео по пятибалльной шкале. Отдельная задача классификации определяла, соблюдаются ли физические правила, нарушаются или неясны.
Эксперименты показали, что существующие модели “видео-язык” с трудом соответствуют суждениям людей, в основном из-за слабого физического мышления и сложности подсказок. Чтобы улучшить автоматизированную оценку, исследователи разработали VideoPhy-2-Autoeval, модель с 7 миллиардами параметров, предназначенную для обеспечения более точных прогнозов по трем категориям: семантическое соответствие; физический здравый смысл; и соблюдение правил. Она была дообучена на модели VideoCon-Physics с использованием 50 000 аннотаций, сделанных людьми*.
Тестирование генеративных видеосистем: сравнительный анализ
Имея эти инструменты, авторы протестировали ряд генеративных видеосистем, как с помощью локальных установок, так и, при необходимости, через коммерческие API: CogVideoX-5B; VideoCrafter2; HunyuanVideo-13B; Cosmos-Diffusion; Wan2.1-14B; OpenAI Sora; и Luma Ray.
Моделям давались подсказки с апсемплингом, где это было возможно, за исключением того, что Hunyuan Video и VideoCrafter2 работают с ограничениями CLIP в 77 токенов и не могут принимать подсказки, превышающие определенную длину.
Сгенерированные видео были ограничены 6 секундами, поскольку более короткий вывод легче оценивать.
Исходными данными был набор данных VideoPhy-2, который был разделен на эталонный и обучающий наборы. Для каждой модели было сгенерировано 590 видео, за исключением Sora и Ray2; из-за фактора стоимости для этих моделей было сгенерировано эквивалентное меньшее количество видео.
Первоначальная оценка касалась физической активности/спорта (PA) и взаимодействия с объектами (OI) и тестировала как общий набор данных, так и вышеупомянутый “более сложный” поднабор:
Здесь авторы комментируют:
‘Даже лучшая модель, Wan2.1-14B, достигает только 32,6% и 21,9% на полном и сложном поднаборах нашего набора данных соответственно. Ее относительно высокую производительность по сравнению с другими моделями можно объяснить разнообразием ее мультимодальных обучающих данных, а также надежной фильтрацией движения, которая сохраняет высококачественные видео в широком диапазоне действий.
‘Кроме того, мы наблюдаем, что закрытые модели, такие как Ray2, работают хуже, чем открытые модели, такие как Wan2.1-14B и CogVideoX-5B. Это говорит о том, что закрытые модели не обязательно превосходят открытые модели в плане отражения физического здравого смысла.
‘Примечательно, что Cosmos-Diffusion-7B достигает второго лучшего результата на сложном поднаборе, даже превосходя гораздо большую модель HunyuanVideo-13B. Это может быть связано с высокой представленностью действий человека в ее обучающих данных, а также с синтетически визуализированными симуляциями.’
Результаты показали, что видеомодели больше боролись с физическими действиями, такими как спорт, чем с более простыми взаимодействиями с объектами. Это говорит о том, что для улучшения видео, сгенерированных ИИ, в этой области потребуются лучшие наборы данных – в частности, высококачественные кадры таких видов спорта, как теннис, метание диска, бейсбол и крикет.
Исследование также изучило, коррелирует ли физическая правдоподобность модели с другими показателями качества видео, такими как эстетика и плавность движения. Результаты не выявили сильной корреляции, что означает, что модель не может улучшить свою производительность на VideoPhy-2, просто генерируя визуально привлекательное или плавное движение – ей необходимо более глубокое понимание физического здравого смысла.
Качественные примеры: освещение проблем
Хотя статья предоставляет множество качественных примеров, немногие из статических примеров, представленных в PDF, похоже, относятся к обширным видеопримерам, которые авторы предоставляют на сайте проекта. Поэтому мы рассмотрим небольшую подборку статических примеров, а затем еще несколько реальных видеороликов проекта.
Относительно приведенного выше качественного теста авторы комментируют:
‘[Мы] наблюдаем нарушения физического здравого смысла, такие как неестественное движение гидроциклов задним ходом и деформация твердой кувалды, что противоречит принципам упругости. Однако даже Wan страдает от отсутствия физического здравого смысла, как показано в [клипе, встроенном в начале этой статьи].
‘В этом случае мы подчеркиваем, что камень начинает катиться и ускоряться вверх по склону, нарушая физический закон гравитации.’
Как упоминалось в начале, объем материала, связанного с этим проектом, намного превышает то, что можно охватить здесь. Поэтому, пожалуйста, обратитесь к исходной статье, сайту проекта и связанным сайтам, упомянутым ранее, для действительно исчерпывающего описания процедур авторов, а также значительно большего количества примеров тестирования и процедурных деталей.
* Что касается происхождения аннотаций, в статье указано только ‘приобретены для этих задач’ – кажется, что это много для 12 работников AMT.
Впервые опубликовано в четверг, 13 марта 2025 г.