Защо AI Видеата Грешат Понякога

Възходът на Китайските Генеративни Видео Модели

Ако 2022 г. бележи годината, в която генеративният AI наистина завладя общественото въображение, то 2025 г. се очертава като годината, в която нова вълна от генеративни видео рамки от Китай заема централно място.

Tencent’s Hunyuan Video вече предизвика значителни вълни в любителската AI общност. Неговото пускане с отворен код на дифузионен модел за видео в целия свят позволява на потребителите да приспособят технологията към специфичните си нужди.

Следвайки плътно зад него е Wan 2.1 на Alibaba, пуснат наскоро. Този модел се откроява като едно от най-мощните решения за преобразуване на изображение във видео с безплатен и отворен код (FOSS), налични в момента, и вече поддържа персонализиране чрез Wan LoRAs.

В допълнение към тези разработки, ние също така очакваме пускането на цялостния пакет за създаване и редактиране на видео VACE на Alibaba, заедно с наличието на скорошния, ориентиран към човека основен модел, SkyReels.

Сцената на изследванията на генеративния видео AI е също толкова експлозивна. Все още е началото на март, но подадените във вторник документи в секцията за компютърно зрение на Arxiv (ключов център за документи за генеративен AI) възлизат на близо 350 записа – брой, който обикновено се наблюдава по време на пика на конферентния сезон.

Двете години след стартирането на Stable Diffusion през лятото на 2022 г. (и последващото развитие на методите за персонализиране Dreambooth и LoRA) се характеризираха с относителна липса на големи пробиви. През последните няколко седмици обаче станахме свидетели на скок на нови издания и иновации, пристигащи с такава бърза скорост, че е почти невъзможно да бъдем напълно информирани, камо ли да покрием всичко изчерпателно.

Решаване на Времевата Последователност, Но Възникват Нови Предизвикателства

Видео дифузионните модели като Hunyuan и Wan 2.1 най-накрая се справиха с проблема с времевата последователност. След години на неуспешни опити от стотици изследователски инициативи, тези модели до голяма степен разрешиха предизвикателствата, свързани с генерирането на последователни хора, среди и обекти във времето.

Няма съмнение, че VFX студията активно отделят персонал и ресурси, за да адаптират тези нови китайски видео модели. Тяхната непосредствена цел е да се справят с належащи предизвикателства като смяна на лица, въпреки настоящата липса на спомагателни механизми в стил ControlNet за тези системи.

Трябва да е огромно облекчение, че такава значителна пречка е потенциално преодоляна, дори и да не е станало чрез очакваните канали.

Сред останалите проблеми обаче един се откроява като особено значим:

Всички налични в момента системи за преобразуване на текст във видео и изображение във видео, включително комерсиални модели със затворен код, имат склонност да произвеждат груби грешки, които противоречат на физиката. Примерът по-горе показва камък, който се търкаля нагоре, генериран от подканата: „Малък камък се търкаля надолу по стръмен, скалист склон, измествайки почва и малки камъни“.

Защо AI Видеата Грешат с Физиката?

Една теория, предложена наскоро в академично сътрудничество между Alibaba и ОАЕ, предполага, че моделите може да се учат по начин, който възпрепятства разбирането им за времевия ред. Дори когато се обучават на видеоклипове (които са разбити на последователности от един кадър за обучение), моделите може да не схващат по същество правилната последователност от изображения „преди“ и „след“.

Най-правдоподобното обяснение обаче е, че въпросните модели са използвали рутинни процедури за увеличаване на данните. Тези процедури включват излагане на модела на изходен тренировъчен клип както напред, така и назад, което ефективно удвоява данните за обучение.

От известно време е известно, че това не трябва да се прави безразборно. Докато някои движения работят в обратна посока, много не го правят. Проучване от 2019 г. от Университета в Бристол, Обединеното кралство, имаше за цел да разработи метод за разграничаване между еквивариантни, инвариантни и необратими изходни видеоклипове в рамките на един набор от данни. Целта беше да се филтрират неподходящите клипове от рутинните процедури за увеличаване на данните.

Авторите на тази работа ясно формулираха проблема:

‘Откриваме, че реализмът на обърнатите видеоклипове се предава от артефакти на обръщането, аспекти на сцената, които не биха били възможни в естествения свят. Някои артефакти са фини, докато други са лесни за забелязване, като обърнато действие „хвърляне“, при което хвърленият обект спонтанно се издига от пода.

‘Наблюдаваме два вида артефакти на обръщането: физически, тези, които показват нарушения на законите на природата, и невероятни, тези, които изобразяват възможен, но малко вероятен сценарий. Те не са изключителни и много обърнати действия страдат и от двата вида артефакти, като например при размачкване на лист хартия.

‘Примери за физически артефакти включват: обърната гравитация (напр. „изпускане на нещо“), спонтанни импулси върху обекти (напр. „завъртане на химикалка“) и необратими промени в състоянието (напр. „изгаряне на свещ“). Пример за невероятен артефакт: вземане на чиния от шкафа, изсушаването й и поставянето й върху сушилника.

‘Този вид повторно използване на данни е много често срещан по време на обучение и може да бъде полезен – например, за да се гарантира, че моделът не научава само един изглед на изображение или обект, който може да бъде обърнат или завъртян, без да губи своята централна съгласуваност и логика.

‘Това работи само за обекти, които са наистина симетрични, разбира се; и изучаването на физика от „обърнато“ видео работи само ако обърнатата версия има толкова смисъл, колкото и предната версия.’

Нямаме конкретни доказателства, че системи като Hunyuan Video и Wan 2.1 са позволили произволни „обърнати“ клипове по време на обучение (нито една от изследователските групи не е била конкретна относно своите рутинни процедури за увеличаване на данните).

Въпреки това, като се имат предвид многобройните доклади (и моя собствен практически опит), единственото друго разумно обяснение е, че хипермащабните набори от данни, захранващи тези модели, може да съдържат клипове, които наистина показват движения, протичащи в обратна посока.

Камъкът в примерния видеоклип, вграден по-рано, е генериран с помощта на Wan 2.1. Той е представен в ново проучване, което изследва колко добре видео дифузионните модели се справят с физиката.

В тестовете за този проект Wan 2.1 постигна резултат от само 22% в способността си да се придържа последователно към физическите закони.

Изненадващо, това е най-добрият резултат сред всички тествани системи, което предполага, че може би сме идентифицирали следващото голямо препятствие за видео AI:

Представяме Ви VideoPhy-2: Нов Бенчмарк за Физически Здрав Разум

Авторите на новата работа са разработили система за бенчмаркинг, сега във втората си итерация, наречена VideoPhy. Кодът е достъпен в GitHub.

Въпреки че обхватът на работата е твърде широк, за да бъде обхванат изчерпателно тук, нека разгледаме неговата методология и потенциала му да установи показател, който би могъл да насочи бъдещите сесии за обучение на модели далеч от тези странни случаи на обръщане.

Проучването, проведено от шестима изследователи от UCLA и Google Research, е озаглавено VideoPhy-2: Предизвикателна Оценка на Физическия Здрав Разум, Ориентирана към Действието, в Генерирането на Видео. Наличен е и изчерпателен придружаващ сайт на проекта, заедно с код и набори от данни в GitHub, и визуализатор на набори от данни в Hugging Face.

Авторите описват най-новата версия, VideoPhy-2, като „предизвикателен набор от данни за оценка на здравия разум за действия в реалния свят“. Колекцията включва 197 действия в редица разнообразни физически дейности, включително въртене на обръч, гимнастика и тенис, както и взаимодействия с обекти като огъване на обект, докато се счупи.

Голям езиков модел (LLM) се използва за генериране на 3840 подкани от тези начални действия. След това тези подкани се използват за синтезиране на видеоклипове с помощта на различните тествани рамки.

По време на целия процес авторите са съставили списък с „кандидат“ физически правила и закони, към които трябва да се придържат генерираните от AI видеоклипове, използвайки модели визия-език за оценка.

Авторите заявяват:

‘Например, във видеоклип на спортист, който играе тенис, физическо правило би било, че тенис топката трябва да следва параболична траектория под действието на гравитацията. За преценки по златен стандарт, ние молим човешки анотатори да оценят всеки видеоклип въз основа на цялостното семантично придържанеи физически здрав разум и да отбележат съответствието му с различни физически правила.’

Куриране на Действия и Генериране на Подкани

Първоначално изследователите курираха набор от действия, за да оценят физическия здрав разум в генерираните от AI видеоклипове. Те започнаха с над 600 действия, извлечени от наборите от данни Kinetics, UCF-101 и SSv2, като се фокусираха върху дейности, включващи спорт, взаимодействия с обекти и физика в реалния свят.

Две независими групи от обучени в STEM студенти анотатори (с минимална бакалавърска квалификация) прегледаха и филтрираха списъка. Те избраха действия, които тестваха принципи като гравитация, импулс и еластичност, като същевременно премахнаха задачи с ниско движение като писане, галене на котка или дъвчене.

След допълнително усъвършенстване с Gemini-2.0-Flash-Exp за елиминиране на дубликати, крайният набор от данни включва 197 действия. 54 включваха взаимодействия с обекти, а 143 бяха съсредоточени върху физически и спортни дейности:

Във втората фаза изследователите използваха Gemini-2.0-Flash-Exp, за да генерират 20 подкани за всяко действие в набора от данни, което доведе до общо 3940 подкани. Процесът на генериране се фокусира върху видими физически взаимодействия, които могат да бъдат ясно представени в генериран видеоклип. Това изключва невизуални елементи като емоции, сензорни детайли и абстрактен език, но включва разнообразни герои и обекти.

Например, вместо проста подкана като „Стрелецът пуска стрелата“, моделът беше насочен да създаде по-подробна версия като „Стрелецът изтегля тетивата назад до пълно напрежение, след което пуска стрелата, която лети право и удря биволско око върху хартиена мишена“.

Тъй като съвременните видео модели могат да интерпретират по-дълги описания, изследователите допълнително усъвършенстваха надписите, използвайки Mistral-NeMo-12B-Instruct upsampler за подкани. Това добави визуални детайли, без да променя първоначалното значение.

Извличане на Физически Правила и Идентифициране на Предизвикателни Действия

За третия етап физическите правила бяха извлечени не от текстови подкани, а от генерирани видеоклипове. Това е така, защото генеративните модели могат да се затруднят да се придържат към обусловени текстови подкани.

Първо бяха създадени видеоклипове с помощта на подкани VideoPhy-2, след което бяха „надписани“ с Gemini-2.0-Flash-Exp, за да се извлекат ключови детайли. Моделът предложи три очаквани физически правила за всеки видеоклип. Човешки анотатори прегледаха и разшириха тези, като идентифицираха допълнителни потенциални нарушения.

След това, за да идентифицират най-предизвикателните действия, изследователите генерираха видеоклипове с помощта на CogVideoX-5B с подкани от набора от данни VideoPhy-2. След това те избраха 60 от 197 действия, при които моделът последователно не успя да следва както подканите, така и основния физически здрав разум.

Тези действия включваха богати на физика взаимодействия като прехвърляне на импулс при хвърляне на диск, промени в състоянието като огъване на обект, докато се счупи, задачи за балансиране като ходене по въже и сложни движения, които включваха салта назад, овчарски скок и хвърляне на пица, наред с други. Общо 1200 подкани бяха избрани, за да се увеличи трудността на поднабора от данни.

Наборът от Данни VideoPhy-2: Изчерпателен Ресурс за Оценка

Полученият набор от данни включва 3940 надписа – 5,72 пъти повече от по-ранната версия на VideoPhy. Средната дължина на оригиналните надписи е 16 токена, докато надписаните надписи достигат 138 токена – съответно 1,88 пъти и 16,2 пъти по-дълги.

Наборът от данни също така включва 102 000 човешки анотации, обхващащи семантично придържане, физически здрав разум и нарушения на правилата в множество модели за генериране на видео.

Дефиниране на Критерии за Оценка и Човешки Анотации

След това изследователите дефинираха ясни критерии за оценка на видеоклиповете. Основната цел беше да се оцени колко добре всеки видеоклип съответства на входната си подкана и следва основните физически принципи.

Вместо просто да класират видеоклиповете по предпочитание, те използваха обратна връзка, базирана на рейтинг, за да уловят конкретни успехи и неуспехи. Човешки анотатори оценяваха видеоклипове по петобална скала, което позволява по-подробни преценки. Оценката също така проверяваше дали видеоклиповете следват различни физически правила и закони.

За човешка оценка група от 12 анотатори бяха избрани от изпитания на Amazon Mechanical Turk (AMT) и предоставиха оценки след получаване на подробни дистанционни инструкции. За справедливост семантичното придържане и физическият здрав разум бяха оценени отделно (в оригиналното проучване VideoPhy те бяха оценени съвместно).

Анотаторите първо оцениха колко добре видеоклиповете съответстват на входните им подкани, след което отделно оцениха физическата правдоподобност, оценявайки нарушенията на правилата и цялостния реализъм по петобална скала. Бяха показани само оригиналните подкани, за да се поддържа справедливо сравнение между моделите.

Автоматизирана Оценка: Към Мащабируема Оценка на Модела

Въпреки че човешката преценка остава златният стандарт, тя е скъпа и идва с няколко уговорки. Следователно автоматизираната оценка е от съществено значение за по-бързи и по-мащабируеми оценки на модела.

Авторите на статията тестваха няколко видео-езикови модела, включително Gemini-2.0-Flash-Exp и VideoScore, за способността им да оценяват видеоклипове за семантична точност и за „физически здрав разум“.

Моделите отново оцениха всеки видеоклип по петобална скала. Отделна задача за класификация определи дали физическите правила са спазени, нарушени или неясни.

Експериментите показаха, че съществуващите видео-езикови модели се затрудняват да съответстват на човешките преценки, главно поради слабите физически разсъждения и сложността на подканите. За да подобрят автоматизираната оценка, изследователите разработиха VideoPhy-2-Autoeval, модел със 7B параметъра, предназначен да предоставя по-точни прогнози в три категории: семантично придържане; физически здрав разум; и съответствие с правилата. Той беше фино настроен върху модела VideoCon-Physics, използвайки 50 000 човешки анотации*.

Тестване на Генеративни Видео Системи: Сравнителен Анализ

С тези инструменти на място, авторите тестваха редица генеративни видео системи, както чрез локални инсталации, така и, когато е необходимо, чрез комерсиални API: CogVideoX-5B; VideoCrafter2; HunyuanVideo-13B; Cosmos-Diffusion; Wan2.1-14B; OpenAI Sora; и Luma Ray.

Моделите бяха подканени с надписани надписи, където е възможно, с изключение на това, че Hunyuan Video и VideoCrafter2 работят при ограничения от 77 токена CLIP и не могат да приемат подкани над определена дължина.

Генерираните видеоклипове бяха ограничени до по-малко от 6 секунди, тъй като по-краткият изход е по-лесен за оценка.

Движещите данни бяха от набора от данни VideoPhy-2, който беше разделен на бенчмарк и набор за обучение. Бяха генерирани 590 видеоклипа на модел, с изключение на Sora и Ray2; поради фактора на разходите, за тези модели бяха генерирани еквивалентни по-малки бройки видеоклипове.

Първоначалната оценка се занимаваше с физически дейности/спорт (PA) и взаимодействия с обекти (OI) и тестваше както общия набор от данни, така и гореспоменатия „по-труден“ поднабор:

Тук авторите коментират:

‘Дори най-добре представящият се модел, Wan2.1-14B, постига само 32,6% и 21,9% съответно на пълните и трудните разделения на нашия набор от данни. Относително силното му представяне в сравнение с други модели може да се дължи на разнообразието от неговите мултимодални данни за обучение, заедно със стабилно филтриране на движението, което запазва висококачествени видеоклипове в широк спектър от действия.

‘Освен това, ние наблюдаваме, че затворените модели, като Ray2, се представят по-зле от отворените модели като Wan2.1-14B и CogVideoX-5B. Това предполага, че затворените модели не са непременно по-добри от отворените модели при улавянето на физическия здрав разум.

‘Трябва да се отбележи, че Cosmos-Diffusion-7B постига втория най-добър резултат при трудното разделяне, дори превъзхождайки много по-големия модел HunyuanVideo-13B. Това може да се дължи на високото представяне на човешките действия в неговите данни за обучение, заедно със синтетично изобразени симулации.’

Резултатите показаха, че видео моделите се затрудняват повече с физически дейности като спорт, отколкото с по-прости взаимодействия с обекти. Това предполага, че подобряването на генерираните от AI видеоклипове в тази област ще изисква по-добри набори от данни – особено висококачествени кадри от спортове като тенис, диск, бейзбол и крикет.

Проучването също така изследва дали физическата правдоподобност на модела корелира с други показатели за качество на видеото, като естетика и плавност на движението. Констатациите не разкриха силна корелация, което означава, че моделът не може да подобри представянето си на VideoPhy-2 само чрез генериране на визуално привлекателно или плавно движение – той се нуждае от по-дълбоко разбиране на физическия здрав разум.

Качествени Примери: Подчертаване на Предизвикателствата

Въпреки че статията предоставя изобилие от качествени примери, малко от статичните примери, предоставени в PDF файла, изглежда се отнасят до обширните видео-базирани примери, които авторите предоставят на сайта на проекта. Затова ще разгледаме малка селекция от статичните примери и след това още някои от действителните видеоклипове на проекта.

По отношение на горния качествен тест, авторите коментират:

‘[Ние] наблюдаваме нарушения на физическия здрав разум, като например джетове, които се движат неестествено в обратна посока, и деформация на твърд чук, противоречаща на принципите на еластичността. Въпреки това, дори Wan страда от липсата на физически здрав разум, както е показано в [клипа, вграден в началото на тази статия].

‘В този случай подчертаваме, че камък започва да се търкаля и ускорява нагоре, противоречейки на физическия закон за гравитацията.’

Както беше споменато в началото, обемът на материала, свързан с този проект, далеч надхвърля това, което може да бъде обхванато тук. Затова, моля, вижте изходната статия, сайта на проекта и свързаните сайтове, споменати по-рано, за наистина изчерпателно описание на процедурите на авторите и значително повече примери за тестване и процедурни детайли.

* Що се отнася до произхода на анотациите, статията посочва само „придобити за тези задачи“ – изглежда много да са били генерирани от 12 работници на AMT.

Първо публикувано в четвъртък, 13 март 2025 г.