Dlaczego AI czasem się myli

Rozwój chińskich modeli generatywnego wideo

Jeśli rok 2022 był rokiem, w którym generatywna sztuczna inteligencja (AI) naprawdę zawładnęła wyobraźnią opinii publicznej, rok 2025 zapowiada się na rok, w którym nowa fala generatywnych frameworków wideo z Chin zajmie centralne miejsce.

Hunyuan Video firmy Tencent już wywołał spore poruszenie w społeczności hobbystów AI. Jego open-source’owe wydanie modelu dyfuzji wideo dla całego świata pozwala użytkownikom dostosować technologię do ich specyficznych potrzeb.

Tuż za nim podąża Wan 2.1 firmy Alibaba, wydany niedawno. Model ten wyróżnia się jako jedno z najpotężniejszych rozwiązań Free and Open Source Software (FOSS) typu image-to-video, dostępnych obecnie na rynku, a teraz obsługuje dostosowywanie za pomocą Wan LoRA.

Oprócz tych wydarzeń, oczekujemy również wydania kompleksowego pakietu do tworzenia i edycji wideo VACE firmy Alibaba, a także udostępnienia niedawnego, skoncentrowanego na człowieku modelu podstawowego, SkyReels.

Scena badawcza generatywnego wideo AI jest równie wybuchowa. Jest dopiero początek marca, a wtorkowe zgłoszenia do sekcji Computer Vision Arxiv (kluczowego centrum dla prac dotyczących generatywnej AI) wyniosły prawie 350 wpisów – liczba typowa dla szczytu sezonu konferencyjnego.

Dwa lata od premiery Stable Diffusion latem 2022 roku (i późniejszego opracowania metod dostosowywania Dreambooth i LoRA) charakteryzowały się względnym brakiem przełomów. Jednak ostatnie kilka tygodni przyniosło falę nowych wydań i innowacji, pojawiających się w tak szybkim tempie, że prawie niemożliwe jest, aby być w pełni poinformowanym, a tym bardziej kompleksowo wszystko opisać.

Rozwiązywanie spójności czasowej, ale pojawiają się nowe wyzwania

Modele dyfuzji wideo, takie jak Hunyuan i Wan 2.1, w końcu rozwiązały problem spójności czasowej. Po latach nieudanych prób setek inicjatyw badawczych, modele te w dużej mierze rozwiązały wyzwania związane z generowaniem spójnych ludzi, środowisk i obiektów w czasie.

Nie ma wątpliwości, że studia VFX aktywnie angażują personel i zasoby, aby dostosować te nowe chińskie modele wideo. Ich bezpośrednim celem jest rozwiązanie palących problemów, takich jak zamiana twarzy, pomimo obecnego braku mechanizmów pomocniczych w stylu ControlNet dla tych systemów.

Musi to być ogromna ulga, że tak znacząca przeszkoda została potencjalnie pokonana, nawet jeśli nie stało się to za pośrednictwem oczekiwanych kanałów.

Jednak wśród pozostałych problemów jeden wyróżnia się jako szczególnie istotny:

Wszystkie obecnie dostępne systemy text-to-video i image-to-video, w tym komercyjne modele o zamkniętym kodzie źródłowym, mają tendencję do tworzenia błędów przeczących fizyce. Powyższy przykład pokazuje kamień toczący się pod górę, wygenerowany na podstawie promptu: ‘A small rock tumbles down a steep, rocky hillside, displacing soil and small stones’.

Dlaczego filmy AI źle rozumieją fizykę?

Jedna z teorii, niedawno zaproponowana we współpracy akademickiej między Alibabą a ZEA, sugeruje, że modele mogą uczyć się w sposób, który utrudnia im zrozumienie porządku czasowego. Nawet podczas uczenia się na filmach (które są dzielone na sekwencje pojedynczych klatek do uczenia), modele mogą nie rozumieć z natury poprawnej kolejności obrazów “przed” i “po”.

Jednak najbardziej prawdopodobnym wyjaśnieniem jest to, że omawiane modele wykorzystały procedury augmentacji danych. Procedury te polegają na wystawianiu modelu na źródłowy klip treningowy zarówno do przodu, jak i do tyłu, co skutecznie podwaja dane treningowe.

Od pewnego czasu wiadomo, że nie należy tego robić bezkrytycznie. Podczas gdy niektóre ruchy działają w odwrotnej kolejności, wiele z nich nie. Badanie z 2019 roku przeprowadzone przez brytyjski University of Bristol miało na celu opracowanie metody rozróżniania między klipami wideo danych źródłowych ekwivariantnymi, niezmienniczymi i nieodwracalnymi w ramach jednego zbioru danych. Celem było odfiltrowanie nieodpowiednich klipów z procedur augmentacji danych.

Autorzy tej pracy jasno sformułowali problem:

‘Uważamy, że realizm odwróconych filmów jest zdradzany przez artefakty odwrócenia, aspekty sceny, które nie byłyby możliwe w naturalnym świecie. Niektóre artefakty są subtelne, podczas gdy inne są łatwe do zauważenia, jak odwrócona akcja ‘rzucania’, w której rzucany obiekt spontanicznie unosi się z podłogi.

‘Obserwujemy dwa rodzaje artefaktów odwrócenia: fizyczne, wykazujące naruszenia praw natury, oraz nieprawdopodobne, przedstawiające możliwy, ale mało prawdopodobny scenariusz. Nie są one wykluczające się, a wiele odwróconych akcji cierpi na oba rodzaje artefaktów, jak np. podczas rozprostowywania kartki papieru.

‘Przykłady artefaktów fizycznych obejmują: odwróconą grawitację (np. ‘upuszczanie czegoś’), spontaniczne impulsy na obiektach (np. ‘kręcenie długopisem’) i nieodwracalne zmiany stanu (np. ‘palenie świecy’). Przykład nieprawdopodobnego artefaktu: wzięcie talerza z szafki, wytarcie go i umieszczenie na suszarce.

‘Tego rodzaju ponowne wykorzystanie danych jest bardzo powszechne w czasie uczenia i może być korzystne – na przykład, aby upewnić się, że model nie uczy się tylko jednego widoku obrazu lub obiektu, który można odwrócić lub obrócić bez utraty jego centralnej spójności i logiki.

‘Działa to tylko dla obiektów, które są naprawdę symetryczne, oczywiście; a uczenie się fizyki z ‘odwróconego’ filmu działa tylko wtedy, gdy odwrócona wersja ma tyle samo sensu, co wersja do przodu.’

Nie mamy konkretnych dowodów na to, że systemy takie jak Hunyuan Video i Wan 2.1 zezwalały na dowolne “odwrócone” klipy podczas uczenia (żadna z grup badawczych nie określiła szczegółowo swoich procedur augmentacji danych).

Jednak biorąc pod uwagę liczne raporty (i moje własne doświadczenie praktyczne), jedynym innym rozsądnym wyjaśnieniem jest to, że hiperskalowe zbiory danych zasilające te modele mogą zawierać klipy, które rzeczywiście przedstawiają ruchy zachodzące w odwrotnej kolejności.

Kamień w przykładowym filmie osadzonym wcześniej został wygenerowany przy użyciu Wan 2.1. Jest on przedstawiony w nowym badaniu, które bada, jak dobrze modele dyfuzji wideo radzą sobie z fizyką.

W testach do tego projektu Wan 2.1 osiągnął wynik zaledwie 22% w swojej zdolności do konsekwentnego przestrzegania praw fizyki.

Co zaskakujące, jest to najlepszy wynik spośród wszystkich testowanych systemów, co sugeruje, że być może zidentyfikowaliśmy kolejną dużą przeszkodę dla wideo AI:

Przedstawiamy VideoPhy-2: Nowy benchmark dla fizycznego zdrowego rozsądku

Autorzy nowej pracy opracowali system benchmarkingu, obecnie w drugiej iteracji, o nazwie VideoPhy. Kod jest dostępny na GitHub.

Chociaż zakres pracy jest zbyt szeroki, aby omówić go tutaj kompleksowo, przyjrzyjmy się jego metodologii i potencjałowi ustanowienia metryki, która mogłaby kierować przyszłe sesje uczenia modelu z dala od tych dziwacznych przypadków odwrócenia.

Badanie, przeprowadzone przez sześciu badaczy z UCLA i Google Research, nosi tytuł VideoPhy-2: A Challenging Action-Centric Physical Commonsense Evaluation in Video Generation. Dostępna jest również kompleksowa strona projektu, wraz z kodem i zbiorami danych na GitHub oraz przeglądarką zbiorów danych na Hugging Face.

Autorzy opisują najnowszą wersję, VideoPhy-2, jako “trudny zbiór danych do oceny zdrowego rozsądku dla rzeczywistych działań”. Kolekcja zawiera 197 akcji w szerokim zakresie różnorodnych aktywności fizycznych, w tym kręcenie hula-hoop, gimnastyka i tenis, a także interakcje z obiektami, takie jak zginanie przedmiotu, aż pęknie.

Model dużego języka (LLM) jest używany do generowania 3840 promptów z tych akcji początkowych. Te prompty są następnie używane do syntezy filmów przy użyciu różnych testowanych frameworków.

W trakcie tego procesu autorzy opracowali listę “kandydatów” reguł fizycznych i praw, których powinny przestrzegać filmy generowane przez AI, wykorzystując modele wizyjno-językowe do oceny.

Autorzy stwierdzają:

‘Na przykład, w filmie przedstawiającym sportowca grającego w tenisa, regułą fizyczną byłoby, że piłka tenisowa powinna podążać paraboliczną trajektorią pod wpływem grawitacji. W przypadku ocen zgodnych ze złotym standardem prosimy ludzkich anotatorów o ocenę każdego filmu na podstawie ogólnej zgodności semantycznej i fizycznego zdrowego rozsądku oraz o zaznaczenie jego zgodności z różnymi regułami fizycznymi.’

Kuracja akcji i generowanie promptów

Początkowo badacze opracowali zestaw akcji, aby ocenić fizyczny zdrowy rozsądek w filmach generowanych przez AI. Zaczęli od ponad 600 akcji pochodzących ze zbiorów danych Kinetics, UCF-101 i SSv2, koncentrując się na aktywnościach obejmujących sport, interakcje z obiektami i fizykę świata rzeczywistego.

Dwie niezależne grupy anotatorów-studentów z wykształceniem STEM (z minimalnymi kwalifikacjami licencjackimi) przejrzały i przefiltrowały listę. Wybrali akcje, które testowały zasady takie jak grawitacja, pęd i elastyczność, usuwając zadania o niskim ruchu, takie jak pisanie na klawiaturze, głaskanie kota lub żuć.

Po dalszym udoskonaleniu za pomocą Gemini-2.0-Flash-Exp w celu wyeliminowania duplikatów, ostateczny zbiór danych zawierał 197 akcji. 54 obejmowały interakcje z obiektami, a 143 koncentrowały się na aktywnościach fizycznych i sportowych:

W drugim etapie badacze wykorzystali Gemini-2.0-Flash-Exp do wygenerowania 20 promptów dla każdej akcji w zbiorze danych, co dało w sumie 3940 promptów. Proces generowania koncentrował się na widocznych interakcjach fizycznych, które mogłyby być wyraźnie przedstawione w wygenerowanym filmie. Wykluczyło to niewizualne elementy, takie jak emocje, szczegóły sensoryczne i język abstrakcyjny, ale uwzględniło różnorodne postacie i obiekty.

Na przykład, zamiast prostego promptu, takiego jak ‘An archer releases the arrow’, model został poprowadzony do wyprodukowania bardziej szczegółowej wersji, takiej jak ‘An archer draws the bowstring back to full tension, then releases the arrow, which flies straight and strikes a bullseye on a paper target’.

Ponieważ nowoczesne modele wideo mogą interpretować dłuższe opisy, badacze dodatkowo udoskonalili podpisy za pomocą upsamplera promptów Mistral-NeMo-12B-Instruct. Dodało to szczegóły wizualne bez zmiany pierwotnego znaczenia.

Wyprowadzanie reguł fizycznych i identyfikowanie trudnych akcji

W trzecim etapie reguły fizyczne zostały wyprowadzone nie z promptów tekstowych, ale z wygenerowanych filmów. Wynika to z faktu, że modele generatywne mogą mieć trudności z przestrzeganiem warunkowych promptów tekstowych.

Filmy zostały najpierw utworzone przy użyciu promptów VideoPhy-2, a następnie “podpisane” za pomocą Gemini-2.0-Flash-Exp w celu wyodrębnienia kluczowych szczegółów. Model zaproponował trzy oczekiwane reguły fizyczne na film. Ludzcy anotatorzy przejrzeli i rozszerzyli je, identyfikując dodatkowe potencjalne naruszenia.

Następnie, aby zidentyfikować najtrudniejsze akcje, badacze wygenerowali filmy za pomocą CogVideoX-5B z promptami ze zbioru danych VideoPhy-2. Następnie wybrali 60 z 197 akcji, w których model konsekwentnie nie przestrzegał zarówno promptów, jak i podstawowego fizycznego zdrowego rozsądku.

Akcje te obejmowały interakcje bogate w fizykę, takie jak transfer pędu w rzucie dyskiem, zmiany stanu, takie jak zginanie przedmiotu, aż pęknie, zadania równoważenia, takie jak chodzenie po linie, i złożone ruchy, które obejmowały salta w tył, skok o tyczce i rzucanie pizzą, między innymi. W sumie wybrano 1200 promptów, aby zwiększyć trudność podzbioru danych.

Zbiór danych VideoPhy-2: Kompleksowe źródło oceny

Powstały zbiór danych zawierał 3940 podpisów – 5,72 razy więcej niż wcześniejsza wersja VideoPhy. Średnia długość oryginalnych podpisów wynosi 16 tokenów, podczas gdy upsamplowane podpisy osiągają 138 tokenów – odpowiednio 1,88 razy i 16,2 razy dłużej.

Zbiór danych zawiera również 102 000 ludzkich adnotacji obejmujących zgodność semantyczną, fizyczny zdrowy rozsądek i naruszenia reguł w wielu modelach generowania wideo.

Definiowanie kryteriów oceny i ludzkich adnotacji

Następnie badacze zdefiniowali jasne kryteria oceny filmów. Głównym celem było ocenienie, jak dobrze każdy film pasuje do swojego promptu wejściowego i przestrzega podstawowych zasad fizyki.

Zamiast po prostu uszeregować filmy według preferencji, użyli opinii opartej na ocenach, aby uchwycić konkretne sukcesy i porażki. Ludzcy anotatorzy oceniali filmy w pięciopunktowej skali, co pozwalało na bardziej szczegółowe oceny. Ocena sprawdzała również, czy filmy przestrzegają różnych reguł fizycznych i praw.

Do oceny przez ludzi wybrano grupę 12 anotatorów z prób na Amazon Mechanical Turk (AMT) i dostarczono oceny po otrzymaniu szczegółowych instrukcji zdalnych. Dla sprawiedliwości zgodność semantyczna i fizyczny zdrowy rozsądek były oceniane oddzielnie (w oryginalnym badaniu VideoPhy były oceniane łącznie).

Anotatorzy najpierw oceniali, jak dobrze filmy pasują do ich promptów wejściowych, a następnie oddzielnie oceniali fizyczną wiarygodność, oceniając naruszenia reguł i ogólny realizm w pięciopunktowej skali. Pokazywano tylko oryginalne prompty, aby zachować sprawiedliwe porównanie między modelami.

Zautomatyzowana ocena: W kierunku skalowalnej oceny modelu

Chociaż ludzka ocena pozostaje złotym standardem, jest kosztowna i wiąże się z kilkoma zastrzeżeniami. Dlatego zautomatyzowana ocena jest niezbędna do szybszych i bardziej skalowalnych ocen modelu.

Autorzy artykułu przetestowali kilka modeli wizyjno-językowych, w tym Gemini-2.0-Flash-Exp i VideoScore, pod kątem ich zdolności do oceniania filmów pod kątem dokładności semantycznej i “fizycznego zdrowego rozsądku”.

Modele ponownie oceniały każdy film w pięciopunktowej skali. Oddzielne zadanie klasyfikacji określało, czy reguły fizyczne były przestrzegane, naruszane, czy niejasne.

Eksperymenty wykazały, że istniejące modele wizyjno-językowe miały trudności z dopasowaniem się do ludzkich ocen, głównie z powodu słabego rozumowania fizycznego i złożoności promptów. Aby poprawić zautomatyzowaną ocenę, badacze opracowali VideoPhy-2-Autoeval, model 7B-parametrowy zaprojektowany w celu zapewnienia dokładniejszych prognoz w trzech kategoriach: zgodność semantyczna; fizyczny zdrowy rozsądek; i zgodność z regułami. Został on dostrojony do modelu VideoCon-Physics przy użyciu 50 000 ludzkich adnotacji*.

Testowanie generatywnych systemów wideo: Analiza porównawcza

Mając te narzędzia, autorzy przetestowali szereg generatywnych systemów wideo, zarówno poprzez instalacje lokalne, jak i, w razie potrzeby, za pośrednictwem komercyjnych interfejsów API: CogVideoX-5B; VideoCrafter2; HunyuanVideo-13B; Cosmos-Diffusion; Wan2.1-14B; OpenAI Sora; i Luma Ray.

Modele były promptowane upsamplowanymi podpisami, tam gdzie to możliwe, z wyjątkiem tego, że Hunyuan Video i VideoCrafter2 działają w ramach ograniczeń 77-tokenowych CLIP i nie mogą akceptować promptów powyżej określonej długości.

Wygenerowane filmy były utrzymywane poniżej 6 sekund, ponieważ krótsze wyjście jest łatwiejsze do oceny.

Dane napędowe pochodziły ze zbioru danych VideoPhy-2, który został podzielony na zbiór benchmarkowy i treningowy. Wygenerowano 590 filmów na model, z wyjątkiem Sora i Ray2; ze względu na czynnik kosztowy, dla tych modeli wygenerowano równoważne mniejsze liczby filmów.

Wstępna ocena dotyczyła aktywności fizycznych/sportów (PA) i interakcji z obiektami (OI) i testowała zarówno ogólny zbiór danych, jak i wspomniany wcześniej “trudniejszy” podzbiór:

Tutaj autorzy komentują:

‘Nawet najlepiej działający model, Wan2.1-14B, osiąga tylko 32,6% i 21,9% odpowiednio w pełnym i trudnym podziale naszego zbioru danych. Jego stosunkowo dobre wyniki w porównaniu z innymi modelami można przypisać różnorodności multimodalnych danych treningowych, a także solidnemu filtrowaniu ruchu, które zachowuje wysokiej jakości filmy w szerokim zakresie akcji.

‘Ponadto obserwujemy, że modele zamknięte, takie jak Ray2, działają gorzej niż modele otwarte, takie jak Wan2.1-14B i CogVideoX-5B. Sugeruje to, że modele zamknięte niekoniecznie są lepsze od modeli otwartych w uchwyceniu fizycznego zdrowego rozsądku.

‘Warto zauważyć, że Cosmos-Diffusion-7B osiąga drugi najlepszy wynik w trudnym podziale, przewyższając nawet znacznie większy model HunyuanVideo-13B. Może to wynikać z wysokiej reprezentacji ludzkich działań w jego danych treningowych, a także syntetycznie renderowanych symulacji.’

Wyniki pokazały, że modele wideo miały większe trudności z aktywnościami fizycznymi, takimi jak sport, niż z prostszymi interakcjami z obiektami. Sugeruje to, że ulepszenie filmów generowanych przez AI w tym obszarze będzie wymagało lepszych zbiorów danych – w szczególności wysokiej jakości materiałów filmowych przedstawiających sporty, takie jak tenis, rzut dyskiem, baseball i krykiet.

Badanie zbadało również, czy fizyczna wiarygodność modelu koreluje z innymi metrykami jakości wideo, takimi jak estetyka i płynność ruchu. Wyniki nie wykazały silnej korelacji, co oznacza, że model nie może poprawić swoich wyników w VideoPhy-2 tylko poprzez generowanie atrakcyjnych wizualnie lub płynnych ruchów – potrzebuje głębszego zrozumienia fizycznego zdrowego rozsądku.

Przykłady jakościowe: Podkreślenie wyzwań

Chociaż artykuł zawiera liczne przykłady jakościowe, niewiele statycznych przykładów podanych w pliku PDF wydaje się odnosić do obszernych przykładów wideo, które autorzy dostarczają na stronie projektu. Dlatego przyjrzymy się niewielkiemu wyborowi przykładów statycznych, a następnie kilku innym rzeczywistym filmom z projektu.

Odnosząc się do powyższego testu jakościowego, autorzy komentują:

‘[My] obserwujemy naruszenia fizycznego zdrowego rozsądku, takie jak skutery wodne poruszające się nienaturalnie do tyłu i deformacja solidnego młota kowalskiego, przeczące zasadom elastyczności. Jednak nawet Wan cierpi z powodu braku fizycznego zdrowego rozsądku, jak pokazano w [klipie osadzonym na początku tego artykułu].

‘W tym przypadku podkreślamy, że kamień zaczyna się toczyć i przyspieszać pod górę, przecząc fizycznemu prawu grawitacji.’

Jak wspomniano na początku, ilość materiału związanego z tym projektem znacznie przekracza to, co można tutaj omówić. Dlatego prosimy o zapoznanie się z artykułem źródłowym, stroną projektu i powiązanymi stronami wspomnianymi wcześniej, aby uzyskać naprawdę wyczerpujący zarys procedur autorów oraz znacznie więcej przykładów testowych i szczegółów proceduralnych.

* Jeśli chodzi o pochodzenie adnotacji, artykuł określa jedynie ‘nabyte do tych zadań’ – wydaje się, że jest to dużo, aby zostało wygenerowane przez 12 pracowników AMT.