De opkomst van Chinese generatieve videomodellen
Als 2022 het jaar was waarin generatieve AI de publieke verbeelding echt veroverde, dan lijkt 2025 het jaar te worden waarin een nieuwe golf van generatieve videoframeworks uit China centraal komt te staan.
Tencent’s Hunyuan Video heeft al aanzienlijke golven gemaakt in de hobbyistische AI-gemeenschap. De open-source release van een full-world video diffusion model stelt gebruikers in staat om de technologie aan te passen aan hun specifieke behoeften.
Kort daarop volgt Alibaba’s Wan 2.1, dat recenter is uitgebracht. Dit model onderscheidt zich als een van de krachtigste image-to-video Free and Open Source Software (FOSS) oplossingen die momenteel beschikbaar zijn, en het ondersteunt nu aanpassing via Wan LoRAs.
Naast deze ontwikkelingen anticiperen we ook op de release van Alibaba’s uitgebreide VACE video creatie- en bewerkingssuite, samen met de beschikbaarheid van het recente mensgerichte fundamentele model, SkyReels.
Het onderzoekslandschap van generatieve video AI is even explosief. Het is nog maar begin maart, maar de inzendingen van dinsdag voor de Computer Vision sectie van Arxiv (een belangrijke hub voor generatieve AI-papers) bedroegen bijna 350 – een aantal dat normaal gesproken wordt gezien tijdens het hoogtepunt van het conferentieseizoen.
De twee jaar sinds de lancering van Stable Diffusion in de zomer van 2022 (en de daaropvolgende ontwikkeling van Dreambooth en LoRA aanpassingsmethoden) werden gekenmerkt door een relatief gebrek aan grote doorbraken. De afgelopen weken zijn we echter getuige geweest van een golf van nieuwe releases en innovaties, die in zo’n hoog tempo arriveren dat het bijna onmogelijk is om volledig op de hoogte te blijven, laat staan alles uitgebreid te behandelen.
Temporele consistentie opgelost, maar nieuwe uitdagingen ontstaan
Video diffusion modellen zoals Hunyuan en Wan 2.1 hebben eindelijk het probleem van temporele consistentie aangepakt. Na jaren van mislukte pogingen van honderden onderzoeksinitiatieven, hebben deze modellen de uitdagingen met betrekking tot het genereren van consistente mensen, omgevingen en objecten in de tijd grotendeels opgelost.
Het lijdt weinig twijfel dat VFX-studio’s actief personeel en middelen inzetten om deze nieuwe Chinese videomodellen aan te passen. Hun onmiddellijke doel is om dringende uitdagingen zoals face-swapping aan te pakken, ondanks het huidige ontbreken van ControlNet-achtige aanvullende mechanismen voor deze systemen.
Het moet een enorme opluchting zijn dat zo’n belangrijke hindernis potentieel is overwonnen, zelfs als dat niet via de verwachte kanalen is gebeurd.
Van de resterende problemen springt er echter één in het bijzonder uit:
Alle momenteel beschikbare text-to-video en image-to-video systemen, inclusief commerciële closed-source modellen, hebben de neiging om natuurkundige blunders te produceren. Het bovenstaande voorbeeld toont een rots die bergopwaarts rolt, gegenereerd op basis van de prompt: ‘Een kleine rots tuimelt van een steile, rotsachtige helling, waarbij aarde en kleine stenen worden verplaatst’.
Waarom begrijpen AI-video’s natuurkunde verkeerd?
Een theorie, onlangs voorgesteld in een academische samenwerking tussen Alibaba en de VAE, suggereert dat modellen mogelijk leren op een manier die hun begrip van temporele volgorde belemmert. Zelfs bij het trainen op video’s (die voor trainingsdoeleinden worden opgesplitst in reeksen van één frame), begrijpen modellen mogelijk niet inherent de juiste volgorde van ‘voor’ en ‘na’ afbeeldingen.
De meest plausibele verklaring is echter dat de betreffende modellen data-augmentatieroutines hebben gebruikt. Deze routines omvatten het blootstellen van het model aan een bron trainingsclip, zowel voorwaarts als achterwaarts, waardoor de trainingsgegevens effectief worden verdubbeld.
Het is al enige tijd bekend dat dit niet zonder onderscheid moet worden gedaan. Hoewel sommige bewegingen in omgekeerde richting werken, doen veel dat niet. Een studie uit 2019 van de Britse Universiteit van Bristol had tot doel een methode te ontwikkelen om onderscheid te maken tussen equivariante, invariante en onomkeerbare brongegevens videoclips binnen één dataset. Het doel was om ongeschikte clips uit data-augmentatieroutines te filteren.
De auteurs van dat werk verwoordden het probleem duidelijk:
‘We vinden dat het realisme van omgekeerde video’s wordt verraden door omkeringsartefacten, aspecten van de scène die niet mogelijk zouden zijn in een natuurlijke wereld. Sommige artefacten zijn subtiel, terwijl andere gemakkelijk te herkennen zijn, zoals een omgekeerde ‘werp’-actie waarbij het geworpen object spontaan uit de vloer opstijgt.
‘We observeren twee soorten omkeringsartefacten, fysieke, die schendingen van de natuurwetten vertonen, en onwaarschijnlijke, die een mogelijk maar onwaarschijnlijk scenario weergeven. Deze zijn niet exclusief, en veel omgekeerde acties lijden aan beide soorten artefacten, zoals bij het ontkreuken van een stuk papier.
‘Voorbeelden van fysieke artefacten zijn: omgekeerde zwaartekracht (bijv. ‘iets laten vallen’), spontane impulsen op objecten (bijv. ‘een pen laten draaien’) en onomkeerbare toestandsveranderingen (bijv. ‘een kaars branden’). Een voorbeeld van een onwaarschijnlijk artefact: een bord uit de kast pakken, het afdrogen en op het droogrek plaatsen.
‘Dit soort hergebruik van gegevens is heel gebruikelijk tijdens de training en kan nuttig zijn – bijvoorbeeld om ervoor te zorgen dat het model niet slechts één weergave van een afbeelding of object leert die kan worden omgedraaid of geroteerd zonder zijn centrale coherentie en logica te verliezen.
‘Dit werkt natuurlijk alleen voor objecten die echt symmetrisch zijn; en natuurkunde leren van een ‘omgekeerde’ video werkt alleen als de omgekeerde versie net zo logisch is als de voorwaartse versie.’
We hebben geen concreet bewijs dat systemen zoals Hunyuan Video en Wan 2.1 willekeurige ‘omgekeerde’ clips hebben toegestaan tijdens de training (geen van beide onderzoeksgroepen is specifiek geweest over hun data-augmentatieroutines).
Gezien de talrijke rapporten (en mijn eigen praktische ervaring) is de enige andere redelijke verklaring dat de hyperscale datasets die deze modellen aandrijven, clips kunnen bevatten die echt bewegingen in omgekeerde richting vertonen.
De rots in de voorbeeldvideo die eerder is ingesloten, is gegenereerd met Wan 2.1. Het is te zien in een nieuwe studie die onderzoekt hoe goed video diffusion modellen omgaan met natuurkunde.
In tests voor dit project behaalde Wan 2.1 een score van slechts 22% in zijn vermogen om consequent te voldoen aan de natuurwetten.
Verrassend genoeg is dat de beste score van alle geteste systemen, wat suggereert dat we mogelijk de volgende grote hindernis voor video AI hebben geïdentificeerd:
Introductie van VideoPhy-2: Een nieuwe benchmark voor fysiek gezond verstand
De auteurs van het nieuwe werk hebben een benchmarkingsysteem ontwikkeld, nu in zijn tweede iteratie, genaamd VideoPhy. De code is beschikbaar op GitHub.
Hoewel de reikwijdte van het werk te breed is om hier uitgebreid te behandelen, laten we de methodologie ervan bekijken en het potentieel ervan om een metriek vast te stellen die toekomstige modeltrainingssessies zou kunnen sturen weg van deze bizarre gevallen van omkering.
De studie, uitgevoerd door zes onderzoekers van UCLA en Google Research, is getiteld VideoPhy-2: A Challenging Action-Centric Physical Commonsense Evaluation in Video Generation. Een uitgebreide bijbehorende projectsite is ook beschikbaar, samen met code en datasets op GitHub, en een datasetviewer op Hugging Face.
De auteurs beschrijven de nieuwste versie, VideoPhy-2, als een “uitdagende dataset voor de evaluatie van gezond verstand voor acties in de echte wereld.” De collectie bevat 197 acties in een reeks diverse fysieke activiteiten, waaronder hoelahoepen, gymnastiek en tennis, evenals objectinteracties zoals een object buigen totdat het breekt.
Een groot taalmodel (LLM) wordt gebruikt om 3840 prompts te genereren op basis van deze startacties. Deze prompts worden vervolgens gebruikt om video’s te synthetiseren met behulp van de verschillende frameworks die worden getest.
Gedurende het hele proces hebben de auteurs een lijst samengesteld van ‘kandidaat’ fysieke regels en wetten waaraan door AI gegenereerde video’s zouden moeten voldoen, met behulp van vision-language modellen voor evaluatie.
De auteurs stellen:
‘Bijvoorbeeld, in een video van een sporter die tennis speelt, zou een fysieke regel zijn dat een tennisbal een parabolische baan onder zwaartekracht moet volgen. Voor gouden standaard beoordelingen vragen we menselijke annotators om elke video te scoren op basis van algemene semantische naleving en fysiek gezond verstand, en om de naleving van verschillende fysieke regels te markeren.’
Acties cureren en prompts genereren
Aanvankelijk hebben de onderzoekers een reeks acties samengesteld om het fysieke gezond verstand in door AI gegenereerde video’s te evalueren. Ze begonnen met meer dan 600 acties afkomstig van de Kinetics, UCF-101 en SSv2 datasets, met de nadruk op activiteiten met sport, objectinteracties en natuurkunde uit de echte wereld.
Twee onafhankelijke groepen van STEM-getrainde studentannotators (met een minimale undergraduate kwalificatie) hebben de lijst beoordeeld en gefilterd. Ze selecteerden acties die principes zoals zwaartekracht, momentum en elasticiteit testten, terwijl ze taken met weinig beweging zoals typen, een kat aaien of kauwen verwijderden.
Na verdere verfijning met Gemini-2.0-Flash-Exp om duplicaten te elimineren, bevatte de uiteindelijke dataset 197 acties. 54 betroffen objectinteracties en 143 waren gecentreerd rond fysieke en sportactiviteiten:
In de tweede fase gebruikten de onderzoekers Gemini-2.0-Flash-Exp om 20 prompts te genereren voor elke actie in de dataset, wat resulteerde in een totaal van 3.940 prompts. Het generatieproces was gericht op zichtbare fysieke interacties die duidelijk konden worden weergegeven in een gegenereerde video. Dit sloot niet-visuele elementen zoals emoties, zintuiglijke details en abstracte taal uit, maar omvatte diverse karakters en objecten.
In plaats van een eenvoudige prompt zoals ‘Een boogschutter laat de pijl los’, werd het model bijvoorbeeld begeleid om een meer gedetailleerde versie te produceren, zoals ‘Een boogschutter trekt de boogpees terug tot volledige spanning en laat vervolgens de pijl los, die recht vliegt en een voltreffer op een papieren doelwit raakt’.
Omdat moderne videomodellen langere beschrijvingen kunnen interpreteren, hebben de onderzoekers de bijschriften verder verfijnd met behulp van de Mistral-NeMo-12B-Instruct prompt upsampler. Dit voegde visuele details toe zonder de oorspronkelijke betekenis te veranderen.
Fysieke regels afleiden en uitdagende acties identificeren
Voor de derde fase werden fysieke regels niet afgeleid van tekstprompts, maar van gegenereerde video’s. Dit komt omdat generatieve modellen moeite kunnen hebben om zich te houden aan geconditioneerde tekstprompts.
Video’s werden eerst gemaakt met behulp van VideoPhy-2 prompts, en vervolgens ‘up-captioned’ met Gemini-2.0-Flash-Exp om belangrijke details te extraheren. Het model stelde drie verwachte fysieke regels per video voor. Menselijke annotators beoordeelden en breidden deze uit door extra potentiële schendingen te identificeren.
Vervolgens, om de meest uitdagende acties te identificeren, genereerden de onderzoekers video’s met behulp van CogVideoX-5B met prompts uit de VideoPhy-2 dataset. Ze selecteerden vervolgens 60 van de 197 acties waarbij het model consequent faalde om zowel de prompts als het basis fysieke gezond verstand te volgen.
Deze acties omvatten natuurkundig rijke interacties zoals momentumoverdracht bij discuswerpen, toestandsveranderingen zoals het buigen van een object totdat het breekt, evenwichtstaken zoals koorddansen en complexe bewegingen zoals back-flips, polsstokhoogspringen en pizza gooien, onder andere. In totaal werden 1.200 prompts gekozen om de moeilijkheidsgraad van de subdataset te verhogen.
De VideoPhy-2 dataset: Een uitgebreide evaluatiebron
De resulterende dataset bestond uit 3.940 bijschriften – 5,72 keer meer dan de eerdere versie van VideoPhy. De gemiddelde lengte van de originele bijschriften is 16 tokens, terwijl upsampled bijschriften 138 tokens bereiken – respectievelijk 1,88 keer en 16,2 keer langer.
De dataset bevat ook 102.000 menselijke annotaties die semantische naleving, fysiek gezond verstand en regelschendingen omvatten in meerdere videogeneratiemodellen.
Evaluatiecriteria en menselijke annotaties definiëren
De onderzoekers definieerden vervolgens duidelijke criteria voor het evalueren van de video’s. Het belangrijkste doel was om te beoordelen hoe goed elke video overeenkwam met de invoerprompt en de basis fysieke principes volgde.
In plaats van video’s simpelweg te rangschikken op voorkeur, gebruikten ze op beoordelingen gebaseerde feedback om specifieke successen en mislukkingen vast te leggen. Menselijke annotators scoorden video’s op een vijfpuntsschaal, waardoor meer gedetailleerde beoordelingen mogelijk waren. De evaluatie controleerde ook of video’s verschillende fysieke regels en wetten volgden.
Voor menselijke evaluatie werd een groep van 12 annotators geselecteerd uit proeven op Amazon Mechanical Turk (AMT) en zij gaven beoordelingen na het ontvangen van gedetailleerde instructies op afstand. Voor eerlijkheid werden semantische naleving en fysiek gezond verstand afzonderlijk geëvalueerd (in de oorspronkelijke VideoPhy-studie werden ze gezamenlijk beoordeeld).
De annotators beoordeelden eerst hoe goed video’s overeenkwamen met hun invoerprompts, en evalueerden vervolgens afzonderlijk de fysieke plausibiliteit, waarbij ze regelschendingen en algemeen realisme scoorden op een vijfpuntsschaal. Alleen de originele prompts werden getoond, om een eerlijke vergelijking tussen modellen te behouden.
Geautomatiseerde evaluatie: Naar schaalbare modelbeoordeling
Hoewel menselijk oordeel de gouden standaard blijft, is het duur en komt het met verschillende kanttekeningen. Daarom is geautomatiseerde evaluatie essentieel voor snellere en meer schaalbare modelbeoordelingen.
De auteurs van het artikel testten verschillende video-taalmodellen, waaronder Gemini-2.0-Flash-Exp en VideoScore, op hun vermogen om video’s te scoren op semantische nauwkeurigheid en op ‘fysiek gezond verstand’.
De modellen beoordeelden elke video opnieuw op een vijfpuntsschaal. Een afzonderlijke classificatietaak bepaalde of fysieke regels werden gevolgd, geschonden of onduidelijk waren.
Experimenten toonden aan dat bestaande video-taalmodellen moeite hadden om menselijke beoordelingen te evenaren, voornamelijk als gevolg van zwakke fysieke redenering en de complexiteit van de prompts. Om de geautomatiseerde evaluatie te verbeteren, ontwikkelden de onderzoekers VideoPhy-2-Autoeval, een 7B-parameter model dat is ontworpen om nauwkeurigere voorspellingen te geven in drie categorieën: semantische naleving; fysiek gezond verstand; en naleving van regels. Het werd verfijnd op het VideoCon-Physics model met behulp van 50.000 menselijke annotaties*.
Generatieve videosystemen testen: Een vergelijkende analyse
Met deze tools op hun plaats, testten de auteurs een aantal generatieve videosystemen, zowel via lokale installaties als, waar nodig, via commerciële API’s: CogVideoX-5B; VideoCrafter2; HunyuanVideo-13B; Cosmos-Diffusion; Wan2.1-14B; OpenAI Sora; en Luma Ray.
De modellen werden waar mogelijk gevraagd met upsampled bijschriften, behalve dat Hunyuan Video en VideoCrafter2 werken onder 77-token CLIP-beperkingen en geen prompts boven een bepaalde lengte kunnen accepteren.
Gegenereerde video’s werden beperkt tot minder dan 6 seconden, omdat kortere output gemakkelijker te evalueren is.
De sturende data was afkomstig van de VideoPhy-2 dataset, die werd opgesplitst in een benchmark en trainingsset. Er werden 590 video’s per model gegenereerd, behalve voor Sora en Ray2; vanwege de kostenfactor werden equivalente lagere aantallen video’s gegenereerd voor deze.
De initiële evaluatie behandelde fysieke activiteiten/sport (PA) en objectinteracties (OI) en testte zowel de algemene dataset als de eerder genoemde ‘hardere’ subset:
Hier merken de auteurs op:
‘Zelfs het best presterende model, Wan2.1-14B, behaalt slechts 32,6% en 21,9% op respectievelijk de volledige en harde splitsingen van onze dataset. De relatief sterke prestaties in vergelijking met andere modellen kunnen worden toegeschreven aan de diversiteit van de multimodale trainingsgegevens, samen met robuuste bewegingsfiltering die video’s van hoge kwaliteit behoudt in een breed scala aan acties.
‘Verder zien we dat gesloten modellen, zoals Ray2, slechter presteren dan open modellen zoals Wan2.1-14B en CogVideoX-5B. Dit suggereert dat gesloten modellen niet noodzakelijkerwijs superieur zijn aan open modellen in het vastleggen van fysiek gezond verstand.
‘Opmerkelijk is dat Cosmos-Diffusion-7B de op één na beste score behaalt op de harde splitsing, en zelfs beter presteert dan het veel grotere HunyuanVideo-13B model. Dit kan te wijten zijn aan de hoge vertegenwoordiging van menselijke acties in de trainingsgegevens, samen met synthetisch weergegeven simulaties.’
De resultaten toonden aan dat videomodellen meer worstelden met fysieke activiteiten zoals sport dan met eenvoudigere objectinteracties. Dit suggereert dat het verbeteren van door AI gegenereerde video’s op dit gebied betere datasets vereist – met name hoogwaardige beelden van sporten zoals tennis, discus, honkbal en cricket.
De studie onderzocht ook of de fysieke plausibiliteit van een model correleerde met andere videokwaliteitsmetrieken, zoals esthetiek en bewegingsvloeiendheid. De bevindingen onthulden geen sterke correlatie, wat betekent dat een model zijn prestaties op VideoPhy-2 niet kan verbeteren door alleen visueel aantrekkelijke of vloeiende bewegingen te genereren – het heeft een dieper begrip van fysiek gezond verstand nodig.
Kwalitatieve voorbeelden: De uitdagingen benadrukken
Hoewel het artikel overvloedige kwalitatieve voorbeelden biedt, lijken weinig van de statische voorbeelden in de PDF betrekking te hebben op de uitgebreide videovoorbeelden die de auteurs op de projectsite verstrekken. Daarom zullen we een kleine selectie van de statische voorbeelden bekijken en vervolgens nog enkele van de daadwerkelijke projectvideo’s.
Met betrekking tot de bovenstaande kwalitatieve test merken de auteurs op:
‘[We] observeren schendingen van fysiek gezond verstand, zoals jetski’s die onnatuurlijk achteruit bewegen en de vervorming van een massieve voorhamer, die de principes van elasticiteit tart. Echter, zelfs Wan lijdt aan het gebrek aan fysiek gezond verstand, zoals te zien is in [de clip die aan het begin van dit artikel is ingesloten].
‘In dit geval benadrukken we dat een rots begint te rollen en bergopwaarts versnelt, in strijd met de natuurwet van de zwaartekracht.’
Zoals aan het begin vermeld, overtreft het volume van het materiaal dat aan dit project is gekoppeld, ruimschoots wat hier kan worden behandeld. Raadpleeg daarom het bronartikel, de projectsite en de eerder genoemde gerelateerde sites voor een echt uitputtend overzicht van de procedures van de auteurs, en aanzienlijk meer testvoorbeelden en procedurele details.
* Wat betreft de herkomst van de annotaties, specificeert het artikel alleen ‘verworven voor deze taken’ – het lijkt veel te zijn gegenereerd door 12 AMT-werknemers.
Eerst gepubliceerd op donderdag 13 maart 2025