Der Aufstieg chinesischer generativer Videomodelle
Wenn 2022 das Jahr war, in dem generative KI die öffentliche Vorstellungskraft wirklich eroberte, so zeichnet sich 2025 als das Jahr ab, in dem eine neue Welle generativer Video-Frameworks aus China die Bühne betritt.
Tencents Hunyuan Video hat in der Hobby-KI-Community bereits für Aufsehen gesorgt. Die Open-Source-Veröffentlichung eines vollständigen Video-Diffusionsmodells ermöglicht es Benutzern, die Technologie an ihre spezifischen Bedürfnisse anzupassen.
Dicht dahinter folgt Alibabas Wan 2.1, das kürzlich veröffentlicht wurde. Dieses Modell zeichnet sich als eine der leistungsstärksten Free and Open Source Software (FOSS)-Lösungen für Image-to-Video aus, die derzeit verfügbar sind, und unterstützt jetzt die Anpassung durch Wan LoRAs.
Zusätzlich zu diesen Entwicklungen erwarten wir auch die Veröffentlichung von Alibabas umfassender VACE-Suite für Videoerstellung und -bearbeitung sowie die Verfügbarkeit des kürzlich erschienenen, auf den Menschen ausgerichteten Foundation-Modells SkyReels.
Die Forschungsszene für generative Video-KI ist ebenso explosiv. Es ist noch Anfang März, aber die Einreichungen am Dienstag für die Arxiv-Sektion Computer Vision (ein wichtiger Knotenpunkt für generative KI-Papiere) beliefen sich auf fast 350 Einträge – eine Zahl, die normalerweise während der Hochsaison von Konferenzen zu sehen ist.
Die zwei Jahre seit der Einführung von Stable Diffusion im Sommer 2022 (und der anschließenden Entwicklung von Dreambooth- und LoRA-Anpassungsmethoden) waren durch einen relativen Mangel an größeren Durchbrüchen gekennzeichnet. In den letzten Wochen gab es jedoch eine Flut neuer Veröffentlichungen und Innovationen, die so schnell kamen, dass es fast unmöglich ist, vollständig informiert zu bleiben, geschweige denn alles umfassend abzudecken.
Lösung der zeitlichen Konsistenz, aber neue Herausforderungen entstehen
Video-Diffusionsmodelle wie Hunyuan und Wan 2.1 haben endlich das Problem der zeitlichen Konsistenz gelöst. Nach Jahren erfolgloser Versuche von Hunderten von Forschungsinitiativen haben diese Modelle die Herausforderungen im Zusammenhang mit der Generierung konsistenter Menschen, Umgebungen und Objekte im Laufe der Zeit weitgehend gelöst.
Es besteht wenig Zweifel, dass VFX-Studios aktiv Mitarbeiter und Ressourcen einsetzen, um diese neuen chinesischen Videomodelle anzupassen. Ihr unmittelbares Ziel ist es, dringende Herausforderungen wie Face-Swapping anzugehen, obwohl es derzeit keine ControlNet-ähnlichen Zusatzmechanismen für diese Systeme gibt.
Es muss eine große Erleichterung sein, dass eine so bedeutende Hürde potenziell überwunden wurde, auch wenn dies nicht über die erwarteten Kanäle geschah.
Unter den verbleibenden Problemen sticht jedoch eines als besonders bedeutsam hervor:
Alle derzeit verfügbaren Text-to-Video- und Image-to-Video-Systeme, einschließlich kommerzieller Closed-Source-Modelle, neigen dazu, physikwidrige Fehler zu produzieren. Das obige Beispiel zeigt einen Stein, der bergauf rollt, generiert aus der Eingabeaufforderung: ‘Ein kleiner Stein stürzt einen steilen, felsigen Hang hinunter und verdrängt Erde und kleine Steine’.
Warum verstehen KI-Videos die Physik falsch?
Eine Theorie, die kürzlich in einer akademischen Zusammenarbeit zwischen Alibaba und den VAE vorgeschlagen wurde, besagt, dass Modelle möglicherweise auf eine Weise lernen, die ihr Verständnis der zeitlichen Reihenfolge behindert. Selbst wenn sie mit Videos trainieren (die für das Training in Einzelbildsequenzen zerlegt werden), verstehen Modelle möglicherweise nicht von Natur aus die richtige Reihenfolge von ‘Vorher’- und ‘Nachher’-Bildern.
Die plausibelste Erklärung ist jedoch, dass die fraglichen Modelle Data-Augmentation-Routinen eingesetzt haben. Diese Routinen beinhalten, dass das Modell einem Quelltrainingsclip sowohl vorwärts als auch rückwärts ausgesetzt wird, wodurch die Trainingsdaten effektiv verdoppelt werden.
Es ist seit einiger Zeit bekannt, dass dies nicht wahllos geschehen sollte. Während einige Bewegungen rückwärts funktionieren, tun dies viele nicht. Eine Studie der britischen University of Bristol aus dem Jahr 2019 zielte darauf ab, eine Methode zu entwickeln, um zwischen äquivarianten, invarianten und irreversiblen Quellvideoclips innerhalb eines einzelnen Datensatzes zu unterscheiden. Das Ziel war, ungeeignete Clips aus Data-Augmentation-Routinen herauszufiltern.
Die Autoren dieser Arbeit formulierten das Problem klar:
‘Wir stellen fest, dass der Realismus umgekehrter Videos durch Umkehrungsartefakte verraten wird, Aspekte der Szene, die in einer natürlichen Welt nicht möglich wären. Einige Artefakte sind subtil, während andere leicht zu erkennen sind, wie eine umgekehrte ‘Wurf’-Aktion, bei der das geworfene Objekt spontan vom Boden aufsteigt.
‘Wir beobachten zwei Arten von Umkehrungsartefakten: physikalische, die Verletzungen der Naturgesetze aufweisen, und unwahrscheinliche, die ein mögliches, aber unwahrscheinliches Szenario darstellen. Diese schließen sich nicht aus, und viele umgekehrte Aktionen leiden unter beiden Arten von Artefakten, wie beim Entknittern eines Stücks Papier.
‘Beispiele für physikalische Artefakte sind: umgekehrte Schwerkraft (z. B. ‘etwas fallen lassen’), spontane Impulse auf Objekte (z. B. ‘einen Stift drehen’) und irreversible Zustandsänderungen (z. B. ‘eine Kerze anzünden’). Ein Beispiel für ein unwahrscheinliches Artefakt: einen Teller aus dem Schrank nehmen, ihn abtrocknen und auf das Abtropfgestell stellen.
‘Diese Art der Wiederverwendung von Daten ist zur Trainingszeit sehr üblich und kann von Vorteil sein – zum Beispiel, um sicherzustellen, dass das Modell nicht nur eine Ansicht eines Bildes oder Objekts lernt, das gespiegelt oder gedreht werden kann, ohne seine zentrale Kohärenz und Logik zu verlieren.
‘Dies funktioniert natürlich nur für Objekte, die wirklich symmetrisch sind; und das Erlernen der Physik aus einem ‘umgekehrten’ Video funktioniert nur, wenn die umgekehrte Version genauso viel Sinn ergibt wie die Vorwärtsversion.’
Wir haben keine konkreten Beweise dafür, dass Systeme wie Hunyuan Video und Wan 2.1 während des Trainings beliebige ‘umgekehrte’ Clips zugelassen haben (keine der Forschungsgruppen hat ihre Data-Augmentation-Routinen spezifiziert).
In Anbetracht der zahlreichen Berichte (und meiner eigenen praktischen Erfahrung) ist die einzig andere vernünftige Erklärung, dass die Hyperscale-Datensätze, die diese Modelle antreiben, Clips enthalten könnten, die tatsächlich Bewegungen in umgekehrter Reihenfolge zeigen.
Der Stein im eingebetteten Beispielvideo wurde mit Wan 2.1 generiert. Er ist Teil einer neuen Studie, die untersucht, wie gut Video-Diffusionsmodelle mit Physik umgehen.
In Tests für dieses Projekt erreichte Wan 2.1 einen Wert von nur 22 % in seiner Fähigkeit, physikalische Gesetze konsequent einzuhalten.
Überraschenderweise ist das der beste Wert unter allen getesteten Systemen, was darauf hindeutet, dass wir möglicherweise die nächste große Hürde für Video-KI identifiziert haben:
Einführung von VideoPhy-2: Ein neuer Benchmark für physikalischen Common Sense
Die Autoren der neuen Arbeit haben ein Benchmarking-System entwickelt, das sich jetzt in seiner zweiten Iteration befindet und VideoPhy heißt. Der Code ist auf GitHub verfügbar.
Obwohl der Umfang der Arbeit zu groß ist, um ihn hier umfassend abzudecken, wollen wir uns seine Methodik und sein Potenzial ansehen, eine Metrik zu etablieren, die zukünftige Modelltrainingssitzungen von diesen bizarren Instanzen der Umkehrung wegleiten könnte.
Die Studie, die von sechs Forschern der UCLA und Google Research durchgeführt wurde, trägt den Titel VideoPhy-2: A Challenging Action-Centric Physical Commonsense Evaluation in Video Generation. Eine umfassende begleitende Projektseite ist ebenfalls verfügbar, zusammen mit Code und Datensätzen auf GitHub und einem Datensatz-Viewer auf Hugging Face.
Die Autoren beschreiben die neueste Version, VideoPhy-2, als einen “herausfordernden Common-Sense-Evaluierungsdatensatz für reale Aktionen”. Die Sammlung umfasst 197 Aktionen aus einer Reihe verschiedener physikalischer Aktivitäten, darunter Hula-Hoop, Gymnastik und Tennis, sowie Objektinteraktionen wie das Biegen eines Objekts, bis es bricht.
Ein großes Sprachmodell (LLM) wird verwendet, um 3840 Eingabeaufforderungen aus diesen Seed-Aktionen zu generieren. Diese Eingabeaufforderungen werden dann verwendet, um Videos mit den verschiedenen getesteten Frameworks zu synthetisieren.
Während des gesamten Prozesses haben die Autoren eine Liste von “Kandidaten”-physikalischen Regeln und Gesetzen zusammengestellt, die KI-generierte Videos einhalten sollten, wobei sie Vision-Language-Modelle zur Bewertung verwenden.
Die Autoren erklären:
‘In einem Video eines Sportlers, der Tennis spielt, wäre eine physikalische Regel beispielsweise, dass ein Tennisball einer parabolischen Flugbahn unter Schwerkraft folgen sollte. Für Goldstandard-Beurteilungen bitten wir menschliche Annotatoren, jedes Video basierend auf der allgemeinen semantischen Übereinstimmung und dem physikalischen Common Sense zu bewerten und seine Übereinstimmung mit verschiedenen physikalischen Regeln zu markieren.’
Kuratieren von Aktionen und Generieren von Eingabeaufforderungen
Zunächst kuratierten die Forscher eine Reihe von Aktionen, um den physikalischen Common Sense in KI-generierten Videos zu bewerten. Sie begannen mit über 600 Aktionen aus den Datensätzen Kinetics, UCF-101 und SSv2 und konzentrierten sich auf Aktivitäten, die Sport, Objektinteraktionen und reale Physik umfassen.
Zwei unabhängige Gruppen von STEM-geschulten studentischen Annotatoren (mit einem Mindest-Bachelor-Abschluss) überprüften und filterten die Liste. Sie wählten Aktionen aus, die Prinzipien wie Schwerkraft, Impuls und Elastizität testeten, während sie Aufgaben mit geringer Bewegung wie Tippen, ein Tier streicheln oder Kauen entfernten.
Nach weiterer Verfeinerung mit Gemini-2.0-Flash-Exp, um Duplikate zu eliminieren, enthielt der endgültige Datensatz 197 Aktionen. 54 beinhalteten Objektinteraktionen und 143 konzentrierten sich auf physikalische und sportliche Aktivitäten:
In der zweiten Phase verwendeten die Forscher Gemini-2.0-Flash-Exp, um 20 Eingabeaufforderungen für jede Aktion im Datensatz zu generieren, was zu insgesamt 3.940 Eingabeaufforderungen führte. Der Generierungsprozess konzentrierte sich auf sichtbare physikalische Interaktionen, die in einem generierten Video klar dargestellt werden konnten. Dies schloss nicht-visuelle Elemente wie Emotionen, sensorische Details und abstrakte Sprache aus, beinhaltete aber verschiedene Charaktere und Objekte.
Anstatt einer einfachen Eingabeaufforderung wie ‘Ein Bogenschütze lässt den Pfeil los’, wurde das Modell beispielsweise angeleitet, eine detailliertere Version zu erstellen, wie ‘Ein Bogenschütze zieht die Bogensehne bis zur vollen Spannung zurück und lässt dann den Pfeil los, der gerade fliegt und ein Bullseye auf einem Papierziel trifft’.
Da moderne Videomodelle längere Beschreibungen interpretieren können, verfeinerten die Forscher die Bildunterschriften weiter mit dem Mistral-NeMo-12B-Instruct Prompt-Upsampler. Dies fügte visuelle Details hinzu, ohne die ursprüngliche Bedeutung zu verändern.
Ableiten physikalischer Regeln und Identifizieren herausfordernder Aktionen
In der dritten Phase wurden physikalische Regeln nicht aus Texteingabeaufforderungen, sondern aus generierten Videos abgeleitet. Dies liegt daran, dass generative Modelle Schwierigkeiten haben können, sich an konditionierte Texteingabeaufforderungen zu halten.
Videos wurden zuerst mit VideoPhy-2-Eingabeaufforderungen erstellt und dann mit Gemini-2.0-Flash-Exp “hochbeschriftet”, um wichtige Details zu extrahieren. Das Modell schlug drei erwartete physikalische Regeln pro Video vor. Menschliche Annotatoren überprüften und erweiterten diese, indem sie zusätzliche potenzielle Verstöße identifizierten.
Um die herausforderndsten Aktionen zu identifizieren, generierten die Forscher anschließend Videos mit CogVideoX-5B mit Eingabeaufforderungen aus dem VideoPhy-2-Datensatz. Sie wählten dann 60 von 197 Aktionen aus, bei denen das Modell konsequent sowohl den Eingabeaufforderungen als auch dem grundlegenden physikalischen Common Sense nicht folgte.
Diese Aktionen umfassten physikreiche Interaktionen wie Impulsübertragung beim Diskuswerfen, Zustandsänderungen wie das Biegen eines Objekts, bis es bricht, Balanceaufgaben wie Seiltanzen und komplexe Bewegungen, die unter anderem Rückwärtssaltos, Stabhochsprung und Pizzawerfen umfassten. Insgesamt wurden 1.200 Eingabeaufforderungen ausgewählt, um den Schwierigkeitsgrad des Unterdatensatzes zu erhöhen.
Der VideoPhy-2-Datensatz: Eine umfassende Evaluierungsressource
Der resultierende Datensatz umfasste 3.940 Bildunterschriften – 5,72-mal mehr als die frühere Version von VideoPhy. Die durchschnittliche Länge der ursprünglichen Bildunterschriften beträgt 16 Token, während hochgesampelte Bildunterschriften 138 Token erreichen – 1,88-mal bzw. 16,2-mal länger.
Der Datensatz enthält außerdem 102.000 menschliche Annotationen, die die semantische Übereinstimmung, den physikalischen Common Sense und Regelverstöße über mehrere Videogenerierungsmodelle hinweg abdecken.
Definieren von Bewertungskriterien und menschlichen Annotationen
Die Forscher definierten dann klare Kriterien für die Bewertung der Videos. Das Hauptziel war zu beurteilen, wie gut jedes Video mit seiner Eingabeaufforderung übereinstimmte und grundlegenden physikalischen Prinzipien folgte.
Anstatt Videos einfach nach Präferenz zu ordnen, verwendeten sie bewertungsbasiertes Feedback, um spezifische Erfolge und Misserfolge zu erfassen. Menschliche Annotatoren bewerteten Videos auf einer Fünf-Punkte-Skala, was detailliertere Urteile ermöglichte. Die Bewertung überprüfte auch, ob Videos verschiedenen physikalischen Regeln und Gesetzen folgten.
Für die menschliche Bewertung wurde eine Gruppe von 12 Annotatoren aus Versuchen auf Amazon Mechanical Turk (AMT) ausgewählt und gab nach Erhalt detaillierter Fernanweisungen Bewertungen ab. Der Fairness halber wurden semantische Übereinstimmung und physikalischer Common Sense getrennt bewertet (in der ursprünglichen VideoPhy-Studie wurden sie gemeinsam bewertet).
Die Annotatoren bewerteten zuerst, wie gut Videos mit ihren Eingabeaufforderungen übereinstimmten, und bewerteten dann separat die physikalische Plausibilität, wobei sie Regelverstöße und den allgemeinen Realismus auf einer Fünf-Punkte-Skala bewerteten. Es wurden nur die ursprünglichen Eingabeaufforderungen angezeigt, um einen fairen Vergleich zwischen den Modellen zu gewährleisten.
Automatisierte Bewertung: Auf dem Weg zu einer skalierbaren Modellbewertung
Obwohl menschliches Urteilsvermögen der Goldstandard bleibt, ist es teuer und mit mehreren Vorbehalten verbunden. Daher ist eine automatisierte Bewertung für schnellere und skalierbarere Modellbewertungen unerlässlich.
Die Autoren des Papiers testeten mehrere Video-Sprach-Modelle, darunter Gemini-2.0-Flash-Exp und VideoScore, auf ihre Fähigkeit, Videos auf semantische Genauigkeit und “physikalischen Common Sense” zu bewerten.
Die Modelle bewerteten jedes Video erneut auf einer Fünf-Punkte-Skala. Eine separate Klassifizierungsaufgabe bestimmte, ob physikalische Regeln eingehalten, verletzt oder unklar waren.
Experimente zeigten, dass bestehende Video-Sprach-Modelle Schwierigkeiten hatten, mit menschlichen Urteilen übereinzustimmen, hauptsächlich aufgrund schwacher physikalischer Argumentation und der Komplexität der Eingabeaufforderungen. Um die automatisierte Bewertung zu verbessern, entwickelten die Forscher VideoPhy-2-Autoeval, ein 7B-Parameter-Modell, das genauere Vorhersagen über drei Kategorien hinweg liefern soll: semantische Übereinstimmung; physikalischer Common Sense; und Regeleinhaltung. Es wurde auf dem VideoCon-Physics-Modell mit 50.000 menschlichen Annotationen* feinabgestimmt.
Testen generativer Videosysteme: Eine vergleichende Analyse
Mit diesen Werkzeugen testeten die Autoren eine Reihe generativer Videosysteme, sowohl durch lokale Installationen als auch, wo nötig, über kommerzielle APIs: CogVideoX-5B; VideoCrafter2; HunyuanVideo-13B; Cosmos-Diffusion; Wan2.1-14B; OpenAI Sora; und Luma Ray.
Die Modelle wurden nach Möglichkeit mit hochgesampelten Bildunterschriften aufgefordert, mit der Ausnahme, dass Hunyuan Video und VideoCrafter2 unter 77-Token-CLIP-Beschränkungen arbeiten und keine Eingabeaufforderungen über einer bestimmten Länge akzeptieren können.
Generierte Videos wurden auf weniger als 6 Sekunden begrenzt, da kürzere Ausgaben einfacher zu bewerten sind.
Die treibenden Daten stammten aus dem VideoPhy-2-Datensatz, der in einen Benchmark- und einen Trainingssatz aufgeteilt wurde. Pro Modell wurden 590 Videos generiert, mit Ausnahme von Sora und Ray2; aufgrund des Kostenfaktors wurden für diese äquivalente geringere Anzahlen von Videos generiert.
Die erste Bewertung befasste sich mit physikalischen Aktivitäten/Sportarten (PA) und Objektinteraktionen (OI) und testete sowohl den allgemeinen Datensatz als auch die oben erwähnte “härtere” Teilmenge:
Hier kommentieren die Autoren:
‘Selbst das leistungsstärkste Modell, Wan2.1-14B, erreicht nur 32,6 % bzw. 21,9 % auf den vollständigen bzw. harten Teilmengen unseres Datensatzes. Seine relativ starke Leistung im Vergleich zu anderen Modellen kann auf die Vielfalt seiner multimodalen Trainingsdaten sowie auf eine robuste Bewegungsfilterung zurückgeführt werden, die qualitativ hochwertige Videos über eine breite Palette von Aktionen hinweg bewahrt.
‘Darüber hinaus stellen wir fest, dass geschlossene Modelle, wie Ray2, schlechter abschneiden als offene Modelle wie Wan2.1-14B und CogVideoX-5B. Dies deutet darauf hin, dass geschlossene Modelle offenen Modellen beim Erfassen von physikalischem Common Sense nicht unbedingt überlegen sind.
‘Bemerkenswert ist, dass Cosmos-Diffusion-7B den zweitbesten Wert auf der harten Teilmenge erzielt und sogar das viel größere HunyuanVideo-13B-Modell übertrifft. Dies könnte auf die hohe Repräsentation menschlicher Aktionen in seinen Trainingsdaten sowie auf synthetisch gerenderte Simulationen zurückzuführen sein.’
Die Ergebnisse zeigten, dass Videomodelle mehr Schwierigkeiten mit physikalischen Aktivitäten wie Sport hatten als mit einfacheren Objektinteraktionen. Dies deutet darauf hin, dass die Verbesserung KI-generierter Videos in diesem Bereich bessere Datensätze erfordert – insbesondere qualitativ hochwertiges Filmmaterial von Sportarten wie Tennis, Diskus, Baseball und Cricket.
Die Studie untersuchte auch, ob die physikalische Plausibilität eines Modells mit anderen Videoqualitätsmetriken wie Ästhetik und Bewegungsglätte korreliert. Die Ergebnisse zeigten keine starke Korrelation, was bedeutet, dass ein Modell seine Leistung auf VideoPhy-2 nicht einfach durch Generieren visuell ansprechender oder flüssiger Bewegungen verbessern kann – es benötigt ein tieferes Verständnis des physikalischen Common Sense.
Qualitative Beispiele: Hervorhebung der Herausforderungen
Obwohl das Papier zahlreiche qualitative Beispiele liefert, scheinen sich nur wenige der im PDF bereitgestellten statischen Beispiele auf die umfangreichen videobasierten Beispiele zu beziehen, die die Autoren auf der Projektseite bereitstellen. Daher werden wir uns eine kleine Auswahl der statischen Beispiele und dann einige weitere der tatsächlichen Projektvideos ansehen.
Bezüglich des obigen qualitativen Tests kommentieren die Autoren:
‘[Wir] beobachten Verstöße gegen den physikalischen Common Sense, wie z. B. Jetskis, die sich unnatürlich rückwärts bewegen, und die Verformung eines massiven Vorschlaghammers, die den Prinzipien der Elastizität widerspricht. Aber selbst Wan leidet unter dem Mangel an physikalischem Common Sense, wie in [dem Clip gezeigt, der am Anfang dieses Artikels eingebettet ist].
‘In diesem Fall heben wir hervor, dass ein Stein beginnt, bergauf zu rollen und zu beschleunigen, was dem physikalischen Gesetz der Schwerkraft widerspricht.’
Wie eingangs erwähnt, übersteigt das mit diesem Projekt verbundene Material bei weitem das, was hier abgedeckt werden kann. Bitte beachten Sie daher das Quellpapier, die Projektseite und die zuvor erwähnten verwandten Seiten für eine wirklich erschöpfende Darstellung der Verfahren der Autoren und erheblich mehr Testbeispiele und Verfahrensdetails.
* Was die Herkunft der Annotationen betrifft, so gibt das Papier nur an, dass sie ‘für diese Aufgaben erworben’ wurden – es scheint viel zu sein, um von 12 AMT-Mitarbeitern generiert worden zu sein.
Erstmals veröffentlicht am Donnerstag, 13. März 2025