Pourquoi l'IA inverse parfois la vidéo

L’essor des modèles vidéo génératifs chinois

Si 2022 a marqué l’année où l’IA générative a véritablement captivé l’imagination du public, 2025 s’annonce comme l’année où une nouvelle vague de frameworks vidéo génératifs en provenance de Chine prend le devant de la scène.

Hunyuan Video de Tencent a déjà fait des vagues significatives dans la communauté des amateurs d’IA. Sa version open-source d’un modèle de diffusion vidéo complet permet aux utilisateurs d’adapter la technologie à leurs besoins spécifiques.

Alibaba’s Wan 2.1, sorti plus récemment, suit de près. Ce modèle se distingue comme l’une des solutions Free and Open Source Software (FOSS) image-to-video les plus puissantes actuellement disponibles, et il prend désormais en charge la personnalisation via Wan LoRAs.

En plus de ces développements, nous anticipons également la sortie de la suite complète de création et d’édition vidéo VACE d’Alibaba, ainsi que la disponibilité du récent modèle de fondation centré sur l’humain, SkyReels.

La scène de la recherche sur l’IA vidéo générative est tout aussi explosive. Nous sommes encore début mars, mais les soumissions du mardi à la section Computer Vision d’Arxiv (un centre clé pour les articles sur l’IA générative) ont totalisé près de 350 entrées - un nombre généralement observé pendant le pic de la saison des conférences.

Les deux années qui ont suivi le lancement de Stable Diffusion à l’été 2022 (et le développement ultérieur des méthodes de personnalisation Dreambooth et LoRA) ont été caractérisées par un manque relatif de percées majeures. Cependant, les dernières semaines ont vu une vague de nouvelles versions et d’innovations, arrivant à un rythme si rapide qu’il est presque impossible de rester pleinement informé, et encore moins de tout couvrir de manière exhaustive.

Résolution de la cohérence temporelle, mais de nouveaux défis émergent

Les modèles de diffusion vidéo comme Hunyuan et Wan 2.1 ont, enfin, résolu le problème de la cohérence temporelle. Après des années de tentatives infructueuses de la part de centaines d’initiatives de recherche, ces modèles ont largement résolu les défis liés à la génération d’humains, d’environnements et d’objets cohérents dans le temps.

Il ne fait aucun doute que les studios d’effets visuels (VFX) consacrent activement du personnel et des ressources pour adapter ces nouveaux modèles vidéo chinois. Leur objectif immédiat est de s’attaquer à des défis urgents comme le face-swapping, malgré l’absence actuelle de mécanismes auxiliaires de type ControlNet pour ces systèmes.

Ce doit être un immense soulagement qu’un obstacle aussi important ait potentiellement été surmonté, même si ce n’était pas par les voies prévues.

Cependant, parmi les problèmes restants, l’un se distingue comme particulièrement significatif:

Tous les systèmes text-to-video et image-to-video actuellement disponibles, y compris les modèles commerciaux à code source fermé, ont tendance à produire des erreurs défiant les lois de la physique. L’exemple ci-dessus montre un rocher roulant vers le haut, généré à partir de l’invite : ‘A small rock tumbles down a steep, rocky hillside, displacing soil and small stones’.

Pourquoi les vidéos d’IA se trompent-elles sur la physique ?

Une théorie, récemment proposée dans une collaboration académique entre Alibaba et les Émirats arabes unis, suggère que les modèles pourraient apprendre d’une manière qui entrave leur compréhension de l’ordre temporel. Même lorsqu’ils s’entraînent sur des vidéos (qui sont décomposées en séquences d’images uniques pour l’entraînement), les modèles pourraient ne pas saisir intrinsèquement la séquence correcte des images “avant” et “après”.

Cependant, l’explication la plus plausible est que les modèles en question ont employé des routines d’augmentation de données. Ces routines impliquent d’exposer le modèle à un clip d’entraînement source à la fois en avant et en arrière, doublant ainsi les données d’entraînement.

On sait depuis un certain temps que cela ne devrait pas être fait sans discernement. Alors que certains mouvements fonctionnent à l’envers, beaucoup ne le font pas. Une étude de 2019 de l’Université de Bristol au Royaume-Uni visait à développer une méthode pour distinguer les clips vidéo de données sources équivariants, invariants et irréversibles au sein d’un même ensemble de données. L’objectif était de filtrer les clips inappropriés des routines d’augmentation de données.

Les auteurs de ce travail ont clairement articulé le problème :

‘We find the realism of reversed videos to be betrayed by reversal artefacts, aspects of the scene that would not be possible in a natural world. Some artefacts are subtle, while others are easy to spot, like a reversed ‘throw’ action where the thrown object spontaneously rises from the floor.

‘We observe two types of reversal artefacts, physical, those exhibiting violations of the laws of nature, and improbable, those depicting a possible but unlikely scenario. These are not exclusive, and many reversed actions suffer both types of artefacts, like when uncrumpling a piece of paper.

‘Examples of physical artefacts include: inverted gravity (e.g. ‘dropping something’), spontaneous impulses on objects (e.g. ‘spinning a pen’), and irreversible state changes (e.g. ‘burning a candle’). An example of an improbable artefact: taking a plate from the cupboard, drying it, and placing it on the drying rack.

‘This kind of re-use of data is very common at training time, and can be beneficial – for example, in making sure that the model does not learn only one view of an image or object which can be flipped or rotated without losing its central coherency and logic.

‘This only works for objects that are truly symmetrical, of course; and learning physics from a ‘reversed’ video only works if the reversed version makes as much sense as the forward version.’

Nous n’avons pas de preuve concrète que des systèmes comme Hunyuan Video et Wan 2.1 ont autorisé des clips “inversés” arbitraires pendant l’entraînement (aucun des groupes de recherche n’a été précis sur leurs routines d’augmentation de données).

Cependant, compte tenu des nombreux rapports (et de ma propre expérience pratique), la seule autre explication raisonnable est que les ensembles de données à hyper-échelle alimentant ces modèles pourraient contenir des clips qui présentent réellement des mouvements se produisant à l’envers.

Le rocher dans l’exemple vidéo intégré plus tôt a été généré à l’aide de Wan 2.1. Il figure dans une nouvelle étude qui examine dans quelle mesure les modèles de diffusion vidéo gèrent la physique.

Lors des tests pour ce projet, Wan 2.1 a obtenu un score de seulement 22% dans sa capacité à adhérer systématiquement aux lois physiques.

Étonnamment, c’est le meilleur score parmi tous les systèmes testés, ce qui suggère que nous avons peut-être identifié le prochain obstacle majeur pour l’IA vidéo :

Présentation de VideoPhy-2 : un nouveau benchmark pour le bon sens physique

Les auteurs du nouveau travail ont développé un système de benchmarking, maintenant dans sa deuxième itération, appelé VideoPhy. Le code est disponible sur GitHub.

Bien que la portée du travail soit trop large pour être couverte de manière exhaustive ici, examinons sa méthodologie et son potentiel pour établir une métrique qui pourrait guider les futures sessions de formation de modèles loin de ces instances bizarres d’inversion.

L’étude, menée par six chercheurs de l’UCLA et de Google Research, est intitulée VideoPhy-2: A Challenging Action-Centric Physical Commonsense Evaluation in Video Generation. Un site de projet complet est également disponible, ainsi que le code et les ensembles de données sur GitHub, et un visualiseur d’ensemble de données sur Hugging Face.

Les auteurs décrivent la dernière version, VideoPhy-2, comme un “ensemble de données d’évaluation du bon sens difficile pour les actions du monde réel”. La collection comprend 197 actions à travers une gamme d’activités physiques diverses, y compris le hula-hoop, la gymnastique et le tennis, ainsi que des interactions d’objets comme plier un objet jusqu’à ce qu’il se casse.

Un grand modèle de langage (LLM) est utilisé pour générer 3840 invites à partir de ces actions de base. Ces invites sont ensuite utilisées pour synthétiser des vidéos à l’aide des différents frameworks testés.

Tout au long du processus, les auteurs ont compilé une liste de règles et de lois physiques “candidates” auxquelles les vidéos générées par l’IA devraient adhérer, en utilisant des modèles vision-langage pour l’évaluation.

Les auteurs déclarent :

‘For example, in a video of sportsperson playing tennis, a physical rule would be that a tennis ball should follow a parabolic trajectory under gravity. For gold-standard judgments, we ask human annotators to score each video based on overall semantic adherence and physical commonsense, and to mark its compliance with various physical rules.’

Organiser les actions et générer des invites

Initialement, les chercheurs ont organisé un ensemble d’actions pour évaluer le bon sens physique dans les vidéos générées par l’IA. Ils ont commencé avec plus de 600 actions provenant des ensembles de données Kinetics, UCF-101 et SSv2, en se concentrant sur les activités impliquant des sports, des interactions d’objets et la physique du monde réel.

Deux groupes indépendants d’annotateurs étudiants formés en STEM (avec une qualification de premier cycle minimum) ont examiné et filtré la liste. Ils ont sélectionné des actions qui testaient des principes tels que la gravité, l’élan et l’élasticité, tout en supprimant les tâches à faible mouvement comme taper, caresser un chat ou mâcher.

Après un raffinement supplémentaire avec Gemini-2.0-Flash-Exp pour éliminer les doublons, l’ensemble de données final comprenait 197 actions. 54 impliquaient des interactions d’objets et 143 étaient centrées sur des activités physiques et sportives :

Dans la deuxième étape, les chercheurs ont utilisé Gemini-2.0-Flash-Exp pour générer 20 invites pour chaque action dans l’ensemble de données, résultant en un total de 3 940 invites. Le processus de génération s’est concentré sur les interactions physiques visibles qui pouvaient être clairement représentées dans une vidéo générée. Cela excluait les éléments non visuels tels que les émotions, les détails sensoriels et le langage abstrait, mais incorporait divers personnages et objets.

Par exemple, au lieu d’une simple invite comme ‘An archer releases the arrow’, le modèle a été guidé pour produire une version plus détaillée telle que ‘An archer draws the bowstring back to full tension, then releases the arrow, which flies straight and strikes a bullseye on a paper target’.

Étant donné que les modèles vidéo modernes peuvent interpréter des descriptions plus longues, les chercheurs ont affiné davantage les légendes à l’aide de l’échantillonneur d’invites Mistral-NeMo-12B-Instruct. Cela a ajouté des détails visuels sans altérer le sens d’origine.

Dériver des règles physiques et identifier les actions difficiles

Pour la troisième étape, les règles physiques ont été dérivées non pas des invites textuelles, mais des vidéos générées. En effet, les modèles génératifs peuvent avoir du mal à adhérer aux invites textuelles conditionnées.

Les vidéos ont d’abord été créées à l’aide des invites VideoPhy-2, puis “sous-titrées” avec Gemini-2.0-Flash-Exp pour extraire les détails clés. Le modèle a proposé trois règles physiques attendues par vidéo. Des annotateurs humains ont examiné et élargi ces règles en identifiant d’autres violations potentielles.

Ensuite, pour identifier les actions les plus difficiles, les chercheurs ont généré des vidéos à l’aide de CogVideoX-5B avec des invites de l’ensemble de données VideoPhy-2. Ils ont ensuite sélectionné 60 actions sur 197 où le modèle n’a pas réussi à suivre à la fois les invites et le bon sens physique de base.

Ces actions impliquaient des interactions riches en physique telles que le transfert d’élan dans le lancer du disque, des changements d’état comme plier un objet jusqu’à ce qu’il se casse, des tâches d’équilibrage comme la marche sur une corde raide et des mouvements complexes qui incluaient des back-flips, du saut à la perche et du lancer de pizza, entre autres. Au total, 1 200 invites ont été choisies pour augmenter la difficulté du sous-ensemble de données.

L’ensemble de données VideoPhy-2 : une ressource d’évaluation complète

L’ensemble de données résultant comprenait 3 940 légendes - 5,72 fois plus que la version précédente de VideoPhy. La longueur moyenne des légendes originales est de 16 jetons, tandis que les légendes suréchantillonnées atteignent 138 jetons - respectivement 1,88 fois et 16,2 fois plus longues.

L’ensemble de données comprend également 102 000 annotations humaines couvrant l’adhérence sémantique, le bon sens physique et les violations des règles sur plusieurs modèles de génération vidéo.

Définir les critères d’évaluation et les annotations humaines

Les chercheurs ont ensuite défini des critères clairs pour évaluerles vidéos. L’objectif principal était d’évaluer dans quelle mesure chaque vidéo correspondait à son invite d’entrée et suivait les principes physiques de base.

Au lieu de simplement classer les vidéos par préférence, ils ont utilisé des commentaires basés sur des notes pour capturer les succès et les échecs spécifiques. Les annotateurs humains ont noté les vidéos sur une échelle de cinq points, permettant des jugements plus détaillés. L’évaluation a également vérifié si les vidéos suivaient diverses règles et lois physiques.

Pour l’évaluation humaine, un groupe de 12 annotateurs a été sélectionné à partir d’essais sur Amazon Mechanical Turk (AMT) et a fourni des évaluations après avoir reçu des instructions détaillées à distance. Pour l’équité, l’adhérence sémantique et le bon sens physique ont été évalués séparément (dans l’étude originale de VideoPhy, ils étaient évalués conjointement).

Les annotateurs ont d’abord évalué dans quelle mesure les vidéos correspondaient à leurs invites d’entrée, puis ont évalué séparément la plausibilité physique, notant les violations des règles et le réalisme global sur une échelle de cinq points. Seules les invites originales ont été affichées, afin de maintenir une comparaison équitable entre les modèles.

Évaluation automatisée : vers une évaluation de modèle évolutive

Bien que le jugement humain reste la référence, il est coûteux et comporte plusieurs mises en garde. Par conséquent, l’évaluation automatisée est essentielle pour des évaluations de modèles plus rapides et plus évolutives.

Les auteurs de l’article ont testé plusieurs modèles vidéo-langage, dont Gemini-2.0-Flash-Exp et VideoScore, sur leur capacité à noter les vidéos pour la précision sémantique et le “bon sens physique”.

Les modèles ont de nouveau noté chaque vidéo sur une échelle de cinq points. Une tâche de classification distincte a déterminé si les règles physiques étaient suivies, violées ou peu claires.

Les expériences ont montré que les modèles vidéo-langage existants avaient du mal à correspondre aux jugements humains, principalement en raison d’un faible raisonnement physique et de la complexité des invites. Pour améliorer l’évaluation automatisée, les chercheurs ont développé VideoPhy-2-Autoeval, un modèle à 7 milliards de paramètres conçu pour fournir des prédictions plus précises dans trois catégories : adhérence sémantique ; bon sens physique ; et conformité aux règles. Il a été affiné sur le modèle VideoCon-Physics en utilisant 50 000 annotations humaines*.

Tester les systèmes vidéo génératifs : une analyse comparative

Avec ces outils en place, les auteurs ont testé un certain nombre de systèmes vidéo génératifs, à la fois via des installations locales et, si nécessaire, via des API commerciales : CogVideoX-5B ; VideoCrafter2 ; HunyuanVideo-13B ; Cosmos-Diffusion ; Wan2.1-14B ; OpenAI Sora ; et Luma Ray.

Les modèles ont été invités avec des légendes suréchantillonnées lorsque cela était possible, sauf que Hunyuan Video et VideoCrafter2 fonctionnent sous des limitations CLIP de 77 jetons et ne peuvent pas accepter d’invites au-dessus d’une certaine longueur.

Les vidéos générées ont été limitées à moins de 6 secondes, car une sortie plus courte est plus facile à évaluer.

Les données motrices provenaient de l’ensemble de données VideoPhy-2, qui a été divisé en un ensemble de référence et un ensemble d’entraînement. 590 vidéos ont été générées par modèle, à l’exception de Sora et Ray2 ; en raison du facteur coût, des nombres équivalents de vidéos inférieures ont été générés pour ceux-ci.

L’évaluation initiale portait sur les activités physiques/sports (PA) et les interactions d’objets (OI) et testait à la fois l’ensemble de données général et le sous-ensemble “plus difficile” susmentionné :

Ici, les auteurs commentent :

‘Even the best-performing model, Wan2.1-14B, achieves only 32.6% and 21.9% on the full and hard splits of our dataset, respectively. Its relatively strong performance compared to other models can be attributed to the diversity of its multimodal training data, along with robust motion filtering that preserves high-quality videos across a wide range of actions.

‘Furthermore, we observe that closed models, such as Ray2, perform worse than open models like Wan2.1-14B and CogVideoX-5B. This suggests that closed models are not necessarily superior to open models in capturing physical commonsense.

‘Notably, Cosmos-Diffusion-7B achieves the second-best score on the hard split, even outperforming the much larger HunyuanVideo-13B model. This may be due to the high representation of human actions in its training data, along with synthetically rendered simulations.’

Les résultats ont montré que les modèles vidéo avaient plus de mal avec les activités physiques comme le sport qu’avec les interactions d’objets plus simples. Cela suggère que l’amélioration des vidéos générées par l’IA dans ce domaine nécessitera de meilleurs ensembles de données - en particulier des séquences de haute qualité de sports tels que le tennis, le disque, le baseball et le cricket.

L’étude a également examiné si la plausibilité physique d’un modèle était corrélée à d’autres mesures de qualité vidéo, telles que l’esthétique et la fluidité du mouvement. Les résultats n’ont révélé aucune corrélation forte, ce qui signifie qu’un modèle ne peut pas améliorer ses performances sur VideoPhy-2 simplement en générant un mouvement visuellement attrayant ou fluide - il a besoin d’une compréhension plus approfondie du bon sens physique.

Exemples qualitatifs : mise en évidence des défis

Bien que l’article fournisse de nombreux exemples qualitatifs, peu d’exemples statiques fournis dans le PDF semblent se rapporter aux exemples vidéo étendus que les auteurs fournissent sur le site du projet. Par conséquent, nous allons examiner une petite sélection des exemples statiques, puis quelques-unes des vidéos réelles du projet.

Concernant le test qualitatif ci-dessus, les auteurs commentent :

‘[We] observe violations of physical commonsense, such as jetskis moving unnaturally in reverse and the deformation of a solid sledgehammer, defying the principles of elasticity. However, even Wan suffers from the lack of physical commonsense, as shown in [the clip embedded at the start of this article].

‘In this case, we highlight that a rock starts rolling and accelerating uphill, defying the physical law of gravity.’

Comme mentionné au début, le volume de matériel associé à ce projet dépasse de loin ce qui peut être couvert ici. Par conséquent, veuillez vous référer à l’article source, au site du projet et aux sites connexes mentionnés précédemment pour un aperçu vraiment exhaustif des procédures des auteurs, et considérablement plus d’exemples de tests et de détails procéduraux.

* Quant à la provenance des annotations, l’article ne précise que ‘acquises pour ces tâches’ - cela semble beaucoup pour avoir été généré par 12 travailleurs AMT.

Publié pour la première fois le jeudi 13 mars 2025