L’Ascesa dei Modelli Cinesi di Generazione Video
Se il 2022 ha segnato l’anno in cui l’IA generativa ha catturato l’immaginazione del pubblico, il 2025 si preannuncia come l’anno in cui una nuova ondata di framework di generazione video dalla Cina salirà alla ribalta.
Hunyuan Video di Tencent ha già fatto scalpore nella comunità degli appassionati di IA. Il suo rilascio open-source di un modello di diffusione video completo consente agli utenti di adattare la tecnologia alle loro esigenze specifiche.
Segue da vicino Wan 2.1 di Alibaba, rilasciato più recentemente. Questo modello si distingue come una delle più potenti soluzioni Free and Open Source Software (FOSS) image-to-video attualmente disponibili e ora supporta la personalizzazione tramite Wan LoRAs.
Oltre a questi sviluppi, stiamo anche anticipando il rilascio della suite completa di creazione e modifica video VACE di Alibaba, insieme alla disponibilità del recente modello di base incentrato sull’uomo, SkyReels.
La scena della ricerca sull’IA generativa video è altrettanto esplosiva. È ancora l’inizio di marzo, eppure le presentazioni di martedì alla sezione Computer Vision di Arxiv (un hub chiave per i documenti sull’IA generativa) sono state quasi 350, un numero tipicamente visto durante il picco della stagione delle conferenze.
I due anni trascorsi dal lancio di Stable Diffusion nell’estate del 2022 (e il successivo sviluppo dei metodi di personalizzazione Dreambooth e LoRA) sono stati caratterizzati da una relativa mancanza di importanti scoperte. Tuttavia, le ultime settimane hanno visto un’ondata di nuove versioni e innovazioni, che arrivano a un ritmo così rapido che è quasi impossibile rimanere pienamente informati, per non parlare di coprire tutto in modo completo.
Risoluzione della Coerenza Temporale, ma Emergono Nuove Sfide
I modelli di diffusione video come Hunyuan e Wan 2.1 hanno, finalmente, affrontato il problema della coerenza temporale. Dopo anni di tentativi infruttuosi da parte di centinaia di iniziative di ricerca, questi modelli hanno in gran parte risolto le sfide relative alla generazione di esseri umani, ambienti e oggetti coerenti nel tempo.
Non c’è dubbio che gli studi VFX stiano attivamente dedicando personale e risorse per adattare questi nuovi modelli video cinesi. Il loro obiettivo immediato è affrontare sfide urgenti come lo scambio di volti, nonostante l’attuale assenza di meccanismi ausiliari in stile ControlNet per questi sistemi.
Deve essere un enorme sollievo che un ostacolo così significativo sia stato potenzialmente superato, anche se non attraverso i canali previsti.
Tuttavia, tra i problemi rimanenti, uno si distingue come particolarmente significativo:
Tutti i sistemi text-to-video e image-to-video attualmente disponibili, inclusi i modelli commerciali closed-source, hanno la tendenza a produrre errori che sfidano la fisica. L’esempio sopra mostra una roccia che rotola in salita, generata dal prompt: ‘Una piccola roccia rotola giù per un ripido pendio roccioso, spostando terra e piccole pietre’.
Perché i Video AI Sbagliano la Fisica?
Una teoria, recentemente proposta in una collaborazione accademica tra Alibaba e gli Emirati Arabi Uniti, suggerisce che i modelli potrebbero apprendere in un modo che ostacola la loro comprensione dell’ordine temporale. Anche quando si addestrano su video (che vengono suddivisi in sequenze di singoli fotogrammi per l’addestramento), i modelli potrebbero non comprendere intrinsecamente la sequenza corretta di immagini “prima” e “dopo”.
Tuttavia, la spiegazione più plausibile è che i modelli in questione abbiano impiegato routine di data augmentation. Queste routine prevedono l’esposizione del modello a una clip di addestramento sorgente sia in avanti che all’indietro, raddoppiando efficacemente i dati di addestramento.
È noto da tempo che questo non dovrebbe essere fatto indiscriminatamente. Mentre alcuni movimenti funzionano al contrario, molti non lo fanno. Uno studio del 2019 dell’Università di Bristol nel Regno Unito mirava a sviluppare un metodo per distinguere tra clip video di dati sorgente equivarianti, invarianti e irreversibili all’interno di un singolo set di dati. L’obiettivo era filtrare le clip non idonee dalle routine di data augmentation.
Gli autori di quel lavoro hanno chiaramente articolato il problema:
‘Riteniamo che il realismo dei video invertiti sia tradito da artefatti di inversione, aspetti della scena che non sarebbero possibili in un mondo naturale. Alcuni artefatti sono sottili, mentre altri sono facili da individuare, come un’azione di ‘lancio’ invertita in cui l’oggetto lanciato si alza spontaneamente dal pavimento.
‘Osserviamo due tipi di artefatti di inversione, fisici, quelli che mostrano violazioni delle leggi della natura, e improbabili, quelli che descrivono uno scenario possibile ma improbabile. Questi non sono esclusivi e molte azioni invertite soffrono di entrambi i tipi di artefatti, come quando si stropiccia un pezzo di carta.
‘Esempi di artefatti fisici includono: gravità invertita (ad esempio ‘far cadere qualcosa’), impulsi spontanei su oggetti (ad esempio ‘far girare una penna’) e cambiamenti di stato irreversibili (ad esempio ‘bruciare una candela’). Un esempio di artefatto improbabile: prendere un piatto dall’armadio, asciugarlo e metterlo sullo scolapiatti.
‘Questo tipo di riutilizzo dei dati è molto comune al momento dell’addestramento e può essere vantaggioso, ad esempio, per assicurarsi che il modello non apprenda solo una vista di un’immagine o di un oggetto che può essere capovolto o ruotato senza perdere la sua coerenza e logica centrale.
‘Questo funziona solo per oggetti che sono veramente simmetrici, ovviamente; e imparare la fisica da un video ‘invertito’ funziona solo se la versione invertita ha tanto senso quanto la versione in avanti.’
Non abbiamo prove concrete che sistemi come Hunyuan Video e Wan 2.1 abbiano consentito clip “invertite” arbitrarie durante l’addestramento (nessuno dei due gruppi di ricerca è stato specifico sulle proprie routine di data augmentation).
Tuttavia, considerando le numerose segnalazioni (e la mia esperienza pratica), l’unica altra spiegazione ragionevole è che i set di dati iperscalari che alimentano questi modelli potrebbero contenere clip che presentano genuinamente movimenti che si verificano al contrario.
La roccia nel video di esempio incorporato in precedenza è stata generata utilizzando Wan 2.1. È presente in un nuovo studio che indaga quanto bene i modelli di diffusione video gestiscono la fisica.
Nei test per questo progetto, Wan 2.1 ha ottenuto un punteggio di solo il 22% nella sua capacità di aderire costantemente alle leggi fisiche.
Sorprendentemente, questo è il punteggio migliore tra tutti i sistemi testati, suggerendo che potremmo aver identificato il prossimo grande ostacolo per l’IA video:
Introduzione di VideoPhy-2: Un Nuovo Benchmark per il Buon Senso Fisico
Gli autori del nuovo lavoro hanno sviluppato un sistema di benchmarking, ora alla sua seconda iterazione, chiamato VideoPhy. Il codice è disponibile su GitHub.
Sebbene l’ambito del lavoro sia troppo ampio per essere coperto in modo completo qui, esaminiamo la sua metodologia e il suo potenziale per stabilire una metrica che potrebbe guidare le future sessioni di addestramento del modello lontano da queste bizzarre istanze di inversione.
Lo studio, condotto da sei ricercatori dell’UCLA e di Google Research, è intitolato VideoPhy-2: A Challenging Action-Centric Physical Commonsense Evaluation in Video Generation. È disponibile anche un sito di progetto completo di accompagnamento, insieme a codice e set di dati su GitHub e un visualizzatore di set di dati su Hugging Face.
Gli autori descrivono l’ultima versione, VideoPhy-2, come un “set di dati di valutazione del buon senso impegnativo per le azioni del mondo reale”. La raccolta presenta 197 azioni in una gamma di diverse attività fisiche, tra cui hula-hooping, ginnastica e tennis, nonché interazioni con oggetti come piegare un oggetto fino a romperlo.
Un modello linguistico di grandi dimensioni (LLM) viene utilizzato per generare 3840 prompt da queste azioni seed. Questi prompt vengono quindi utilizzati per sintetizzare video utilizzando i vari framework in fase di test.
Durante tutto il processo, gli autori hanno compilato un elenco di regole e leggi fisiche “candidate” a cui i video generati dall’IA dovrebbero aderire, utilizzando modelli vision-language per la valutazione.
Gli autori affermano:
‘Ad esempio, in un video di uno sportivo che gioca a tennis, una regola fisica sarebbe che una pallina da tennis dovrebbe seguire una traiettoria parabolica sotto la gravità. Per i giudizi standard, chiediamo agli annotatori umani di valutare ogni video in base all’aderenza semantica complessiva e al buon senso fisico e di contrassegnare la sua conformità a varie regole fisiche.’
Curare le Azioni e Generare i Prompt
Inizialmente, i ricercatori hanno curato una serie di azioni per valutare il buon senso fisico nei video generati dall’IA. Hanno iniziato con oltre 600 azioni provenienti dai set di dati Kinetics, UCF-101 e SSv2, concentrandosi su attività che coinvolgono sport, interazioni con oggetti e fisica del mondo reale.
Due gruppi indipendenti di annotatori studenti con formazione STEM (con una qualifica minima di laurea) hanno esaminato e filtrato l’elenco. Hanno selezionato azioni che hanno testato principi come gravità, quantità di moto ed elasticità, rimuovendo attività a basso movimento come digitare, accarezzare un gatto o masticare.
Dopo un’ulteriore rifinitura con Gemini-2.0-Flash-Exp per eliminare i duplicati, il set di dati finale includeva 197 azioni. 54 coinvolgevano interazioni con oggetti e 143 erano incentrate su attività fisiche e sportive:
Nella seconda fase, i ricercatori hanno utilizzato Gemini-2.0-Flash-Exp per generare 20 prompt per ogni azione nel set di dati, ottenendo un totale di 3.940 prompt. Il processo di generazione si è concentrato su interazioni fisiche visibili che potevano essere chiaramente rappresentate in un video generato. Ciò ha escluso elementi non visivi come emozioni, dettagli sensoriali e linguaggio astratto, ma ha incorporato diversi personaggi e oggetti.
Ad esempio, invece di un semplice prompt come ‘Un arciere rilascia la freccia’, il modello è stato guidato a produrre una versione più dettagliata come ‘Un arciere tira indietro la corda dell’arco fino alla massima tensione, quindi rilascia la freccia, che vola dritta e colpisce un bersaglio su un bersaglio di carta’.
Poiché i modelli video moderni possono interpretare descrizioni più lunghe, i ricercatori hanno ulteriormente perfezionato le didascalie utilizzando l’upsampler di prompt Mistral-NeMo-12B-Instruct. Ciò ha aggiunto dettagli visivi senza alterare il significato originale.
Derivare Regole Fisiche e Identificare Azioni Impegnative
Per la terza fase, le regole fisiche sono state derivate non dai prompt di testo ma dai video generati. Questo perché i modelli generativi possono avere difficoltà ad aderire ai prompt di testo condizionati.
I video sono stati prima creati utilizzando i prompt di VideoPhy-2, quindi “up-captioned” con Gemini-2.0-Flash-Exp per estrarre i dettagli chiave. Il modello ha proposto tre regole fisiche previste per video. Gli annotatori umani hanno esaminato e ampliato queste identificando ulteriori potenziali violazioni.
Successivamente, per identificare le azioni più impegnative, i ricercatori hanno generato video utilizzando CogVideoX-5B con prompt dal set di dati VideoPhy-2. Hanno quindi selezionato 60 delle 197 azioni in cui il modello non è riuscito costantemente a seguire sia i prompt che il buon senso fisico di base.
Queste azioni coinvolgevano interazioni ricche di fisica come il trasferimento di quantità di moto nel lancio del disco, cambiamenti di stato come piegare un oggetto fino a romperlo, compiti di equilibrio come camminare sulla corda tesa e movimenti complessi che includevano salti mortali all’indietro, salto con l’asta e lancio della pizza, tra gli altri. In totale, sono stati scelti 1.200 prompt per aumentare la difficoltà del sottoinsieme di dati.
Il Set di Dati VideoPhy-2: Una Risorsa di Valutazione Completa
Il set di dati risultante comprendeva 3.940 didascalie, 5,72 volte di più rispetto alla versione precedente di VideoPhy. La lunghezza media delle didascalie originali è di 16 token, mentre le didascalie upsampled raggiungono i 138 token, rispettivamente 1,88 volte e 16,2 volte più lunghe.
Il set di dati presenta anche 102.000 annotazioni umane che coprono l’aderenza semantica, il buon senso fisico e le violazioni delle regole su più modelli di generazione video.
Definizione dei Criteri di Valutazione e delle Annotazioni Umane
I ricercatori hanno quindi definito criteri chiari per la valutazione dei video. L’obiettivo principale era valutare quanto bene ogni video corrispondesse al suo prompt di input e seguisse i principi fisici di base.
Invece di classificare semplicemente i video in base alle preferenze, hanno utilizzato feedback basati sulla valutazione per catturare successi e fallimenti specifici. Gli annotatori umani hanno valutato i video su una scala a cinque punti, consentendo giudizi più dettagliati. La valutazione ha anche verificato se i video seguissero varie regole e leggi fisiche.
Per la valutazione umana, un gruppo di 12 annotatori è stato selezionato da prove su Amazon Mechanical Turk (AMT) e ha fornito valutazioni dopo aver ricevuto istruzioni remote dettagliate. Per correttezza, l’aderenza semantica e il buon senso fisico sono stati valutati separatamente (nello studio originale di VideoPhy, sono stati valutati congiuntamente).
Gli annotatori hanno prima valutato quanto bene i video corrispondessero ai loro prompt di input, quindi hanno valutato separatamente la plausibilità fisica, valutando le violazioni delle regole e il realismo complessivo su una scala a cinque punti. Sono stati mostrati solo i prompt originali, per mantenere un confronto equo tra i modelli.
Valutazione Automatizzata: Verso una Valutazione Scalabile del Modello
Sebbene il giudizio umano rimanga lo standard di riferimento, è costoso e presenta diverse avvertenze. Pertanto, la valutazione automatizzata è essenziale per valutazioni del modello più rapide e scalabili.
Gli autori dell’articolo hanno testato diversi modelli video-linguaggio, tra cui Gemini-2.0-Flash-Exp e VideoScore, sulla loro capacità di valutare i video per l’accuratezza semantica e per il “buon senso fisico”.
I modelli hanno nuovamente valutato ogni video su una scala a cinque punti. Un’attività di classificazione separata ha determinato se le regole fisiche fossero seguite, violate o non chiare.
Gli esperimenti hanno dimostrato che i modelli video-linguaggio esistenti hanno faticato a eguagliare i giudizi umani, principalmente a causa del debole ragionamento fisico e della complessità dei prompt. Per migliorare la valutazione automatizzata, i ricercatori hanno sviluppato VideoPhy-2-Autoeval, un modello a 7 miliardi di parametri progettato per fornire previsioni più accurate in tre categorie: aderenza semantica; buon senso fisico; e conformità alle regole. È stato ottimizzato sul modello VideoCon-Physics utilizzando 50.000 annotazioni umane*.
Test dei Sistemi di Generazione Video: Un’Analisi Comparativa
Con questi strumenti in atto, gli autori hanno testato una serie di sistemi di generazione video, sia tramite installazioni locali che, ove necessario, tramite API commerciali: CogVideoX-5B; VideoCrafter2; HunyuanVideo-13B; Cosmos-Diffusion; Wan2.1-14B; OpenAI Sora; e Luma Ray.
I modelli sono stati sollecitati con didascalie upsampled ove possibile, tranne per il fatto che Hunyuan Video e VideoCrafter2 operano con limitazioni CLIP a 77 token e non possono accettare prompt superiori a una certa lunghezza.
I video generati sono stati mantenuti a meno di 6 secondi, poiché l’output più breve è più facile da valutare.
I dati di guida provenivano dal set di dati VideoPhy-2, che è stato suddiviso in un benchmark e un set di addestramento. Sono stati generati 590 video per modello, ad eccezione di Sora e Ray2; a causa del fattore costo, sono stati generati numeri inferiori equivalenti di video per questi.
La valutazione iniziale ha riguardato attività fisiche/sport (PA) e interazioni con oggetti (OI) e ha testato sia il set di dati generale che il suddetto sottoinsieme “più difficile”:
Qui gli autori commentano:
‘Anche il modello con le migliori prestazioni, Wan2.1-14B, raggiunge solo il 32,6% e il 21,9% rispettivamente sulle suddivisioni complete e difficili del nostro set di dati. Le sue prestazioni relativamente elevate rispetto ad altri modelli possono essere attribuite alla diversità dei suoi dati di addestramento multimodali, insieme a un robusto filtraggio del movimento che preserva video di alta qualità in una vasta gamma di azioni.
‘Inoltre, osserviamo che i modelli chiusi, come Ray2, si comportano peggio dei modelli aperti come Wan2.1-14B e CogVideoX-5B. Ciò suggerisce che i modelli chiusi non sono necessariamente superiori ai modelli aperti nel catturare il buon senso fisico.
‘In particolare, Cosmos-Diffusion-7B ottiene il secondo miglior punteggio sulla suddivisione difficile, superando persino il modello HunyuanVideo-13B molto più grande. Ciò potrebbe essere dovuto all’elevata rappresentazione delle azioni umane nei suoi dati di addestramento, insieme a simulazioni renderizzate sinteticamente.’
I risultati hanno mostrato che i modelli video hanno faticato di più con attività fisiche come lo sport che con interazioni con oggetti più semplici. Ciò suggerisce che il miglioramento dei video generati dall’IA in quest’area richiederà set di dati migliori, in particolare filmati di alta qualità di sport come tennis, disco, baseball e cricket.
Lo studio ha anche esaminato se la plausibilità fisica di un modello fosse correlata ad altre metriche di qualità video, come l’estetica e la fluidità del movimento. I risultati non hanno rivelato alcuna forte correlazione, il che significa che un modello non può migliorare le sue prestazioni su VideoPhy-2 semplicemente generando movimento visivamente accattivante o fluido: ha bisogno di una comprensione più profonda del buon senso fisico.
Esempi Qualitativi: Evidenziare le Sfide
Sebbene l’articolo fornisca abbondanti esempi qualitativi, pochi degli esempi statici forniti nel PDF sembrano riguardare gli ampi esempi basati su video che gli autori forniscono nel sito del progetto. Pertanto, esamineremo una piccola selezione degli esempi statici e poi alcuni altri dei video del progetto effettivo.
Per quanto riguarda il test qualitativo di cui sopra, gli autori commentano:
‘[Noi] osserviamo violazioni del buon senso fisico, come moto d’acqua che si muovono in modo innaturale all’indietro e la deformazione di un solido martello, sfidando i principi dell’elasticità. Tuttavia, anche Wan soffre della mancanza di buon senso fisico, come mostrato [nella clip incorporata all’inizio di questo articolo].
‘In questo caso, evidenziamo che una roccia inizia a rotolare e ad accelerare in salita, sfidando la legge fisica della gravità.’
Come accennato all’inizio, il volume di materiale associato a questo progetto supera di gran lunga ciò che può essere coperto qui. Pertanto, si prega di fare riferimento all’articolo originale, al sito del progetto e ai siti correlati menzionati in precedenza per una descrizione veramente esaustiva delle procedure degli autori e per molti più esempi di test e dettagli procedurali.
* Per quanto riguarda la provenienza delle annotazioni, l’articolo specifica solo ‘acquisite per questi compiti’ - sembra molto che siano state generate da 12 lavoratori AMT.
Pubblicato per la prima volta giovedì 13 marzo 2025