El Auge de los Modelos de Video Generativos Chinos
Si 2022 marcó el año en que la IA generativa realmente capturó la imaginación del público, 2025 se perfila como el año en que una nueva ola de frameworks de video generativo de China ocupará un lugar central.
El Hunyuan Video de Tencent ya ha causado un gran revuelo en la comunidad de aficionados a la IA. Su lanzamiento de código abierto de un modelo de difusión de video de mundo completo permite a los usuarios adaptar la tecnología a sus necesidades específicas.
Siguiendo de cerca está Wan 2.1 de Alibaba, lanzado más recientemente. Este modelo se destaca como una de las soluciones Free and Open Source Software (FOSS) de imagen a video más potentes disponibles actualmente, y ahora admite la personalización a través de Wan LoRAs.
Además de estos desarrollos, también anticipamos el lanzamiento del completo paquete de creación y edición de video VACE de Alibaba, junto con la disponibilidad del reciente modelo base centrado en el ser humano, SkyReels.
El panorama de la investigación de IA de video generativo es igualmente explosivo. Todavía estamos a principios de marzo, pero las presentaciones del martes a la sección de Computer Vision de Arxiv (un centro clave para los documentos de IA generativa) totalizaron casi 350 entradas, un número que normalmente se ve durante el apogeo de la temporada de conferencias.
Los dos años transcurridos desde el lanzamiento de Stable Diffusion en el verano de 2022 (y el posterior desarrollo de los métodos de personalización Dreambooth y LoRA) se caracterizaron por una relativa falta de avances importantes. Sin embargo, las últimas semanas han sido testigos de una oleada de nuevos lanzamientos e innovaciones, que llegan a un ritmo tan rápido que es casi imposible mantenerse completamente informado, y mucho menos cubrir todo de manera integral.
Resolviendo la Consistencia Temporal, Pero Surgen Nuevos Desafíos
Los modelos de difusión de video como Hunyuan y Wan 2.1 han abordado, por fin, el problema de la consistencia temporal. Después de años de intentos fallidos de cientos de iniciativas de investigación, estos modelos han resuelto en gran medida los desafíos relacionados con la generación de humanos, entornos y objetos consistentes a lo largo del tiempo.
No hay duda de que los estudios de VFX están dedicando activamente personal y recursos para adaptar estos nuevos modelos de video chinos. Su objetivo inmediato es abordar desafíos apremiantes como el intercambio de rostros, a pesar de la ausencia actual de mecanismos auxiliares de estilo ControlNet para estos sistemas.
Debe ser un gran alivio que un obstáculo tan significativo se haya superado potencialmente, incluso si no fue a través de los canales previstos.
Sin embargo, entre los problemas restantes, uno se destaca como particularmente significativo:
Todos los sistemas de texto a video e imagen a video disponibles actualmente, incluidos los modelos comerciales de código cerrado,tienen una tendencia a producir errores que desafían la física. El ejemplo anterior muestra una roca rodando cuesta arriba, generada a partir del prompt: ‘Una pequeña roca cae por una ladera empinada y rocosa, desplazando tierra y pequeñas piedras’.
¿Por Qué los Videos de IA se Equivocan con la Física?
Una teoría, propuesta recientemente en una colaboración académica entre Alibaba y los Emiratos Árabes Unidos, sugiere que los modelos podrían estar aprendiendo de una manera que obstaculiza su comprensión del orden temporal. Incluso cuando se entrenan con videos (que se dividen en secuencias de un solo fotograma para el entrenamiento), es posible que los modelos no comprendan inherentemente la secuencia correcta de imágenes “antes” y “después”.
Sin embargo, la explicación más plausible es que los modelos en cuestión han empleado rutinas de aumento de datos. Estas rutinas implican exponer el modelo a un clip de entrenamiento de origen tanto hacia adelante como hacia atrás, duplicando efectivamente los datos de entrenamiento.
Se sabe desde hace algún tiempo que esto no debe hacerse indiscriminadamente. Si bien algunos movimientos funcionan a la inversa, muchos no. Un estudio de 2019 de la Universidad de Bristol del Reino Unido tuvo como objetivo desarrollar un método para distinguir entre clips de video de datos de origen equivariantes, invariantes e irreversibles dentro de un solo conjunto de datos. El objetivo era filtrar los clips inadecuados de las rutinas de aumento de datos.
Los autores de ese trabajo articularon claramente el problema:
‘Encontramos que el realismo de los videos invertidos se ve traicionado por artefactos de inversión, aspectos de la escena que no serían posibles en un mundo natural. Algunos artefactos son sutiles, mientras que otros son fáciles de detectar, como una acción de ‘lanzamiento’ invertida donde el objeto lanzado se eleva espontáneamente del suelo.
‘Observamos dos tipos de artefactos de inversión, físicos, aquellos que exhiben violaciones de las leyes de la naturaleza, e improbables, aquellos que representan un escenario posible pero poco probable. Estos no son exclusivos, y muchas acciones invertidas sufren ambos tipos de artefactos, como cuando se desarruga un trozo de papel.
‘Ejemplos de artefactos físicos incluyen: gravedad invertida (por ejemplo, ‘dejar caer algo’), impulsos espontáneos sobre objetos (por ejemplo, ‘girar un bolígrafo’) y cambios de estado irreversibles (por ejemplo, ‘quemar una vela’). Un ejemplo de un artefacto improbable: tomar un plato del armario, secarlo y colocarlo en el escurreplatos.
‘Este tipo de reutilización de datos es muy común en el momento del entrenamiento y puede ser beneficioso, por ejemplo, para asegurarse de que el modelo no aprenda solo una vista de una imagen u objeto que se puede voltear o rotar sin perder su coherencia y lógica central.
‘Esto solo funciona para objetos que son verdaderamente simétricos, por supuesto; y aprender física de un video ‘invertido’ solo funciona si la versión invertida tiene tanto sentido como la versión hacia adelante.’
No tenemos evidencia concreta de que sistemas como Hunyuan Video y Wan 2.1 permitieran clips “invertidos” arbitrarios durante el entrenamiento (ninguno de los grupos de investigación ha sido específico sobre sus rutinas de aumento de datos).
Sin embargo, considerando los numerosos informes (y mi propia experiencia práctica), la única otra explicación razonable es que los conjuntos de datos a hiperescala que impulsan estos modelos podrían contener clips que genuinamente presentan movimientos que ocurren a la inversa.
La roca en el video de ejemplo incrustado anteriormente se generó usando Wan 2.1. Aparece en un nuevo estudio que investiga qué tan bien los modelos de difusión de video manejan la física.
En las pruebas para este proyecto, Wan 2.1 logró una puntuación de solo el 22% en su capacidad para adherirse consistentemente a las leyes físicas.
Sorprendentemente, esa es la mejor puntuación entre todos los sistemas probados, lo que sugiere que es posible que hayamos identificado el próximo obstáculo importante para la IA de video:
Presentación de VideoPhy-2: Un Nuevo Punto de Referencia para el Sentido Común Físico
Los autores del nuevo trabajo han desarrollado un sistema de benchmarking, ahora en su segunda iteración, llamado VideoPhy. El código está disponible en GitHub.
Si bien el alcance del trabajo es demasiado amplio para cubrirlo de manera integral aquí, examinemos su metodología y su potencial para establecer una métrica que podría guiar las futuras sesiones de entrenamiento del modelo lejos de estas extrañas instancias de inversión.
El estudio, realizado por seis investigadores de UCLA y Google Research, se titula VideoPhy-2: A Challenging Action-Centric Physical Commonsense Evaluation in Video Generation. También está disponible un completo sitio de proyecto adjunto, junto con código y conjuntos de datos en GitHub, y un visor de conjuntos de datos en Hugging Face.
Los autores describen la última versión, VideoPhy-2, como un “conjunto de datos de evaluación de sentido común desafiante para acciones del mundo real”. La colección presenta 197 acciones en una gama de diversas actividades físicas, que incluyen hula-hooping, gimnasia y tenis, así como interacciones con objetos como doblar un objeto hasta que se rompa.
Se utiliza un modelo de lenguaje grande (LLM) para generar 3840 prompts a partir de estas acciones semilla. Estos prompts se utilizan luego para sintetizar videos utilizando los diversos frameworks que se están probando.
A lo largo del proceso, los autores han compilado una lista de reglas y leyes físicas “candidatas” a las que deberían adherirse los videos generados por IA, utilizando modelos de visión-lenguaje para la evaluación.
Los autores afirman:
‘Por ejemplo, en un video de un deportista jugando al tenis, una regla física sería que una pelota de tenis debe seguir una trayectoria parabólica bajo la gravedad. Para los juicios estándar de oro, pedimos a los anotadores humanos que califiquen cada video en función de la adherencia semántica general y el sentido común físico, y que marquen su cumplimiento con varias reglas físicas.’
Curación de Acciones y Generación de Prompts
Inicialmente, los investigadores seleccionaron un conjunto de acciones para evaluar el sentido común físico en los videos generados por IA. Comenzaron con más de 600 acciones obtenidas de los conjuntos de datos Kinetics, UCF-101 y SSv2, centrándose en actividades que involucran deportes, interacciones con objetos y física del mundo real.
Dos grupos independientes de anotadores estudiantes capacitados en STEM (con una calificación mínima de pregrado) revisaron y filtraron la lista. Seleccionaron acciones que probaron principios como la gravedad, el impulso y la elasticidad, mientras eliminaban tareas de bajo movimiento como escribir, acariciar a un gato o masticar.
Después de un mayor refinamiento con Gemini-2.0-Flash-Exp para eliminar duplicados, el conjunto de datos final incluyó 197 acciones. 54 involucraron interacciones con objetos y 143 se centraron en actividades físicas y deportivas:
En la segunda etapa, los investigadores utilizaron Gemini-2.0-Flash-Exp para generar 20 prompts para cada acción en el conjunto de datos, lo que resultó en un total de 3940 prompts. El proceso de generación se centró en interacciones físicas visibles que podrían representarse claramente en un video generado. Esto excluyó elementos no visuales como emociones, detalles sensoriales y lenguaje abstracto, pero incorporó diversos personajes y objetos.
Por ejemplo, en lugar de un prompt simple como ‘Un arquero suelta la flecha’, se guio al modelo para que produjera una versión más detallada como ‘Un arquero tensa la cuerda del arco hasta la tensión máxima, luego suelta la flecha, que vuela recta y da en la diana en un blanco de papel’.
Dado que los modelos de video modernos pueden interpretar descripciones más largas, los investigadores refinaron aún más los subtítulos utilizando el upsampler de prompts Mistral-NeMo-12B-Instruct. Esto agregó detalles visuales sin alterar el significado original.
Derivación de Reglas Físicas e Identificación de Acciones Desafiantes
Para la tercera etapa, las reglas físicas se derivaron no de prompts de texto sino de videos generados. Esto se debe a que los modelos generativos pueden tener dificultades para adherirse a prompts de texto condicionados.
Primero se crearon videos usando prompts de VideoPhy-2, luego se “subtitularon” con Gemini-2.0-Flash-Exp para extraer detalles clave. El modelo propuso tres reglas físicas esperadas por video. Los anotadores humanos revisaron y ampliaron estas identificando posibles violaciones adicionales.
A continuación, para identificar las acciones más desafiantes, los investigadores generaron videos usando CogVideoX-5B con prompts del conjunto de datos VideoPhy-2. Luego seleccionaron 60 de 197 acciones donde el modelo falló consistentemente en seguir tanto los prompts como el sentido común físico básico.
Estas acciones involucraron interacciones ricas en física, como la transferencia de impulso en el lanzamiento de disco, cambios de estado como doblar un objeto hasta que se rompe, tareas de equilibrio como caminar sobre la cuerda floja y movimientos complejos que incluían volteretas hacia atrás, salto con pértiga y lanzamiento de pizza, entre otros. En total, se eligieron 1200 prompts para aumentar la dificultad del subconjunto de datos.
El Conjunto de Datos VideoPhy-2: Un Recurso de Evaluación Integral
El conjunto de datos resultante comprendía 3940 subtítulos, 5.72 veces más que la versión anterior de VideoPhy. La longitud promedio de los subtítulos originales es de 16 tokens, mientras que los subtítulos upsampled alcanzan los 138 tokens, 1.88 veces y 16.2 veces más largos, respectivamente.
El conjunto de datos también presenta 102,000 anotaciones humanas que cubren la adherencia semántica, el sentido común físico y las violaciones de reglas en múltiples modelos de generación de video.
Definición de Criterios de Evaluación y Anotaciones Humanas
Luego, los investigadores definieron criterios claros para evaluar los videos. El objetivo principal era evaluar qué tan bien cada video coincidía con su prompt de entrada y seguía los principios físicos básicos.
En lugar de simplemente clasificar los videos por preferencia, utilizaron comentarios basados en calificaciones para capturar éxitos y fracasos específicos. Los anotadores humanos calificaron los videos en una escala de cinco puntos, lo que permitió juicios más detallados. La evaluación también verificó si los videos seguían varias reglas y leyes físicas.
Para la evaluación humana, se seleccionó un grupo de 12 anotadores de pruebas en Amazon Mechanical Turk (AMT) y proporcionaron calificaciones después de recibir instrucciones remotas detalladas. Para ser justos, la adherencia semántica y el sentido común físico se evaluaron por separado (en el estudio original de VideoPhy, se evaluaron conjuntamente).
Los anotadores primero calificaron qué tan bien los videos coincidían con sus prompts de entrada, luego evaluaron por separado la plausibilidad física, calificando las violaciones de reglas y el realismo general en una escala de cinco puntos. Solo se mostraron los prompts originales, para mantener una comparación justa entre los modelos.
Evaluación Automatizada: Hacia una Evaluación de Modelos Escalable
Aunque el juicio humano sigue siendo el estándar de oro, es costoso y tiene varias advertencias. Por lo tanto, la evaluación automatizada es esencial para evaluaciones de modelos más rápidas y escalables.
Los autores del artículo probaron varios modelos de video-lenguaje, incluidos Gemini-2.0-Flash-Exp y VideoScore, en su capacidad para calificar videos por precisión semántica y por “sentido común físico”.
Los modelos nuevamente calificaron cada video en una escala de cinco puntos. Una tarea de clasificación separada determinó si se siguieron, violaron o no estaban claras las reglas físicas.
Los experimentos mostraron que los modelos de video-lenguaje existentes tuvieron dificultades para igualar los juicios humanos, principalmente debido al débil razonamiento físico y la complejidad de los prompts. Para mejorar la evaluación automatizada, los investigadores desarrollaron VideoPhy-2-Autoeval, un modelo de 7 mil millones de parámetros diseñado para proporcionar predicciones más precisas en tres categorías: adherencia semántica; sentido común físico; y cumplimiento de reglas. Se ajustó en el modelo VideoCon-Physics utilizando 50,000 anotaciones humanas*.
Prueba de Sistemas de Video Generativos: Un Análisis Comparativo
Con estas herramientas en su lugar, los autores probaron una serie de sistemas de video generativos, tanto a través de instalaciones locales como, cuando fue necesario, a través de API comerciales: CogVideoX-5B; VideoCrafter2; HunyuanVideo-13B; Cosmos-Diffusion; Wan2.1-14B; OpenAI Sora; y Luma Ray.
A los modelos se les proporcionaron subtítulos upsampled siempre que fue posible, excepto que Hunyuan Video y VideoCrafter2 operan bajo limitaciones de CLIP de 77 tokens y no pueden aceptar prompts por encima de una cierta longitud.
Los videos generados se mantuvieron en menos de 6 segundos, ya que la salida más corta es más fácil de evaluar.
Los datos de conducción provienen del conjunto de datos VideoPhy-2, que se dividió en un conjunto de referencia y un conjunto de entrenamiento. Se generaron 590 videos por modelo, excepto para Sora y Ray2; debido al factor de costo, se generaron números equivalentes más bajos de videos para estos.
La evaluación inicial se ocupó de actividades físicas/deportes (PA) e interacciones con objetos (OI) y probó tanto el conjunto de datos general como el subconjunto “más difícil” antes mencionado:
Aquí los autores comentan:
‘Incluso el modelo con mejor rendimiento, Wan2.1-14B, logra solo el 32.6% y el 21.9% en las divisiones completa y difícil de nuestro conjunto de datos, respectivamente. Su rendimiento relativamente sólido en comparación con otros modelos se puede atribuir a la diversidad de sus datos de entrenamiento multimodal, junto con un filtrado de movimiento robusto que preserva videos de alta calidad en una amplia gama de acciones.
‘Además, observamos que los modelos cerrados, como Ray2, tienen un peor rendimiento que los modelos abiertos como Wan2.1-14B y CogVideoX-5B. Esto sugiere que los modelos cerrados no son necesariamente superiores a los modelos abiertos para capturar el sentido común físico.
‘En particular, Cosmos-Diffusion-7B logra la segunda mejor puntuación en la división difícil, incluso superando al modelo HunyuanVideo-13B, mucho más grande. Esto puede deberse a la alta representación de acciones humanas en sus datos de entrenamiento, junto con simulaciones renderizadas sintéticamente.’
Los resultados mostraron que los modelos de video tuvieron más dificultades con las actividades físicas como los deportes que con las interacciones con objetos más simples. Esto sugiere que mejorar los videos generados por IA en esta área requerirá mejores conjuntos de datos, particularmente imágenes de alta calidad de deportes como tenis, disco, béisbol y cricket.
El estudio también examinó si la plausibilidad física de un modelo se correlacionaba con otras métricas de calidad de video, como la estética y la suavidad del movimiento. Los hallazgos revelaron que no existe una correlación fuerte, lo que significa que un modelo no puede mejorar su rendimiento en VideoPhy-2 simplemente generando movimiento visualmente atractivo o fluido; necesita una comprensión más profunda del sentido común físico.
Ejemplos Cualitativos: Destacando los Desafíos
Aunque el documento proporciona abundantes ejemplos cualitativos, pocos de los ejemplos estáticos proporcionados en el PDF parecen relacionarse con los extensos ejemplos basados en video que los autores proporcionan en el sitio del proyecto. Por lo tanto, veremos una pequeña selección de los ejemplos estáticos y luego algunos más de los videos reales del proyecto.
Con respecto a la prueba cualitativa anterior, los autores comentan:
‘[Nosotros] observamos violaciones del sentido común físico, como motos de agua que se mueven de forma antinatural en reversa y la deformación de un mazo sólido, desafiando los principios de la elasticidad. Sin embargo, incluso Wan sufre de la falta de sentido común físico, como se muestra en [el clip incrustado al comienzo de este artículo].
‘En este caso, destacamos que una roca comienza a rodar y acelerar cuesta arriba, desafiando la ley física de la gravedad.’
Como se mencionó al principio, el volumen de material asociado con este proyecto excede con creces lo que se puede cubrir aquí. Por lo tanto, consulte el documento fuente, el sitio del proyecto y los sitios relacionados mencionados anteriormente para obtener un resumen verdaderamente exhaustivo de los procedimientos de los autores, y considerablemente más ejemplos de prueba y detalles de procedimiento.
* En cuanto a la procedencia de las anotaciones, el documento solo especifica ‘adquiridas para estas tareas’; parece mucho haber sido generado por 12 trabajadores de AMT.
Publicado por primera vez el jueves 13 de marzo de 2025