Vídeos de IA: Física Errada

A Ascensão dos Modelos Chineses de Vídeo Generativo

Se 2022 marcou o ano em que a IA generativa realmente capturou a imaginação do público, 2025 está a configurar-se como o ano em que uma nova onda de frameworks de vídeo generativo da China assume o centro do palco.

O Hunyuan Video da Tencent já causou ondas significativas na comunidade de IA amadora. O seu lançamento de código aberto de um modelo de difusão de vídeo de mundo completo permite que os utilizadores adaptem a tecnologia às suas necessidades específicas.

Logo atrás está o Wan 2.1 da Alibaba, lançado mais recentemente. Este modelo destaca-se como uma das mais poderosas soluções de software livre e de código aberto (FOSS) de imagem para vídeo atualmente disponíveis, e agora suporta personalização através de Wan LoRAs.

Além destes desenvolvimentos, também estamos a antecipar o lançamento do abrangente suite de criação e edição de vídeo VACE da Alibaba, juntamente com a disponibilidade do recente modelo de base centrado no ser humano, SkyReels.

O cenário de pesquisa de IA de vídeo generativo é igualmente explosivo. Ainda estamos no início de março, mas as submissões de terça-feira para a secção de Visão Computacional do Arxiv (um hub chave para artigos de IA generativa) totalizaram quase 350 entradas – um número tipicamente visto durante o pico da temporada de conferências.

Os dois anos desde o lançamento do Stable Diffusion no verão de 2022 (e o subsequente desenvolvimento dos métodos de personalização Dreambooth e LoRA) foram caracterizados por uma relativa falta de grandes avanços. No entanto, as últimas semanas testemunharam um aumento de novos lançamentos e inovações, chegando a um ritmo tão rápido que é quase impossível manter-se totalmente informado, quanto mais cobrir tudo de forma abrangente.

Resolvendo a Consistência Temporal, Mas Novos Desafios Surgem

Modelos de difusão de vídeo como Hunyuan e Wan 2.1 finalmente abordaram a questão da consistência temporal. Após anos de tentativas malsucedidas de centenas de iniciativas de pesquisa, estes modelos resolveram em grande parte os desafios relacionados com a geração consistente de humanos, ambientes e objetos ao longo do tempo.

Há poucas dúvidas de que os estúdios de VFX estão ativamente a dedicar pessoal e recursos para adaptar estes novos modelos de vídeo chineses. O seu objetivo imediato é enfrentar desafios prementes como a troca de rostos, apesar da ausência atual de mecanismos auxiliares do tipo ControlNet para estes sistemas.

Deve ser um grande alívio que um obstáculo tão significativo tenha sido potencialmente superado, mesmo que não tenha sido através dos canais previstos.

No entanto, entre os problemas restantes, um destaca-se como particularmente significativo:

Todos os sistemas de texto para vídeo e imagem para vídeo atualmente disponíveis, incluindo modelos comerciais de código fechado, têm uma tendência a produzir erros que desafiam a física. O exemplo acima mostra uma pedra a rolar para cima, gerada a partir do prompt: ‘Uma pequena pedra rola por uma encosta íngreme e rochosa, deslocando terra e pequenas pedras’.

Porque é que os Vídeos de IA Erram a Física?

Uma teoria, recentemente proposta numa colaboração académica entre a Alibaba e os Emirados Árabes Unidos, sugere que os modelos podem estar a aprender de uma forma que dificulta a sua compreensão da ordem temporal. Mesmo quando treinam em vídeos (que são divididos em sequências de frames únicos para treino), os modelos podem não compreender inerentemente a sequência correta de imagens “antes” e “depois”.

No entanto, a explicação mais plausível é que os modelos em questão empregaram rotinas de aumento de dados. Estas rotinas envolvem expor o modelo a um clipe de treino de origem tanto para a frente como para trás, efetivamente duplicando os dados de treino.

Já se sabe há algum tempo que isto não deve ser feito indiscriminadamente. Enquanto alguns movimentos funcionam ao contrário, muitos não. Um estudo de 2019 da Universidade de Bristol, no Reino Unido, teve como objetivo desenvolver um método para distinguir entre clipes de vídeo de dados de origem equivariantes, invariantes e irreversíveis dentro de um único conjunto de dados. O objetivo era filtrar clipes inadequados das rotinas de aumento de dados.

Os autores desse trabalho articularam claramente o problema:

‘Descobrimos que o realismo dos vídeos invertidos é traído por artefactos de inversão, aspetos da cena que não seriam possíveis num mundo natural. Alguns artefactos são subtis, enquanto outros são fáceis de detetar, como uma ação de ‘arremesso’ invertida, onde o objeto arremessado sobe espontaneamente do chão.

‘Observamos dois tipos de artefactos de inversão, físicos, aqueles que exibem violações das leis da natureza, e improváveis, aqueles que retratam um cenário possível, mas improvável. Estes não são exclusivos, e muitas ações invertidas sofrem de ambos os tipos de artefactos, como quando se desamassa um pedaço de papel.

‘Exemplos de artefactos físicos incluem: gravidade invertida (por exemplo, ‘deixar cair algo’), impulsos espontâneos em objetos (por exemplo, ‘girar uma caneta’) e mudanças de estado irreversíveis (por exemplo, ‘queimar uma vela’). Um exemplo de um artefacto improvável: tirar um prato do armário, secá-lo e colocá-lo no escorredor.

‘Este tipo de reutilização de dados é muito comum no momento do treino e pode ser benéfico – por exemplo, para garantir que o modelo não aprenda apenas uma visão de uma imagem ou objeto que pode ser invertido ou girado sem perder a sua coerência e lógica central.

‘Isto só funciona para objetos que são verdadeiramente simétricos, claro; e aprender física a partir de um vídeo ‘invertido’ só funciona se a versão invertida fizer tanto sentido quanto a versão para a frente.’

Não temos evidências concretas de que sistemas como Hunyuan Video e Wan 2.1 permitiram clipes “invertidos” arbitrários durante o treino (nenhum grupo de pesquisa foi específico sobre as suas rotinas de aumento de dados).

No entanto, considerando os inúmeros relatos (e a minha própria experiência prática), a única outra explicação razoável é que os conjuntos de dados de hiperescala que alimentam estes modelos podem conter clipes que genuinamente apresentam movimentos a ocorrer em sentido inverso.

A pedra no exemplo de vídeo incorporado anteriormente foi gerada usando Wan 2.1. É apresentada num novo estudo que investiga o quão bem os modelos de difusão de vídeo lidam com a física.

Em testes para este projeto, Wan 2.1 alcançou uma pontuação de apenas 22% na sua capacidade de aderir consistentemente às leis físicas.

Surpreendentemente, essa é a melhor pontuação entre todos os sistemas testados, sugerindo que podemos ter identificado o próximo grande obstáculo para a IA de vídeo:

Apresentando o VideoPhy-2: Um Novo Benchmark para o Senso Comum Físico

Os autores do novo trabalho desenvolveram um sistema de benchmarking, agora na sua segunda iteração, chamado VideoPhy. O código está disponível no GitHub.

Embora o escopo do trabalho seja muito amplo para ser coberto de forma abrangente aqui, vamos examinar a sua metodologia e o seu potencial para estabelecer uma métrica que possa guiar as futuras sessões de treino de modelos para longe destas instâncias bizarras de inversão.

O estudo, conduzido por seis investigadores da UCLA e do Google Research, é intitulado VideoPhy-2: A Challenging Action-Centric Physical Commonsense Evaluation in Video Generation. Um site de projeto abrangente também está disponível, juntamente com código e conjuntos de dados no GitHub, e um visualizador de conjunto de dados no Hugging Face.

Os autores descrevem a versão mais recente, VideoPhy-2, como um “conjunto de dados de avaliação de senso comum desafiador para ações do mundo real”. A coleção apresenta 197 ações numa variedade de atividades físicas diversas, incluindo hula-hooping, ginástica e ténis, bem como interações com objetos como dobrar um objeto até que ele se parta.

Um modelo de linguagem grande (LLM) é usado para gerar 3840 prompts a partir destas ações iniciais. Estes prompts são então usados para sintetizar vídeos usando os vários frameworks que estão a ser testados.

Ao longo do processo, os autores compilaram uma lista de regras e leis físicas “candidatas” às quais os vídeos gerados por IA devem aderir, usando modelos de visão-linguagem para avaliação.

Os autores afirmam:

‘Por exemplo, num vídeo de um desportista a jogar ténis, uma regra física seria que uma bola de ténis deve seguir uma trajetória parabólica sob a gravidade. Para julgamentos padrão-ouro, pedimos a anotadores humanos para pontuar cada vídeo com base na adesão semântica geral e no senso comum físico, e para marcar a sua conformidade com várias regras físicas.’

Curadoria de Ações e Geração de Prompts

Inicialmente, os investigadores fizeram a curadoria de um conjunto de ações para avaliar o senso comum físico em vídeos gerados por IA. Eles começaram com mais de 600 ações provenientes dos conjuntos de dados Kinetics, UCF-101 e SSv2, focando-se em atividades que envolvem desportos, interações com objetos e física do mundo real.

Dois grupos independentes de anotadores estudantes treinados em STEM (com uma qualificação mínima de graduação) reviram e filtraram a lista. Eles selecionaram ações que testavam princípios como gravidade, momento e elasticidade, enquanto removiam tarefas de baixo movimento como digitar, acariciar um gato ou mastigar.

Após um refinamento adicional com Gemini-2.0-Flash-Exp para eliminar duplicados, o conjunto de dados final incluiu 197 ações. 54 envolviam interações com objetos e 143 centravam-se em atividades físicas e desportivas:

Na segunda etapa, os investigadores usaram Gemini-2.0-Flash-Exp para gerar 20 prompts para cada ação no conjunto de dados, resultando num total de 3.940 prompts. O processo de geração focou-se em interações físicas visíveis que poderiam ser claramente representadas num vídeo gerado. Isto excluiu elementos não visuais como emoções, detalhes sensoriais e linguagem abstrata, mas incorporou diversos personagens e objetos.

Por exemplo, em vez de um prompt simples como ‘Um arqueiro liberta a flecha’, o modelo foi guiado para produzir uma versão mais detalhada como ‘Um arqueiro puxa a corda do arco até à tensão máxima, depois liberta a flecha, que voa em linha reta e atinge o centro de um alvo de papel’.

Como os modelos de vídeo modernos podem interpretar descrições mais longas, os investigadores refinaram ainda mais as legendas usando o upsampler de prompt Mistral-NeMo-12B-Instruct. Isto adicionou detalhes visuais sem alterar o significado original.

Derivação de Regras Físicas e Identificação de Ações Desafiadoras

Para a terceira etapa, as regras físicas foram derivadas não de prompts de texto, mas de vídeos gerados. Isto porque os modelos generativos podem ter dificuldade em aderir a prompts de texto condicionados.

Os vídeos foram primeiro criados usando prompts VideoPhy-2, depois “legendados” com Gemini-2.0-Flash-Exp para extrair detalhes-chave. O modelo propôs três regras físicas esperadas por vídeo. Anotadores humanos reviram e expandiram estas regras identificando potenciais violações adicionais.

Em seguida, para identificar as ações mais desafiadoras, os investigadores geraram vídeos usando CogVideoX-5B com prompts do conjunto de dados VideoPhy-2. Eles então selecionaram 60 das 197 ações onde o modelo falhou consistentemente em seguir tanto os prompts quanto o senso comum físico básico.

Estas ações envolviam interações ricas em física, como transferência de momento no lançamento de disco, mudanças de estado como dobrar um objeto até que ele se parta, tarefas de equilíbrio como caminhar na corda bamba e movimentos complexos que incluíam back-flips, salto com vara e lançamento de pizza, entre outros. No total, 1.200 prompts foram escolhidos para aumentar a dificuldade do subconjunto de dados.

O Conjunto de Dados VideoPhy-2: Um Recurso de Avaliação Abrangente

O conjunto de dados resultante compreendeu 3.940 legendas – 5,72 vezes mais do que a versão anterior do VideoPhy. O comprimento médio das legendas originais é de 16 tokens, enquanto as legendas upsampled atingem 138 tokens – 1,88 vezes e 16,2 vezes mais longas, respetivamente.

O conjunto de dados também apresenta 102.000 anotações humanas cobrindo adesão semântica, senso comum físico e violações de regras em vários modelos de geração de vídeo.

Definição de Critérios de Avaliação e Anotações Humanas

Os investigadores então definiram critérios claros para avaliar os vídeos. O objetivo principal era avaliar o quão bem cada vídeo correspondia ao seu prompt de entrada e seguia os princípios físicos básicos.

Em vez de simplesmente classificar os vídeos por preferência, eles usaram feedback baseado em classificação para capturar sucessos e falhas específicos. Anotadores humanos pontuaram os vídeos numa escala de cinco pontos, permitindo julgamentos mais detalhados. A avaliação também verificou se os vídeos seguiam várias regras e leis físicas.

Para a avaliação humana, um grupo de 12 anotadores foi selecionado a partir de testes no Amazon Mechanical Turk (AMT) e forneceu classificações após receber instruções remotasdetalhadas. Para garantir a justiça, a adesão semântica e o senso comum físico foram avaliados separadamente (no estudo original do VideoPhy, foram avaliados em conjunto).

Os anotadores primeiro classificaram o quão bem os vídeos correspondiam aos seus prompts de entrada, depois avaliaram separadamente a plausibilidade física, pontuando as violações de regras e o realismo geral numa escala de cinco pontos. Apenas os prompts originais foram mostrados, para manter uma comparação justa entre os modelos.

Avaliação Automatizada: Rumo à Avaliação Escalável de Modelos

Embora o julgamento humano continue a ser o padrão-ouro, é caro e vem com várias ressalvas. Portanto, a avaliação automatizada é essencial para avaliações de modelos mais rápidas e escaláveis.

Os autores do artigo testaram vários modelos de vídeo-linguagem, incluindo Gemini-2.0-Flash-Exp e VideoScore, na sua capacidade de pontuar vídeos quanto à precisão semântica e ao “senso comum físico”.

Os modelos novamente classificaram cada vídeo numa escala de cinco pontos. Uma tarefa de classificação separada determinou se as regras físicas foram seguidas, violadas ou se não estavam claras.

Experimentos mostraram que os modelos de vídeo-linguagem existentes tiveram dificuldade em corresponder aos julgamentos humanos, principalmente devido ao fraco raciocínio físico e à complexidade dos prompts. Para melhorar a avaliação automatizada, os investigadores desenvolveram o VideoPhy-2-Autoeval, um modelo de 7B parâmetros projetado para fornecer previsões mais precisas em três categorias: adesão semântica; senso comum físico; e conformidade com as regras. Foi ajustado no modelo VideoCon-Physics usando 50.000 anotações humanas*.

Testando Sistemas de Vídeo Generativo: Uma Análise Comparativa

Com estas ferramentas em vigor, os autores testaram vários sistemas de vídeo generativo, tanto através de instalações locais como, quando necessário, através de APIs comerciais: CogVideoX-5B; VideoCrafter2; HunyuanVideo-13B; Cosmos-Diffusion; Wan2.1-14B; OpenAI Sora; e Luma Ray.

Os modelos foram solicitados com legendas upsampled sempre que possível, exceto que Hunyuan Video e VideoCrafter2 operam sob limitações de 77 tokens CLIP e não podem aceitar prompts acima de um determinado comprimento.

Os vídeos gerados foram mantidos com menos de 6 segundos, uma vez que a saída mais curta é mais fácil de avaliar.

Os dados de condução foram do conjunto de dados VideoPhy-2, que foi dividido num conjunto de benchmark e treino. 590 vídeos foram gerados por modelo, exceto para Sora e Ray2; devido ao fator de custo, números equivalentes mais baixos de vídeos foram gerados para estes.

A avaliação inicial lidou com atividades físicas/desportos (PA) e interações com objetos (OI) e testou tanto o conjunto de dados geral quanto o subconjunto “mais difícil” mencionado anteriormente:

Aqui os autores comentam:

‘Mesmo o modelo com melhor desempenho, Wan2.1-14B, atinge apenas 32,6% e 21,9% nas divisões completa e difícil do nosso conjunto de dados, respetivamente. O seu desempenho relativamente forte em comparação com outros modelos pode ser atribuído à diversidade dos seus dados de treino multimodal, juntamente com uma filtragem de movimento robusta que preserva vídeos de alta qualidade numa ampla gama de ações.

‘Além disso, observamos que os modelos fechados, como o Ray2, têm um desempenho pior do que os modelos abertos como o Wan2.1-14B e o CogVideoX-5B. Isto sugere que os modelos fechados não são necessariamente superiores aos modelos abertos na captura do senso comum físico.

‘Notavelmente, o Cosmos-Diffusion-7B atinge a segunda melhor pontuação na divisão difícil, superando até mesmo o modelo HunyuanVideo-13B, muito maior. Isto pode ser devido à alta representação de ações humanas nos seus dados de treino, juntamente com simulações renderizadas sinteticamente.’

Os resultados mostraram que os modelos de vídeo tiveram mais dificuldade com atividades físicas como desportos do que com interações mais simples com objetos. Isto sugere que melhorar os vídeos gerados por IA nesta área exigirá melhores conjuntos de dados – particularmente filmagens de alta qualidade de desportos como ténis, disco, basebol e críquete.

O estudo também examinou se a plausibilidade física de um modelo se correlacionava com outras métricas de qualidade de vídeo, como estética e suavidade de movimento. As descobertas revelaram que não há uma correlação forte, o que significa que um modelo não pode melhorar o seu desempenho no VideoPhy-2 apenas gerando movimento visualmente atraente ou fluido – precisa de uma compreensão mais profunda do senso comum físico.

Exemplos Qualitativos: Destacando os Desafios

Embora o artigo forneça exemplos qualitativos abundantes, poucos dos exemplos estáticos fornecidos no PDF parecem relacionar-se com os extensos exemplos baseados em vídeo que os autores fornecem no site do projeto. Portanto, veremos uma pequena seleção dos exemplos estáticos e depois mais alguns dos vídeos reais do projeto.

Em relação ao teste qualitativo acima, os autores comentam:

‘[Nós] observamos violações do senso comum físico, como jet skis a moverem-se de forma não natural em sentido inverso e a deformação de uma marreta sólida, desafiando os princípios da elasticidade. No entanto, mesmo o Wan sofre com a falta de senso comum físico, como mostrado [no clipe incorporado no início deste artigo].

‘Neste caso, destacamos que uma pedra começa a rolar e a acelerar para cima, desafiando a lei física da gravidade.’

Como mencionado no início, o volume de material associado a este projeto excede em muito o que pode ser coberto aqui. Portanto, consulte o artigo original, o site do projeto e os sites relacionados mencionados anteriormente para um esboço verdadeiramente exaustivo dos procedimentos dos autores e consideravelmente mais exemplos de teste e detalhes processuais.

* Quanto à proveniência das anotações, o artigo apenas especifica ‘adquiridas para estas tarefas’ – parece muito para ter sido gerado por 12 trabalhadores do AMT.

Publicado pela primeira vez na quinta-feira, 13 de março de 2025