中国の生成ビデオモデルの台頭
2022年が生成AIが一般大衆の想像力を真に捉えた年であるとすれば、2025年は中国からの新しい生成ビデオフレームワークの波が中心的な舞台となる年になるでしょう。
TencentのHunyuan Videoは、すでに趣味のAIコミュニティで大きな波を起こしています。そのフルワールドビデオ拡散モデルのオープンソースリリースにより、ユーザーはテクノロジーを特定のニーズに合わせて調整できます。
AlibabaのWan 2.1は、それに続いて最近リリースされました。このモデルは、現在利用可能な最も強力な画像からビデオへのFree and Open Source Software (FOSS)ソリューションの1つとして際立っており、Wan LoRAによるカスタマイズをサポートするようになりました。
これらの開発に加えて、Alibabaの包括的なVACEビデオ作成および編集スイートのリリース、および最近の人間中心の基盤モデルであるSkyReelsの利用可能性も期待されています。
生成ビデオAIの研究シーンも同様に爆発的です。まだ3月上旬ですが、火曜日のArxivのComputer Visionセクション(生成AI論文の主要なハブ)への提出は、合計で約350件に達しました。これは、通常、会議シーズンのピーク時に見られる数です。
Stable Diffusionが2022年の夏に発表されてから(そしてその後のDreamboothとLoRAのカスタマイズ方法の開発)2年間は、大きなブレークスルーが比較的不足していました。しかし、ここ数週間で、新しいリリースとイノベーションが急増し、完全に情報を把握することはもちろん、すべてを包括的にカバーすることはほとんど不可能です。
時間的一貫性の解決、しかし新たな課題が出現
HunyuanやWan 2.1のようなビデオ拡散モデルは、ついに時間的一貫性の問題に対処しました。何百もの研究イニシアチブからの何年にもわたる失敗した試みの後、これらのモデルは、時間とともに一貫した人間、環境、およびオブジェクトを生成することに関連する課題をほぼ解決しました。
VFXスタジオが、これらの新しい中国のビデオモデルを適応させるためにスタッフとリソースを積極的に投入していることは間違いありません。彼らの当面の目標は、これらのシステムには現在ControlNetスタイルの補助メカニズムがないにもかかわらず、顔交換などの差し迫った課題に取り組むことです。
予想されたチャネルからではなかったとしても、そのような重要なハードルが潜在的に克服されたことは、大きな安心に違いありません。
しかし、残りの問題の中で、特に重要なものが1つあります。
現在利用可能なすべてのテキストからビデオおよび画像からビデオへのシステム(商用のクローズドソースモデルを含む)は、物理法則に反する失敗作を生み出す傾向があります。上記の例は、‘A small rock tumbles down a steep, rocky hillside, displacing soil and small stones’(小さな岩が急な岩だらけの丘の中腹を転がり落ち、土や小石を移動させる)というプロンプトから生成された、上り坂を転がる岩を示しています。
AIビデオが物理法則を間違えるのはなぜですか?
AlibabaとUAEの間の最近の学術的協力で提案された1つの理論は、モデルが時間的順序の理解を妨げる方法で学習している可能性があることを示唆しています。ビデオ(トレーニングのために単一フレームのシーケンスに分割される)でトレーニングする場合でも、モデルは’前’と’後’の画像の正しいシーケンスを本質的に理解していない可能性があります。
しかし、最も妥当な説明は、問題のモデルがデータ拡張ルーチンを採用していることです。これらのルーチンには、モデルをソースのトレーニングクリップに順方向と逆方向の両方で公開することが含まれ、トレーニングデータを効果的に2倍にします。
これが無差別に実行されるべきではないことは、しばらく前から知られています。一部の動きは逆方向に機能しますが、多くは機能しません。英国のブリストル大学による2019年の研究は、単一のデータセット内で等変、不変、および不可逆のソースデータビデオクリップを区別する方法を開発することを目的としていました。目標は、データ拡張ルーチンから不適切なクリップを除外することでした。
その研究の著者は、問題を明確に述べています。
‘逆再生されたビデオのリアリズムは、逆再生のアーティファクト、つまり自然界ではありえないシーンの側面によって裏切られていることがわかりました。一部のアーティファクトは微妙ですが、他のアーティファクトは、投げられたオブジェクトが床から自発的に上昇する逆再生された’投げる’アクションのように、簡単に見つけることができます。
‘物理的なもの(自然の法則の違反を示すもの)と、ありそうもないもの(可能ではあるが可能性の低いシナリオを描写するもの)の2種類の逆再生アーティファクトを観察します。これらは排他的ではなく、多くの逆再生されたアクションは、紙をくしゃくしゃにしないときのように、両方のタイプのアーティファクトに悩まされます。
‘物理的なアーティファクトの例には、反転した重力(例:’何かを落とす’)、オブジェクトへの自発的なインパルス(例:’ペンを回す’)、および不可逆的な状態変化(例:’ろうそくを燃やす’)が含まれます。ありそうもないアーティファクトの例:食器棚から皿を取り出し、それを乾かし、乾燥ラックに置きます。
‘この種のデータの再利用は、トレーニング時に非常に一般的であり、たとえば、モデルが、中心的な一貫性とロジックを失うことなく反転または回転できる画像またはオブジェクトの1つのビューのみを学習しないようにするのに役立ちます。
‘これはもちろん、真に対称的なオブジェクトに対してのみ機能します。そして、’逆再生された’ビデオから物理学を学ぶことは、逆再生されたバージョンが順方向のバージョンと同じくらい意味がある場合にのみ機能します。’
Hunyuan VideoやWan 2.1のようなシステムが、トレーニング中に任意の’逆再生された’クリップを許可したという具体的な証拠はありません(どちらの研究グループも、データ拡張ルーチンについて具体的に述べていません)。
しかし、多数のレポート(および私自身の実際的な経験)を考慮すると、他に考えられる唯一の合理的な説明は、これらのモデルを強化するハイパースケールデータセットに、実際に逆方向に発生する動きを特徴とするクリップが含まれている可能性があることです。
先に埋め込まれたサンプルビデオの岩は、Wan 2.1を使用して生成されました。これは、ビデオ拡散モデルが物理学をどの程度うまく処理するかを調査する新しい研究で取り上げられています。
このプロジェクトのテストでは、Wan 2.1は、物理法則を一貫して順守する能力において、わずか22%のスコアを達成しました。
驚くべきことに、それはテストされたすべてのシステムの中で最高のスコアであり、ビデオAIの次の主要なハードルを特定した可能性があることを示唆しています。
VideoPhy-2の紹介:物理的な常識の新しいベンチマーク
新しい研究の著者らは、VideoPhyと呼ばれるベンチマークシステム(現在2回目の反復)を開発しました。コードはGitHubで入手できます。
研究の範囲は広すぎてここでは包括的にカバーできないため、その方法論と、将来のモデルトレーニングセッションをこれらの奇妙な逆転のインスタンスから遠ざける可能性のあるメトリックを確立する可能性を調べてみましょう。
UCLAとGoogle Researchの6人の研究者によって実施されたこの研究は、VideoPhy-2: A Challenging Action-Centric Physical Commonsense Evaluation in Video Generationというタイトルです。包括的な付随プロジェクトサイトも、GitHubのコードとデータセット、Hugging Faceのデータセットビューアとともに利用できます。
著者らは、最新バージョンであるVideoPhy-2を、’現実世界のアクションのための挑戦的な常識評価データセット’と説明しています。このコレクションは、フラフープ、体操、テニスなどのさまざまな身体活動、およびオブジェクトを曲げて壊すなどのオブジェクトの相互作用を含む、197のアクションを特徴としています。
大規模言語モデル(LLM)を使用して、これらのシードアクションから3840個のプロンプトを生成します。これらのプロンプトは、テストされているさまざまなフレームワークを使用してビデオを合成するために使用されます。
プロセス全体を通して、著者らは、AIが生成したビデオが順守すべき’候補’の物理的なルールと法則のリストを、評価のために視覚言語モデルを使用してまとめました。
著者らは次のように述べています。
‘たとえば、スポーツ選手がテニスをしているビデオでは、物理的なルールは、テニスボールが重力下で放物線軌道を描くことです。ゴールドスタンダードの判断のために、人間のアノテーターに、全体的な意味的順守と物理的な常識に基づいて各ビデオを採点し、さまざまな物理的なルールへの準拠をマークするように依頼します。’
アクションのキュレーションとプロンプトの生成
最初に、研究者らは、AIが生成したビデオの物理的な常識を評価するための一連のアクションをキュレーションしました。彼らは、Kinetics、UCF-101、およびSSv2データセットから供給された600以上のアクションから始め、スポーツ、オブジェクトの相互作用、および現実世界の物理学を含む活動に焦点を当てました。
STEMトレーニングを受けた学生アノテーター(最低限の学部資格を持つ)の2つの独立したグループが、リストを確認してフィルタリングしました。彼らは、重力、運動量、弾性などの原則をテストするアクションを選択し、タイピング、猫をなでる、噛むなどの低モーションタスクを削除しました。
重複を排除するためにGemini-2.0-Flash-Expでさらに改良した後、最終的なデータセットには197のアクションが含まれていました。54はオブジェクトの相互作用を含み、143は身体活動とスポーツ活動を中心としていました。
第2段階では、研究者らはGemini-2.0-Flash-Expを使用して、データセット内の各アクションに対して20個のプロンプトを生成し、合計3,940個のプロンプトを作成しました。生成プロセスは、生成されたビデオで明確に表現できる目に見える物理的な相互作用に焦点を当てました。これには、感情、感覚の詳細、抽象的な言語などの非視覚的な要素は除外されましたが、多様なキャラクターとオブジェクトが組み込まれました。
たとえば、‘An archer releases the arrow’(射手が矢を放つ)のような単純なプロンプトの代わりに、モデルは、‘An archer draws the bowstring back to full tension, then releases the arrow, which flies straight and strikes a bullseye on a paper target’(射手が弓弦を完全に緊張するまで引き戻し、矢を放つと、矢はまっすぐに飛び、紙のターゲットのブルズアイに当たる)のような、より詳細なバージョンを生成するように誘導されました。
最新のビデオモデルはより長い説明を解釈できるため、研究者らはMistral-NeMo-12B-Instructプロンプトアップサンプラーを使用してキャプションをさらに改良しました。これにより、元の意味を変更することなく、視覚的な詳細が追加されました。
物理的なルールの導出と挑戦的なアクションの特定
第3段階では、物理的なルールはテキストプロンプトからではなく、生成されたビデオから導出されました。これは、生成モデルが条件付きテキストプロンプトに準拠するのに苦労する可能性があるためです。
ビデオは最初にVideoPhy-2プロンプトを使用して作成され、次にGemini-2.0-Flash-Expで’アップキャプション’されて、主要な詳細が抽出されました。モデルは、ビデオごとに3つの予想される物理的なルールを提案しました。人間のアノテーターは、追加の潜在的な違反を特定することにより、これらを確認して拡張しました。
次に、最も挑戦的なアクションを特定するために、研究者らはVideoPhy-2データセットのプロンプトを使用してCogVideoX-5Bを使用してビデオを生成しました。次に、モデルがプロンプトと基本的な物理的な常識の両方に一貫して従うことができなかった197のアクションから60のアクションを選択しました。
これらのアクションには、円盤投げでの運動量伝達、オブジェクトを曲げて壊すなどの状態変化、綱渡りのようなバランスをとるタスク、バックフリップ、棒高跳び、ピザ投げなどの複雑な動きなどの、物理学が豊富な相互作用が含まれていました。合計で、サブデータセットの難易度を上げるために1,200個のプロンプトが選択されました。
VideoPhy-2データセット:包括的な評価リソース
結果として得られたデータセットは、3,940個のキャプションで構成されていました。これは、以前のバージョンのVideoPhyよりも5.72倍多いです。元のキャプションの平均長は16トークンですが、アップサンプリングされたキャプションは138トークンに達します。これは、それぞれ1.88倍と16.2倍長いです。
このデータセットには、複数のビデオ生成モデルにわたる意味的順守、物理的な常識、およびルール違反をカバーする102,000の人間の注釈も含まれています。
評価基準と人間の注釈の定義
次に、研究者らはビデオを評価するための明確な基準を定義しました。主な目標は、各ビデオが入力プロンプトとどの程度一致し、基本的な物理原則に従っているかを評価することでした。
単にビデオを好みに応じてランク付けするのではなく、特定の成功と失敗を捉えるために評価ベースのフィードバックを使用しました。人間のアノテーターは、5段階評価でビデオを採点し、より詳細な判断を可能にしました。評価では、ビデオがさまざまな物理的なルールと法則に従っているかどうかも確認されました。
人間の評価のために、Amazon Mechanical Turk(AMT)でのトライアルから12人のアノテーターのグループが選択され、詳細なリモート指示を受けた後に評価を提供しました。公平を期すために、意味的順守と物理的な常識は別々に評価されました(元のVideoPhyの研究では、それらは共同で評価されました)。
アノテーターは、最初にビデオが入力プロンプトとどの程度一致するかを評価し、次に物理的な妥当性を個別に評価し、ルール違反と全体的なリアリズムを5段階評価で採点しました。モデル間の公平な比較を維持するために、元のプロンプトのみが表示されました。
自動評価:スケーラブルなモデル評価に向けて
人間の判断は依然としてゴールドスタンダードですが、費用がかかり、いくつかの注意点があります。したがって、より高速でスケーラブルなモデル評価には、自動評価が不可欠です。
論文の著者らは、Gemini-2.0-Flash-ExpやVideoScoreを含むいくつかのビデオ言語モデルを、意味的正確性と’物理的な常識’についてビデオを採点する能力についてテストしました。
モデルは、各ビデオを5段階評価で再度評価しました。別の分類タスクでは、物理的なルールが守られているか、違反しているか、不明確であるかが判断されました。
実験の結果、既存のビデオ言語モデルは、主に弱い物理的推論とプロンプトの複雑さのために、人間の判断と一致するのに苦労していることが示されました。自動評価を改善するために、研究者らは、意味的順守、物理的な常識、ルール準拠の3つのカテゴリにわたってより正確な予測を提供するように設計された7BパラメーターモデルであるVideoPhy-2-Autoevalを開発しました。これは、50,000の人間の注釈*を使用してVideoCon-Physicsモデルで微調整されました。
生成ビデオシステムのテスト:比較分析
これらのツールを配置して、著者らは、ローカルインストールと、必要に応じて商用APIを介して、多くの生成ビデオシステムをテストしました:CogVideoX-5B; VideoCrafter2; HunyuanVideo-13B; Cosmos-Diffusion; Wan2.1-14B; OpenAI Sora; およびLuma Ray。
モデルは、可能な場合はアップサンプリングされたキャプションでプロンプトされましたが、Hunyuan VideoとVideoCrafter2は77トークンのCLIP制限の下で動作し、特定の長さを超えるプロンプトを受け入れることができません。
生成されたビデオは6秒未満に保たれました。これは、短い出力の方が評価しやすいためです。
駆動データはVideoPhy-2データセットからのもので、ベンチマークとトレーニングセットに分割されました。SoraとRay2を除いて、モデルごとに590個のビデオが生成されました。コスト要因のため、これらのビデオには同等の少数のビデオが生成されました。
最初の評価では、身体活動/スポーツ(PA)とオブジェクトの相互作用(OI)を扱い、一般的なデータセットと前述の’より難しい’サブセットの両方をテストしました。
ここで著者らは次のようにコメントしています。
‘最高のパフォーマンスを発揮するモデルであるWan2.1-14Bでさえ、データセットの完全な分割と難しい分割でそれぞれ32.6%と21.9%しか達成していません。他のモデルと比較して比較的強力なパフォーマンスは、マルチモーダルトレーニングデータの多様性と、幅広いアクションにわたって高品質のビデオを保持する堅牢なモーションフィルタリングに起因する可能性があります。
‘さらに、Ray2などのクローズドモデルは、Wan2.1-14BやCogVideoX-5Bなどのオープンモデルよりもパフォーマンスが悪いことがわかります。これは、クローズドモデルが物理的な常識を捉える上で必ずしもオープンモデルよりも優れているとは限らないことを示唆しています。
‘特に、Cosmos-Diffusion-7Bは、はるかに大きいHunyuanVideo-13Bモデルよりも優れたパフォーマンスを発揮し、難しい分割で2番目に良いスコアを達成しています。これは、トレーニングデータにおける人間のアクションの高い表現と、合成的にレンダリングされたシミュレーションが原因である可能性があります。’
結果は、ビデオモデルが、単純なオブジェクトの相互作用よりも、スポーツなどの身体活動に苦労していることを示しました。これは、この分野でAIが生成したビデオを改善するには、より良いデータセット、特にテニス、円盤投げ、野球、クリケットなどのスポーツの高品質な映像が必要であることを示唆しています。
この研究では、モデルの物理的な妥当性が、美学やモーションの滑らかさなど、他のビデオ品質メトリックと相関しているかどうかも調べました。調査結果は、強い相関関係がないことを明らかにしました。つまり、モデルは、視覚的に魅力的または流動的なモーションを生成するだけではVideoPhy-2でのパフォーマンスを向上させることはできません。物理的な常識のより深い理解が必要です。
定性的な例:課題の強調
論文は豊富な定性的な例を提供していますが、PDFで提供されている静的な例のいくつかは、著者らがプロジェクトサイトで提供している広範なビデオベースの例に関連しているようには見えません。したがって、静的な例の小さな選択と、実際のプロジェクトビデオのいくつかを見ていきます。
上記の定性的なテストに関して、著者らは次のようにコメントしています。
‘[私たち]は、ジェットスキーが不自然に逆方向に移動したり、弾性の原則に反して固体の大ハンマーが変形したりするなど、物理的な常識の違反を観察します。しかし、[この記事の冒頭に埋め込まれたクリップ]に示されているように、Wanでさえ物理的な常識の欠如に悩まされています。
‘この場合、岩が上り坂を転がり始めて加速し、重力の物理法則に反していることを強調します。’
冒頭で述べたように、このプロジェクトに関連する資料の量は、ここでカバーできるものをはるかに超えています。したがって、著者らの手順の真に網羅的な概要、およびかなり多くのテスト例と手順の詳細については、ソース論文、プロジェクトサイト、および前述の関連サイトを参照してください。
* 注釈の出所については、論文は’これらのタスクのために取得された’とだけ指定しています。12人のAMTワーカーによって生成されたものとしては、かなり多いようです。
2025年3月13日木曜日に最初に公開されました