AI 影片為何有時會出錯?

中國生成式影片模型的崛起

如果說 2022 年是生成式 AI 真正擄獲大眾想像力的一年,那麼 2025 年將會是來自中國的新一波生成式影片框架佔據中心舞台的一年。

騰訊的 Hunyuan Video 已經在 AI 愛好者社群中引起了巨大的轟動。其開源的全影片擴散模型允許使用者根據自己的特定需求來調整技術。

緊隨其後的是阿里巴巴最近發布的 Wan 2.1。該模型是目前最強大的圖像到影片的自由及開放原始碼軟體 (FOSS) 解決方案之一,現在它還支援透過 Wan LoRAs 進行客製化。

除了這些發展之外,我們還期待阿里巴巴全面的 VACE 影片創作和編輯套件的發布,以及最近以人為中心的基礎模型 SkyReels 的推出。

生成式影片 AI 研究領域同樣火爆。現在才三月初,但週二提交給 Arxiv 的電腦視覺部分(生成式 AI 論文的主要中心)的論文總數接近 350 篇——這個數字通常在會議高峰期才會出現。

自 Stable Diffusion 於 2022 年夏天推出(以及隨後 Dreambooth 和 LoRA 客製化方法的開發)以來的兩年裡,相對缺乏重大突破。然而,最近幾週見證了大量新版本和創新的湧現,其速度之快,幾乎不可能完全了解,更不用說全面報導了。

解決時間一致性,但新的挑戰出現

像 Hunyuan 和 Wan 2.1 這樣的影片擴散模型終於解決了時間一致性的問題。經過數百個研究計畫多年來的不懈努力,這些模型在很大程度上解決了隨著時間推移生成一致的人類、環境和物體的挑戰。

毫無疑問,視覺特效工作室正在積極投入人力和資源來適應這些新的中國影片模型。他們的近期目標是解決面部交換等緊迫挑戰,儘管這些系統目前還沒有 ControlNet 風格的輔助機制。

即使不是透過預期的途徑,如此重大的障礙可能已經被克服,這一定是一個巨大的解脫。

然而,在剩下的問題中,有一個問題特別突出:

所有目前可用的文本到影片和圖像到影片系統,包括商業閉源模型,都有產生違反物理定律的錯誤的傾向。上面的例子顯示了一塊石頭向上滾動,這是從提示中生成的:「一塊小石頭從陡峭、多岩石的山坡上滾下來,取代了土壤和小石頭」

為什麼 AI 影片會弄錯物理?

最近阿里巴巴和阿聯酋的一項學術合作提出了一種理論,認為模型可能以一種阻礙其理解時間順序的方式進行學習。即使在影片上進行訓練(影片被分解成單幀序列進行訓練),模型也可能無法固有地掌握「之前」和「之後」圖像的正確順序。

然而,最合理的解釋是,所討論的模型使用了資料增強例程。這些例程涉及將模型暴露於正向反向的源訓練片段,有效地使訓練資料加倍。

人們早就知道不應該不加區別地這樣做。雖然有些動作可以反向進行,但許多動作不行。英國布里斯托大學 2019 年的一項研究旨在開發一種方法來區分單個資料集中的等變不變不可逆源資料影片片段。目標是從資料增強例程中過濾掉不合適的片段。

該研究的作者明確闡述了這個問題:

‘我們發現反轉影片的真實性被反轉偽影所背叛,這些偽影是自然世界中不可能出現的場景。有些偽影很微妙,而另一些則很容易發現,例如反向的「投擲」動作,其中被投擲的物體會自發地從地板上升起。

‘我們觀察到兩種類型的反轉偽影,物理偽影,表現出違反自然法則的行為,以及不可能的偽影,描繪了可能但不太可能發生的情境。這些並不是排他性的,許多反向動作都存在這兩種類型的偽影,例如展開一張紙。

‘物理偽影的例子包括:反轉重力(例如「掉落東西」)、物體上的自發衝動(例如「旋轉筆」)和不可逆的狀態變化(例如「燃燒蠟燭」)。不可能偽影的一個例子:從櫥櫃裡拿一個盤子,擦乾它,然後把它放在晾衣架上。

‘這種資料的重複使用在訓練時非常普遍,並且可能是有益的——例如,在確保模型不會只學習到圖像或物體的一個視圖,這個視圖可以翻轉或旋轉而不會失去其中心連貫性和邏輯。

‘當然,這只適用於真正對稱的物體;只有當反轉版本與正向版本一樣有意義時,從「反轉」影片中學習物理才有效。’

我們沒有確鑿的證據表明像 Hunyuan Video 和 Wan 2.1 這樣的系統在訓練期間允許任意的「反轉」片段(兩個研究小組都沒有具體說明他們的資料增強例程)。

然而,考慮到大量的報告(以及我自己的實踐經驗),唯一合理的解釋是,支援這些模型的超大規模資料集可能包含真正以反向運動為特徵的片段。

前面嵌入的範例影片中的石頭是使用 Wan 2.1 生成的。它出現在一項新的研究中,該研究調查了影片擴散模型處理物理的能力。

在這個項目的測試中,Wan 2.1 在其始終遵守物理定律的能力方面僅獲得了 22% 的分數。

令人驚訝的是,這是所有測試系統中最好的分數,這表明我們可能已經確定了影片 AI 的下一個主要障礙:

介紹 VideoPhy-2:物理常識的新基準

這項新研究的作者開發了一個基準測試系統,現在是第二次迭代,稱為 VideoPhy。程式碼可在 GitHub 上取得。

雖然這項工作的範圍太廣,無法在此全面介紹,但讓我們來看看它的方法論,以及它建立一個指標的潛力,該指標可以引導未來的模型訓練階段遠離這些奇怪的反轉實例。

這項研究由來自加州大學洛杉磯分校 (UCLA) 和 Google Research 的六位研究人員進行,標題為 VideoPhy-2:影片生成中具有挑戰性的以動作為中心的物理常識評估。還提供了一個全面的配套項目網站,以及 GitHub 上的程式碼和資料集,以及 Hugging Face 上的資料集檢視器。

作者將最新版本 VideoPhy-2 描述為「一個具有挑戰性的真實世界動作常識評估資料集」。該集合包含 197 個動作,涵蓋一系列不同的體育活動,包括呼啦圈體操網球,以及彎曲物體直到斷裂等物體互動。

大型語言模型 (LLM) 用於從這些種子動作生成 3840 個提示。然後使用各種正在測試的框架,使用這些提示來合成影片。

在整個過程中,作者編制了一份「候選」物理規則和定律的清單,AI 生成的影片應該遵守這些規則和定律,並使用視覺語言模型進行評估。

作者指出:

‘例如,在運動員打網球的影片中,物理規則是網球在重力作用下應遵循拋物線軌跡。對於黃金標準判斷,我們要求人類註釋者根據整體語義依從性和物理常識對每個影片進行評分,並標記其是否符合各種物理規則。’

策劃動作和生成提示

最初,研究人員策劃了一組動作來評估 AI 生成影片中的物理常識。他們從 Kinetics、UCF-101 和 SSv2 資料集中獲取了 600 多個動作,重點關注涉及體育、物體互動和真實世界物理的活動。

兩個獨立的 STEM 訓練學生註釋者小組(至少具有本科學歷)審查並過濾了該清單。他們選擇了測試重力動量彈性等原理的動作,同時刪除了低運動任務,如打字撫摸貓咀嚼

在與 Gemini-2.0-Flash-Exp 進一步完善以消除重複項後,最終的資料集包括 197 個動作。54 個涉及物體互動,143 個以體育和運動活動為中心:

在第二階段,研究人員使用 Gemini-2.0-Flash-Exp 為資料集中的每個動作生成 20 個提示,總共產生 3,940 個提示。生成過程側重於可以在生成的影片中清晰表示的可見物理互動。這排除了非視覺元素,例如情感感官細節抽象語言,但包含了不同的角色和物體。

例如,模型不是簡單的提示,如*「弓箭手放箭」,而是被引導產生更詳細的版本,例如「弓箭手將弓弦拉到完全張緊,然後放箭,箭筆直飛行並擊中紙靶上的靶心」*。

由於現代影片模型可以解釋更長的描述,研究人員使用 Mistral-NeMo-12B-Instruct 提示上採樣器進一步完善了標題。這增加了視覺細節,而沒有改變原始含義。

推導物理規則和識別具有挑戰性的動作

在第三階段,物理規則不是從文本提示中推導出來的,而是從生成的影片中推導出來的。這是因為生成模型可能難以遵守條件文本提示。

首先使用 VideoPhy-2 提示創建影片,然後使用 Gemini-2.0-Flash-Exp 進行「上標題」以提取關鍵細節。該模型為每個影片提出了三個預期的物理規則。人類註釋者通過識別其他潛在的違規行為來審查和擴展這些規則。

接下來,為了識別最具挑戰性的動作,研究人員使用 CogVideoX-5B 和 VideoPhy-2 資料集中的提示生成了影片。然後,他們從 197 個動作中選擇了 60 個動作,其中模型始終未能遵循提示和基本物理常識。

這些動作涉及豐富的物理互動,例如鐵餅投擲中的動量傳遞,彎曲物體直到斷裂等狀態變化,走鋼絲等平衡任務,以及包括後空翻、撐竿跳和扔披薩等複雜動作。總共選擇了 1,200 個提示來增加子資料集的難度。

VideoPhy-2 資料集:全面的評估資源

生成的資料集包含 3,940 個標題——比早期版本的 VideoPhy 多 5.72 倍。原始標題的平均長度為 16 個標記,而上採樣標題達到 138 個標記——分別長 1.88 倍和 16.2 倍。

該資料集還包含 102,000 個人類註釋,涵蓋跨多個影片生成模型的語義依從性、物理常識和規則違規。

定義評估標準和人類註釋

然後,研究人員定義了明確的影片評估標準。主要目標是評估每個影片與其輸入提示的匹配程度以及遵循基本物理原理的程度。

他們沒有簡單地按偏好對影片進行排名,而是使用基於評級的反饋來捕捉特定的成功和失敗。人類註釋者以五分制對影片進行評分,從而可以進行更詳細的判斷。評估還檢查了影片是否遵循各種物理規則和定律。

對於人類評估,從 Amazon Mechanical Turk (AMT) 的試驗中選擇了 12 名註釋者,並在收到詳細的遠端指示後提供了評級。為了公平起見,語義依從性物理常識被分開評估(在原始的 VideoPhy 研究中,它們被聯合評估)。

註釋者首先評估影片與其輸入提示的匹配程度,然後分別評估物理合理性,以五分制對規則違規和整體真實性進行評分。只顯示原始提示,以保持跨模型的公平比較。

自動評估:邁向可擴展的模型評估

儘管人類判斷仍然是黃金標準,但它很昂貴並且有一些注意事項。因此,自動評估對於更快、更可擴展的模型評估至關重要。

該論文的作者測試了幾種影片語言模型,包括 Gemini-2.0-Flash-Exp 和 VideoScore,它們對影片的語義準確性和「物理常識」進行評分的能力。

模型再次以五分制對每個影片進行評分。一個單獨的分類任務確定物理規則是否被遵循、違反或不清楚。

實驗表明,現有的影片語言模型難以與人類判斷相匹配,這主要是由於物理推理能力弱和提示的複雜性。為了改進自動評估,研究人員開發了 VideoPhy-2-Autoeval,這是一個 7B 參數模型,旨在提供跨三個類別的更準確預測:語義依從性物理常識;和規則合規性。它在 VideoCon-Physics 模型上使用 50,000 個人類註釋進行了微調*。

測試生成式影片系統:比較分析

有了這些工具,作者測試了許多生成式影片系統,包括通過本地安裝,以及在必要時通過商業 API:CogVideoX-5B;VideoCrafter2;HunyuanVideo-13B;Cosmos-Diffusion;Wan2.1-14B;OpenAI Sora;和 Luma Ray。

在可能的情況下,模型會提示上採樣標題,但 Hunyuan Video 和 VideoCrafter2 在 77 個標記的 CLIP 限制下運行,並且不能接受超過一定長度的提示。

生成的影片保持在 6 秒以內,因為較短的輸出更容易評估。

驅動資料來自 VideoPhy-2 資料集,該資料集分為基準測試集和訓練集。每個模型生成 590 個影片,但 Sora 和 Ray2 除外;由於成本因素,為這些模型生成了數量較少的等效影片。

最初的評估涉及體育活動/運動 (PA) 和物體互動 (OI),並測試了通用資料集和上述「更難」的子集:

作者在此評論:

‘即使是表現最好的模型 Wan2.1-14B,在我們的資料集的完整拆分和困難拆分上也分別只達到了 32.6% 和 21.9%。與其他模型相比,其相對強勁的性能可歸因於其多模態訓練資料的多樣性,以及強大的運動過濾,可在各種動作中保留高質量影片。

‘此外,我們觀察到,Ray2 等封閉模型的表現比 Wan2.1-14B 和 CogVideoX-5B 等開放模型差。這表明封閉模型在捕捉物理常識方面不一定優於開放模型。

‘值得注意的是,Cosmos-Diffusion-7B 在困難拆分上取得了第二好的成績,甚至超過了更大的 HunyuanVideo-13B 模型。這可能是由於其訓練資料中人類動作的高度代表性,以及合成渲染的模擬。’

結果表明,影片模型在體育等體育活動方面比在更簡單的物體互動方面更困難。這表明,改進這方面的 AI 生成影片將需要更好的資料集——特別是網球、鐵餅、棒球和板球等運動的高質量鏡頭。

該研究還檢查了模型的物理合理性是否與其他影片質量指標(例如美學和運動平滑度)相關。研究結果顯示沒有很強的相關性,這意味著模型不能僅通過生成視覺上吸引人或流暢的運動來提高其在 VideoPhy-2 上的性能——它需要對物理常識有更深入的理解。

定性範例:突出挑戰

儘管該論文提供了豐富的定性範例,但 PDF 中提供的靜態範例似乎很少與作者在項目網站上提供的大量基於影片的範例相關。因此,我們將查看一小部分靜態範例,然後再查看一些實際的項目影片。

關於上述定性測試,作者評論道:

‘[我們] 觀察到違反物理常識的情況,例如水上摩托車不自然地倒退,以及實心大錘的變形,違背了彈性原理。然而,即使是 Wan 也缺乏物理常識,如[本文開頭嵌入的片段]所示。

‘在這種情況下,我們強調一塊石頭開始向上滾動並加速,違背了重力定律。’

如開頭所述,與此項目相關的材料量遠遠超出了此處可以涵蓋的範圍。因此,請參閱原始論文、項目網站和前面提到的相關網站,以獲取作者程序的詳盡概述,以及更多的測試範例和程序細節。

* 至於註釋的來源,論文只說明了「為這些任務獲取」——似乎很多都是由 12 名 AMT 工作人員生成的。

首次發表於 2025 年 3 月 13 日星期四