如果说2022年是生成式AI真正俘获公众想象力的一年,那么2025年将是中国新一波生成式视频框架占据中心舞台的一年。
中国生成式视频模型的崛起
腾讯的混元 (Hunyuan) Video已经在AI爱好者社区引起了轰动。其开源的全场景视频扩散模型允许用户根据自己的特定需求定制该技术。
紧随其后的是阿里巴巴最近发布的Wan 2.1。该模型是目前最强大的图像到视频的自由及开放源代码软件 (FOSS) 解决方案之一,现在它通过Wan LoRAs支持定制。
除了这些进展,我们还期待阿里巴巴发布全面的VACE视频创建和编辑套件,以及最近以人为本的基础模型SkyReels的发布。
生成式视频AI研究领域同样火爆。现在才三月初,周二提交给Arxiv的计算机视觉部分(生成式AI论文的关键中心)的论文总数接近350篇——这个数字通常在会议高峰期才会出现。
自2022年夏天Stable Diffusion发布(以及随后Dreambooth和LoRA定制方法的开发)以来的两年里,相对缺乏重大突破。然而,最近几周见证了大量新版本和创新的涌现,其速度之快,几乎不可能完全了解,更不用说全面报道了。
解决了时间一致性,但出现了新的挑战
像混元 (Hunyuan) 和Wan 2.1这样的视频扩散模型终于解决了时间一致性问题。经过数百个研究项目多年来的不懈努力,这些模型在很大程度上解决了随着时间的推移生成一致的人类、环境和对象相关的挑战。
毫无疑问,VFX工作室正在积极投入人力和资源来适应这些新的中国视频模型。他们的当务之急是解决面部交换等紧迫挑战,尽管目前这些系统还没有ControlNet风格的辅助机制。
即使不是通过预期的渠道,这样一个重大的障碍可能已经被克服,这一定是一个巨大的解脱。
然而,在剩下的问题中,有一个问题特别突出:
所有当前可用的文本到视频和图像到视频系统,包括商业闭源模型,都有产生违背物理定律的错误的倾向。上面的例子显示了一个石头向上滚动,这是从提示中生成的:‘一块小石头从陡峭、多岩石的山坡上滚下来,使土壤和小石头移位’。
为什么AI视频会弄错物理原理?
最近,阿里巴巴和阿联酋的一项学术合作提出了一种理论,认为模型可能以一种阻碍其理解时间顺序的方式进行学习。即使在视频上进行训练(视频被分解为单帧序列进行训练),模型也可能无法从本质上掌握“之前”和“之后”图像的正确顺序。
然而,最合理的解释是,所讨论的模型采用了数据增强例程。这些例程包括将模型暴露于源训练剪辑的正向和反向,有效地使训练数据加倍。
一段时间以来,人们已经知道不应该不加选择地这样做。虽然有些动作可以反向进行,但许多动作不行。英国布里斯托大学2019年的一项研究旨在开发一种方法,以区分单个数据集中的等变、不变和不可逆源数据视频剪辑。目标是从数据增强例程中过滤掉不合适的剪辑。
该研究的作者清楚地阐述了这个问题:
‘我们发现反向视频的真实性被反向伪影所背叛,这些伪影是自然世界中不可能出现的场景。有些伪影很微妙,而另一些则很容易发现,比如反向的“投掷”动作,其中被投掷的物体会自发地从地板上升起。
‘我们观察到两种类型的反向伪影,物理伪影,表现出违反自然法则的行为,以及不可能的伪影,描绘了可能但不太可能发生的场景。这些并不是排他性的,许多反向动作都存在这两种类型的伪影,比如展开一张纸。
‘物理伪影的例子包括:反向重力(例如“掉落某物”),物体上的自发冲动(例如“旋转一支笔”),以及不可逆的状态变化(例如“燃烧一支蜡烛”)。一个不可能的伪影的例子:从橱柜里拿出一个盘子,擦干它,然后把它放在晾衣架上。
‘这种数据重用在训练时非常常见,并且可能是有益的——例如,在确保模型不会只学习图像或物体的一个视图时,可以翻转或旋转该视图而不会失去其中心连贯性和逻辑。
‘当然,这只适用于真正对称的物体;只有当反向版本与正向版本一样有意义时,从“反向”视频中学习物理才有效。’
我们没有确凿的证据表明像混元 (Hunyuan) Video和Wan 2.1这样的系统在训练期间允许任意的“反向”剪辑(两个研究小组都没有具体说明他们的数据增强例程)。
然而,考虑到大量的报告(和我自己的实践经验),唯一合理的解释是,支持这些模型的超大规模数据集可能包含真正以反向发生的动作的剪辑。
前面嵌入的示例视频中的石头是使用Wan 2.1生成的。它出现在一项新的研究中,该研究调查了视频扩散模型处理物理学的程度。
在这个项目的测试中,Wan 2.1在始终遵守物理定律的能力方面仅获得了22%的分数。
令人惊讶的是,这是所有测试系统中最好的分数,这表明我们可能已经确定了视频AI的下一个主要障碍:
介绍VideoPhy-2:物理常识的新基准
这项新研究的作者开发了一个基准测试系统,现在是第二个迭代版本,称为VideoPhy。代码可在GitHub上获得。
虽然这项工作的范围太广,无法在此全面介绍,但让我们来看看它的方法论,以及它建立一个指标的潜力,该指标可以指导未来的模型训练,避免这些奇怪的反转实例。
这项研究由来自加州大学洛杉矶分校 (UCLA) 和谷歌研究院 (Google Research) 的六位研究人员进行,标题为VideoPhy-2:视频生成中具有挑战性的以动作为中心的物理常识评估。还提供了一个全面的配套项目网站,以及GitHub上的代码和数据集,以及Hugging Face上的数据集查看器。
作者将最新版本VideoPhy-2描述为“一个具有挑战性的现实世界动作常识评估数据集”。该集合包含197个动作,涵盖一系列不同的物理活动,包括呼啦圈、体操和网球,以及物体交互,如弯曲物体直到它断裂。
一个大型语言模型 (LLM) 用于从这些种子动作生成3840个提示。然后使用各种正在测试的框架,使用这些提示来合成视频。
在整个过程中,作者编制了一份“候选”物理规则和定律的清单,AI生成的视频应该遵守这些规则和定律,使用视觉语言模型进行评估。
作者指出:
‘例如,在运动员打网球的视频中,物理规则应该是网球在重力作用下遵循抛物线轨迹。对于黄金标准判断,我们要求人类注释者根据整体语义一致性和物理常识对每个视频进行评分,并标记其是否符合各种物理规则。’
整理动作并生成提示
最初,研究人员整理了一组动作,以评估AI生成视频中的物理常识。他们从Kinetics、UCF-101和SSv2数据集中获取了600多个动作,重点关注涉及体育、物体交互和现实世界物理的活动。
两个独立的STEM训练学生注释者小组(至少具有本科学历)审查并过滤了该列表。他们选择了测试重力、动量和弹性等原理的动作,同时删除了低运动任务,如打字、抚摸猫或咀嚼。
在与Gemini-2.0-Flash-Exp进一步细化以消除重复项后,最终数据集包含197个动作。54个涉及物体交互,143个以体育活动为中心:
在第二阶段,研究人员使用Gemini-2.0-Flash-Exp为数据集中的每个动作生成20个提示,总共产生了3,940个提示。生成过程侧重于可以在生成的视频中清晰表示的可见物理交互。这排除了非视觉元素,如情感、感官细节和抽象语言,但包含了不同的角色和对象。
例如,模型不是使用简单的提示,如*’弓箭手释放箭’,而是被引导生成一个更详细的版本,如‘弓箭手将弓弦拉到完全张紧,然后释放箭,箭笔直飞行并击中纸靶上的靶心’*。
由于现代视频模型可以解释更长的描述,研究人员使用Mistral-NeMo-12B-Instruct提示上采样器进一步细化了字幕。这增加了视觉细节,而没有改变原来的含义。
推导物理规则并识别具有挑战性的动作
在第三阶段,物理规则不是从文本提示中推导出来的,而是从生成的视频中推导出来的。这是因为生成模型可能难以遵守条件文本提示。
首先使用VideoPhy-2提示创建视频,然后使用Gemini-2.0-Flash-Exp进行“上字幕”以提取关键细节。该模型为每个视频提出了三个预期的物理规则。人类注释者通过识别其他潜在的违规行为来审查和扩展这些规则。
接下来,为了识别最具挑战性的动作,研究人员使用CogVideoX-5B和VideoPhy-2数据集中的提示生成视频。然后,他们从197个动作中选择了60个动作,在这些动作中,模型始终未能遵循提示和基本物理常识。
这些动作涉及丰富的物理交互,如铁饼投掷中的动量传递,状态变化,如弯曲物体直到它断裂,平衡任务,如走钢丝,以及复杂的动作,包括后空翻、撑杆跳和扔披萨等。总共选择了1,200个提示来增加子数据集的难度。
VideoPhy-2数据集:全面的评估资源
生成的数据集包含3,940个字幕——是早期版本VideoPhy的5.72倍。原始字幕的平均长度为16个标记,而上采样字幕的长度为138个标记——分别长1.88倍和16.2倍。
该数据集还包含102,000个人工注释,涵盖语义一致性、物理常识和跨多个视频生成模型的规则违反。
定义评估标准和人工注释
然后,研究人员定义了明确的视频评估标准。主要目标是评估每个视频与其输入提示的匹配程度以及遵循基本物理原理的程度。
他们没有简单地按偏好对视频进行排名,而是使用基于评级的反馈来捕捉具体的成功和失败。人类注释者以五分制对视频进行评分,从而可以进行更详细的判断。评估还检查了视频是否遵循各种物理规则和定律。
对于人工评估,从Amazon Mechanical Turk (AMT) 的试验中选出了12名注释者,并在收到详细的远程指示后提供了评级。为了公平起见,语义一致性和物理常识被分开评估(在最初的VideoPhy研究中,它们是联合评估的)。
注释者首先对视频与其输入提示的匹配程度进行评分,然后分别评估物理合理性,以五分制对规则违反和整体真实性进行评分。只显示原始提示,以保持跨模型的公平比较。
自动评估:迈向可扩展的模型评估
尽管人类判断仍然是黄金标准,但它既昂贵又有一些注意事项。因此,自动评估对于更快、更可扩展的模型评估至关重要。
论文作者测试了几个视频语言模型,包括Gemini-2.0-Flash-Exp和VideoScore,它们对视频进行语义准确性和“物理常识”评分的能力。
模型再次以五分制对每个视频进行评分。一个单独的分类任务确定物理规则是否被遵循、违反或不清楚。
实验表明,现有的视频语言模型难以与人类判断相匹配,这主要是由于物理推理能力弱以及提示的复杂性。为了改进自动评估,研究人员开发了VideoPhy-2-Autoeval,这是一个7B参数模型,旨在提供跨三个类别的更准确预测:语义一致性;物理常识;和规则遵从性。它使用50,000个人工注释*在VideoCon-Physics模型上进行了微调。
测试生成式视频系统:比较分析
有了这些工具,作者测试了许多生成式视频系统,既通过本地安装,也通过商业API(如果需要):CogVideoX-5B;VideoCrafter2;混元 (Hunyuan) Video-13B;Cosmos-Diffusion;Wan2.1-14B;OpenAI Sora;和Luma Ray。
在可能的情况下,模型会使用上采样的字幕进行提示,但混元 (Hunyuan) Video和VideoCrafter2在77个标记的CLIP限制下运行,并且不能接受超过一定长度的提示。
生成的视频保持在6秒以内,因为较短的输出更容易评估。
驱动数据来自VideoPhy-2数据集,该数据集被分成基准测试集和训练集。每个模型生成590个视频,但Sora和Ray2除外;由于成本因素,为这些模型生成了数量较少的等效视频。
最初的评估涉及体育活动/运动 (PA) 和物体交互 (OI),并测试了通用数据集和前面提到的“更难”的子集:
作者在此评论:
‘即使是表现最好的模型Wan2.1-14B,在我们的数据集的完整拆分和困难拆分上也分别只达到了32.6%和21.9%。与其他模型相比,它相对较强的性能可归因于其多模态训练数据的多样性,以及强大的运动过滤,可在各种动作中保留高质量的视频。
‘此外,我们观察到,闭源模型(如Ray2)的性能比开源模型(如Wan2.1-14B和CogVideoX-5B)差。这表明,在捕捉物理常识方面,闭源模型不一定优于开源模型。
‘值得注意的是,Cosmos-Diffusion-7B在困难拆分上获得了第二好的分数,甚至优于更大的混元 (Hunyuan) Video-13B模型。这可能是由于其训练数据中人类动作的高代表性,以及合成渲染的模拟。’
结果表明,视频模型在体育活动(如运动)方面比在简单的物体交互方面更困难。这表明,改进该领域的AI生成视频将需要更好的数据集——特别是高质量的体育运动镜头,如网球、铁饼、棒球和板球。
该研究还检查了模型的物理合理性是否与其他视频质量指标(如美学和运动平滑度)相关。研究结果显示没有很强的相关性,这意味着模型不能仅仅通过生成视觉上吸引人或流畅的运动来提高其在VideoPhy-2上的性能——它需要对物理常识有更深入的理解。
定性示例:突出挑战
尽管该论文提供了丰富的定性示例,但在PDF中提供的静态示例中,似乎很少与作者在项目网站上提供的大量基于视频的示例相关。因此,我们将查看一小部分静态示例,然后再查看一些实际的项目视频。
关于上述定性测试,作者评论道:
‘[我们]观察到违反物理常识的情况,例如水上摩托艇不自然地倒退,以及实心大锤的变形,这违背了弹性原理。然而,即使是Wan也缺乏物理常识,如[本文开头嵌入的剪辑]所示。
‘在这种情况下,我们强调一块石头开始向上滚动并加速,这违背了重力定律。’
如开头所述,与该项目相关的材料量远远超出了此处可以涵盖的范围。因此,请参阅原始论文、项目网站和前面提到的相关网站,以获得作者程序的真正详尽概述,以及更多的测试示例和程序细节。
* 至于注释的来源,论文只说明了“为这些任务获取”——似乎很多都是由12名AMT工作人员生成的。
首次发布于2025年3月13日,星期四