人工智能深度伪造防范策略

随着深度伪造技术的飞速发展,它对社会信任和信息安全构成了前所未有的挑战。为了有效地应对这些挑战,深入理解深度伪造技术的内在机制至关重要。本文将探讨如何预防人工智能深度伪造技术,从而构建一个更加安全可靠的数字环境。

深度伪造的引擎:技术分析

深度伪造的核心在于生成模型,这是一种能够从海量数据集中学习并生成逼真图像、视频和音频的人工智能。生成对抗网络(GAN)作为早期的代表,近年来已被功能更为强大的扩散模型所超越。因此,对这些生成引擎进行深入的技术分析,是构建一个强大的预防框架的先决条件。

对抗性博弈:生成对抗网络 (GAN)

GAN由两个神经网络组成:生成器和鉴别器,它们在一个对抗性的博弈中相互竞争。生成器的任务是创建模仿真实世界数据的合成数据。它从随机输入(通常称为潜在向量)开始,并努力将其转换为连贯的输出。另一方面,鉴别器充当分类器,评估数据以确定它是真实的(来自真实训练数据集)还是伪造的(由生成器创建)。

训练过程涉及两个网络之间的持续反馈循环,类似于零和博弈。生成器创建一个伪造图像并将其传递给鉴别器,鉴别器还会收到训练集中的真实图像。然后,鉴别器预测每张图像的真实性。如果鉴别器正确地将生成器的输出识别为伪造的,它会提供反馈。生成器通过反向传播使用此反馈来调整其内部参数,以便在下一次迭代中生成更令人信服的图像。同时,鉴别器调整其自身的参数,以便更好地发现伪造品。这个对抗性竞争持续到系统达到平衡点,有时称为纳什均衡,在该均衡点处,生成器的输出是如此真实,以至于鉴别器无法再可靠地区分它们与真实数据,并且大约以50%的准确率进行猜测。

GAN已经证明能够有效地生成合成媒体,并为许多有影响力的深度伪造模型奠定了基础。深度卷积GAN (DCGAN) 等架构通过替换池化层并使用批量归一化来提高稳定性,从而引入了关键改进。NVIDIA的StyleGAN及其继任者StyleGAN2和StyleGAN3通过修复特征伪影并推进模型架构,在面部生成方面实现了前所未有的照片真实感。CycleGAN等其他变体实现了风格转换任务,并因此被广泛用于Face App等应用程序中进行,以改变人的外貌年龄。

尽管GAN的功能强大,但众所周知,GAN难以训练。生成器和鉴别器之间的微妙平衡很容易被破坏,导致训练不稳定、收敛缓慢或称为“模式崩溃”的关键故障模式。当生成器发现鉴别器中的弱点并通过仅生成有限种类的输出(它知道可以欺骗鉴别器)来利用它时,就会发生模式崩溃,从而无法捕获训练数据的真实多样性。这些固有的挑战以及它们通常产生的细微伪影,成为早期深度伪造检测系统的主要目标。

混沌的反转:扩散模型

在生成式人工智能中,最新技术已果断地转向一类新模型:扩散模型。扩散模型受到非平衡热力学概念的启发,其工作原理与GAN的对抗性竞争的原理根本不同。它们是概率生成模型,可以通过学习反转逐渐损坏的过程来生成异常高质量和多样化的数据。

扩散模型的机制是一个双相过程:

  1. 前向扩散过程: 此阶段在一定时间内(例如,T步)有条不紊且逐步地向图像添加少量高斯噪声。这是一个马尔可夫链过程,其中每个步骤都以上一个步骤为条件,逐渐降低图像质量,直到在最终时间步T时,它变得与纯粹的非结构化噪声无法区分。

  2. 反向去噪过程: 模型的关键是一个神经网络(通常采用U-Net架构),它经过训练来反转此过程。它学会预测在前向过程中每个时间步添加的噪声并将其减去。训练后,模型可以通过从随机噪声样本开始并迭代应用此习得的“去噪”函数来向后处理时间步,将混沌转换为原始数据分布的连贯样本,从而生成新的高质量图像。

这种迭代细化过程使扩散模型能够实现比最好的GAN甚至是更好的照片真实感和多样性水平。它们的训练过程也比GAN的训练过程稳定得多,避免了模式崩溃等问题,并产生了更可靠和更多样化的输出。这种技术优势使扩散模型成为当今最突出和最强大的生成式人工智能工具的基础,包括OpenAI的DALL-E 2、Google的Imagen和Stability AI的Stable Diffusion等文本到图像模型,以及OpenAI的Sora等文本到视频模型。这些模型的广泛可用性和卓越的输出质量极大地升级了深度伪造威胁。

操作方法

无论是GAN还是扩散模型,底层生成引擎都通过多种特定技术来应用,以创建深度伪造视频。这些方法会处理目标视频的各个方面以实现所需的欺骗效果。

  • 重新演绎: 此技术将源角色的面部表情、头部动作和与语音相关的动作转移到视频中的目标对象。该过程通常包含三个主要步骤:首先,跟踪源视频和目标视频中的面部特征;其次,使用一致性度量将这些特征与通用3D面部模型对齐;第三,将表情从源转移到目标,然后进行后续细化以增强真实感和一致性。

  • 口型同步: 口型同步深度伪造技术专门致力于处理语音,主要使用音频输入来生成逼真的嘴部动作。音频被转换为动态嘴部形状和纹理,然后与目标视频小心翼翼地匹配和混合,以产生目标人物正在说输入音频的错觉。

  • 基于文本的合成: 这种高度精细的方法会根据文本脚本修改视频。它的工作原理是将文本分析为其组成音素(声音单元)和视觉素(语音声音的视觉表示)。然后将它们与源视频中的相应序列进行匹配,并使用3D头部模型的参数来生成和平滑嘴唇动作以匹配新文本,从而可以逐字编辑人物似乎在说的话。

从GAN到扩散模型的技术发展不仅仅是一个渐进式的改进;它是一种从根本上改变深度伪造预防战略格局的范式转变。GAN尽管功能强大,但存在已知的架构弱点,例如训练不稳定和模式崩溃,而这通常会导致图像频域中出现可预测且可检测到的伪影。因此,整个一代检测工具都是专门为识别这些特定于GAN的指纹而构建的。然而,扩散模型训练起来更稳定,并且产生的输出更多样化、更逼真,并且在统计上更接近真实图像,因此不具备其前身所具有的许多明显缺陷。

因此,现有深度伪造检测基础设施的很大一部分正在迅速过时。研究表明,在GAN生成的图像上训练的检测器应用于来自扩散模型的内容时,会出现“严重的性能下降”。值得注意的是,在扩散模型图像上训练的检测器可以成功识别GAN生成的内容,但反之则不然,这表明扩散模型代表了一类更复杂且更具挑战性的伪造品。 事实上,这已经有效地重置了技术军备竞赛,要求重新设计防御策略以应对扩散生成媒体的独特且更微妙的特征。

此外,这些生成模型的“黑匣子”性质使源头预防工作的复杂性增加。GAN和扩散模型都以无监督或半监督方式运行,学习模仿数据集的统计分布,而无需显式的语义标签。它们不是以人类可以理解的方式学习“什么是人脸”,而是学习“在人脸数据集中哪些像素模式是可能的”。这使得直接将约束编程到生成过程中变得异常困难(例如,“不生成有害图像”)。该模型只是优化一个数学函数:要么欺骗鉴别器,要么反转噪声过程。这意味着预防不能依赖于从内部监管核心算法。最可行的干预措施必须发生在生成之前(通过控制训练数据)或生成之后(通过检测、水印和出处),因为创建行为本身本质上是对直接治理的抵抗。

生成引擎的比较分析

了解GAN和扩散模型之间的战略差异对于任何利益相关者(从政策制定者到公司安全官员)来说都至关重要。从前者到后者的技术主导地位转变对检测难度、欺骗可能性和整体威胁形势产生了深远的影响。

特征 生成对抗网络 (GAN) 扩散模型 战略意义
核心机制 生成器和鉴别器在零和博弈中竞争。 神经网络学习反转逐渐“噪声”过程。 扩散的迭代细化过程会产生更高的准确性且结构错误更少。
训练过程 以不稳定而著称;容易出现“模式崩溃”和收敛缓慢。 训练过程稳定可靠,但计算密集。 使用扩散模型实现高质量结果的进入门槛较低,从而使威胁变得民主化。
输出质量 可以生成高质量的图像,但可能包含细微的伪影。 目前照片级的真实感和多样性的最高水平;通常与真实照片无法区分。 伪造品变得更令人信服,侵蚀“眼见为实”的启发式方法并挑战人类检测。
可检测性 较旧的检测方法通常经过调整以查找 GAN 特定的伪影(例如,频率不平衡)。 使许多基于 GAN 的检测器过时。图像包含的伪影更少,并且与真实数据统计数据更紧密地匹配。 深度伪造“军备竞赛”已重置。检测研发必须转向专注于扩散特有的信息。
著名型号 StyleGAN、CycleGAN DALL-E、Stable Diffusion、Imagen、Sora 现在,最强大和最广泛使用的工具都基于扩散,从而加速了威胁。

数字免疫系统:检测方法比较分析

为了应对合成媒体的激增,出现了一个多样化的检测方法领域,形成了一个新生的“数字免疫系统”。这些技术涵盖了对数字伪影的法医分析,以及探测潜在生物信号的新颖方法。但是,这种免疫系统的有效性不断受到生成模型的快速发展和旨在逃避检测的对抗性攻击的挑战。创建和检测之间持续的斗争是一个“红皇后”悖论,在这种悖论下,防御者必须不断创新才能维持现状。

数字伪影的法医分析

最确立的深度伪造检测类别涉及数字伪影的法医分析,即生成过程中留下的细微缺陷和不一致之处。这些缺陷和不一致之处通常难以识别,并且无法用肉眼察觉到,但可以通过专用算法来识别。

  • 视觉和解剖上的不一致之处: 早期甚至现在的一些生成模型难以完美复制人体解剖结构的复杂性和真实世界的物理特性。检测方法通过分析媒体中的特定异常现象来利用这些缺陷。其中包括不自然的眨眼模式,即眨眼过多、眨眼过少或根本不眨眼(通常是由于训练数据中缺少闭眼图像),机器人的或不一致的眼部运动,以及底部牙齿永远都不会显示的经约束的嘴唇或嘴部形状。其他指标是说话期间鼻孔缺乏细微的变化、与周围环境不匹配的照明和阴影不一致,以及眼镜或其他反射表面上的错误或丢失的反射。

  • 像素和压缩分析: 这些技术以较低的级别运行,检查图像或视频的数字结构。误差级别分析 (ELA) 是一种识别图像中具有不同压缩级别的区域的方法。由于被操纵的区域通常会被重新保存或重新压缩,因此它们可能会显示出与图像原始部分不同的误差级别,从而高亮显示伪造品。与此密切相关的是 边缘和混合分析,它仔细检查合成元素(例如,交换的面孔)和真实背景之间的边界和轮廓。这些区域可能会通过像不一致的像素化、不自然的清晰度或模糊度以及颜色和纹理的细微差异之类的迹象来暴露操纵。

  • 频域分析: 这些方法不是直接分析像素,而是将图像转换为其频率分量,以查找不自然的模式。由于 GAN 的生成器是采用上采样的架构,因此通常会留下特征谱伪影,从而创建真实图像中不存在的周期性模式。尽管这对于大多数 GAN 有效,但这种方法对于扩散模型的成功率较低,扩散模型生成的图像具有更自然的频率轮廓。但是,一些研究表明,与真实图像相比,扩散模型可能仍然在高频细节中显示出可检测到的不匹配,这为检测提供了一个潜在途径。

生物信号分析:深度伪造的“心跳”

深度伪造检测领域中更新且极具前景的领域涉及分析媒体中是否存在真实的生物信号。其核心前提是,虽然生成模型越来越擅长复制视觉外观,但它们却无法模拟活人的潜在生理过程。

该领域中的主要技术是远程光体积描记法 (rPPG)。此技术使用标准摄像机来检测皮肤颜色中的微小周期性变化,这些变化是在心脏将血液泵入面部表浅血管时发生的。在人的真实视频中,这会产生微弱但一致的脉冲信号。在深度伪造品中,此信号通常不存在、失真或不一致。

检测方法包含多个步骤:

  1. 信号提取: 从视频中人脸上的多个感兴趣区域 (ROI) 提取 rPPG 信号。

  2. 信号处理: 清除原始信号中的噪声,然后对其进行处理(通常使用快速傅里叶变换 (FFT))以分析其时域和谱域特征。FFT 可以揭示信号的优势频率,该频率对应于心率。

  3. 分类: 训练一个分类器(例如,CNN)以区分真实心跳的连贯的节律模式和在伪造视频中发现的嘈杂、不一致或不存在的信号。

在受控实验环境中,这种方法已实现了非常高的检测准确率,一些研究报告的准确率高达 99.22%。但是,此方法存在一个关键漏洞。更高级的深度伪造技术(特别是涉及重新演绎的技术)可以继承来自源视频或“驱动”视频的生理信号。这意味着深度伪造品可能显示出完全正常且一致的 rPPG 信号。它只会是源演员的心跳,而不是最终视频中描绘的人物。这项发现挑战了深度伪造品缺乏生理信号的简单假设,并提高了检测的门槛。未来的方法必须超越仅仅检查脉搏的存在,而是应验证该信号的生理一致性和特定于身份的特征。

检测军备竞赛:扩散模型和对抗性攻击的挑战

深度伪造检测领域由一场无情的军备竞赛来定义。一旦开发出可靠的检测方法,生成模型就会不断发展以克服它。扩散模型的最新崛起和对抗性攻击的使用是对现代检测器构成的两大最重要挑战。

  • 泛化失败: 许多检测模型的一个主要弱点是它们无法泛化。经过训练可以识别来自特定生成模型(例如,StyleGAN2)或在特定数据集上的伪造品的检测器,在面对新的操纵技术或不同的数据域时经常会失败。扩散模型使这个问题尤为严重。由于它们的输出包含较少的明显伪影,内容更加多样化,并且与真实图像的统计特性更加匹配,因此它们可以有效地逃避为 GAN 设计的检测器。为了解决这个问题,研究人员正在开发包含最先进的扩散深度伪造品的新型且难度更大的基准数据集,以推动创建更强大和更通用的检测器。

  • 对抗性攻击: 即使是高度准确的检测器也容易受到通过对抗性攻击进行的直接破坏。在这种情况下,攻击者会对深度伪造图像的像素进行微小的不易察觉的扰动。虽然这些更改对人类不可见,但它们经过专门设计以利用检测器神经网络中的弱点,从而导致其将伪造图像错误地分类为真实的图像。这种威胁存在于“白盒”设置中(攻击者完全了解检测器的架构)和更现实的“黑盒”设置中(攻击者只能查询检测器并观察其输出)。

为了应对,研究团体专注于开发具有增强恢复能力的下一代检测器。关键策略包括:

  • 训练数据多样性: 已证明增强训练数据集以包含来自 GAN 和扩散模型的各种伪造品,以及各种图像域,可以提高泛化能力。

  • 高级训练策略: 正在探索新型技术(例如“动量难度提升”)以通过基于动态样本对分类难度来为样本加权,帮助模型在异构数据集上更有效地训练。

  • 鲁棒性架构: 正在设计新的架构,使其本质上更抗攻击。一种有前景的方法是使用不相交的集成,其中在图像的频率谱的不同且不重叠的子集上训练多个模型。这迫使攻击者找到可以同时欺骗多个模型的扰动,这是一个困难得多的任务。其他混合方法融合来自空间域和频域的特征,以构建数据的更全面的模型。

生成技术和检测技术之间不断来回表明,任何静态防御注定会过时。随着生成模型不断发展以消除眨眼异常或 GAN 伪影之类的迹象,检测器必须转向更微妙的信号,例如高频不匹配或 rPPG 签名。反过来,可以训练生成模型来模仿这些信号,就像在继承来自源视频的 rPPG 中看到的那样。这个永久循环表明,仅仅依靠反应性检测的预防策略正在进行昂贵且可能无法赢得的军备竞赛。

最持久的检测策略很可能是那些利用数字模拟和物理现实之间基本差距的策略。虽然视觉伪影是可以在使用更好的算法和更多计算能力逐步修补的_模拟_中的缺陷,但对于 AI 来说,从第一原理对生物学和物理学的新兴特性进行建模要困难得多。生成模型并不“了解”人类心血管系统。它仅学习复制与面部相关的像素模式。虽然可以训练它来模仿心跳的视觉结果,但从头开始为新身份生成生理一致且准确的信号将需要建模整个生物系统,这是一个更高阶的挑战。因此,最可靠的检测研究将侧重于这些“物理性差距”,不仅包括 rPPG,还可能包括其他迹象,例如细微的呼吸模式、不由自主的瞳孔放大和微表情,这些微表情由复杂的生物过程控制,难以以高精度进行模拟。

建立数字信任:通过水印和出处进行主动预防

鉴于纯粹的反应性检测策略的固有局限性,更具弹性和可持续的深度伪造危害预防方案涉及主动措施。这些技术旨在从创建之日起就在数字媒体生态系统中建立信任和责任。此范例不是侧重于在创建和传播伪造品之后再识别它们,而是将重点转移到验证合法内容的真实性和来源上。该领域中的两种领先技术是法医数字水印和基于区块链的内容出处。

法医数字水印:隐形签名

法医数字水印是一种主动技术,可将唯一且不易察觉的标识符直接嵌入到数字内容(例如,图像、视频或文档)中。与可见水印(例如,覆盖在图像上的徽标)不同,法医水印隐藏在文件本身的数据中,并且设计得异常强大。设计良好的法医水印可以在常见的文件操作中幸存下来,包括压缩、裁剪、调整大小、颜色调整,甚至屏幕截图或屏幕到摄像机捕获。

在深度伪造预防方面,法医水印具有多个关键功能:

  • 来源跟踪和责任: 通过嵌入识别创建者、用户或分发通道的唯一信息,如果恶意深度伪造被泄露或滥用,则水印可用于跟踪其来源。例如,在视频点播 (VOD) 或企业环境中,系统可以使用 A/B 水印为每个用户提供略有不同、唯一带有水印的视频版本。如果副本在线显示,则可以提取水印以识别泄漏的确切来源,从而为法律或行政诉讼提供强有力的证据。

  • 真实性验证: 水印可以用作官方内容的真实性印章。政府机构、公司或新闻机构可以在其合法媒体中嵌入唯一的水印。这允许验证真实通信,并有助于检测和阻止使用深度伪造进行冒充的企图。

  • 生命周期跟踪: 支持者建议可以在内容生命周期的各个阶段集成水印。例如,可以在上传到社交媒体、消息传递应用中甚至由深度伪造创建应用程序自身嵌入水印来创建可跟踪的记录,记录如何生成和分发被操纵的内容。

正在开发先进的水印技术,专门用于反击深度伪造操纵。一种新颖方法涉及设计一种神经网络,该网络可将水印直接嵌入到人脸图像的_身份特征_中。这使得水印对面部交换操纵高度敏感,因为这种操作会固有地更改身份特征并因此破坏水印,同时在传统图像修改(如压缩或大小调整)方面保持鲁棒性。

尽管水印的前景广阔,但仍面临着重大挑战。首先,水印并非战无不胜。研究表明,可以使用对抗技术(特别是使用扩散模型的对抗技术)来“溶解”或重构图像,从而有效地删除嵌入式水印。其次,更重要的是,水印作为系统解决方案的有效性取决于广泛采用。目前,没有法律或监管要求深度伪造应用程序或社交平台实施水印,这使得它的使用是自愿和分散的。

区块链和内容出处:不可更改的账本

一种互补的主动策略是使用区块链技术来建立内容出处,即可靠、可验证且防篡改的媒体文件来源和生命周期历史记录。此方法利用区块链的核心属性,即其去中心化和不可更改特性,来创建永久的公共真实性记录。

建立基于区块链的出处的方法通常涉及三个步骤:

  1. 内容指纹: 首次通过创建或上传到参与平台时,会从文件的数据生成唯一的加密哈希。此哈希充当数字指纹;无论对文件进行的更改有多小,都会生成完全不同的哈希。

  2. 区块链记录: 此唯一哈希以及关键元数据(例如,创建者的经过验证的数字身份、时间戳和其他相关详细信息)会作为交易记录在区块链分类账上。由于该分类账是分布式且经过加密保护的,因此此记录实际上是永久性的且无法更改或删除。

  3. 持续验证: 在将来的任何时间点,任何人员或系统都可以验证该媒体的真实性。他们只需计算所讨论文件的当前哈希,并将其与存储在区块链上的原始哈希进行比较。如果哈希匹配,则证明该文件自注册时间以来未被更改。如果哈希不匹配,则该文件已被窜改。

此系统为数字内容创建了透明且可验证的“监管链”。它允许创建者使用其私钥对其作品进行数字签名,从而以其声誉来保证其真实性。平台可以将此系统集成以自动将内容与区块链进行交叉引用,然后再允许其上线,并标记或阻止缺少有效出处记录的媒体。对将基于区块链的出处与数字水印相结合的混合系统的研究表明,它们可以实现极高的检测准确率,可能达到 95%。

但是,与水印一样,基于区块链的出处也有局限性。它的主要弱点在于它依赖于网络效应。如果创建者、技术平台和消费设备将其作为一种通用标准来采用,则该系统才有价值。此外,重要的是要注意,此方法会验证从注册时刻开始的数字文件的_完整性_,而不是内容本身的_真实性_。创建者可以在区块链上注册深度伪造。该系统只会证明自注册以来,此特定伪造文件没有被更改。

这些主动技术的使用标志着打击深度伪造战略的关键性转变。这些方法不是参与“检测伪造品”的被动军备竞赛,而是旨在创建一种“验证真品”的系统。军备竞赛的特点是不断演变的威胁和对策,在这种军备竞赛中,新的生成模型可以在一夜之间使复杂的检测器过时。相比之下,主动措施在身份验证内容发布时或发布之前应用于身份验证内容。其目标不再是通过发现缺陷来证明一件媒体是伪造的,而是通过确认存在有效水印或在不可更改的分类账上找到匹配的条目来证明它是真实的。

这种转变对整个信息生态系统产生了深远的影响。在一个日益充斥着合成媒体的世界中,据估计,在数年内可能 90% 的在线内容可能是合成内容,因此消费者和系统的默认假设必须从“在证明为伪造之前为真”转变为“在证明为真实之前为未验证”。水印和来源等主动技术为此新范例提供了技术基础。它们将验证责任置于合法内容的创建者身上,以验证其作品,而不是将消费者置于揭穿大量潜在伪造品这一不可能的重担上。

但是,通往这个更具弹性的未来的最大障碍不是技术性的,而是一个大规模的协调问题。 水印和区块链出处的技术已经存在,但其有效性完全取决于通过广泛、标准化的采用来实现网络效应。如果没有一种读取水印的标准方法,那么水印将毫无用处;如果主要平台不查询区块链分类账,那么区块链分类账的价值也很小。为了使这些系统在社会范围内工作,它们必须在基础级别上集成,即在相机中、在编辑软件中、在社交媒体上传协议以及人们每天使用的浏览器和应用程序中。这需要巨大的行业范围内的协作,并可能受到以下部分中讨论的监管授权和激励措施的推动。行业联盟(如内容来源和真实性联盟 (C2PA))的成功(该联盟促进内容来源的开放技术标准)将是此战略转变的关键晴雨表。

合成世界中的法治:全球监管和法律框架

随着深度伪造技术渗透到社会中,世界各国政府都在努力规范其使用并减轻其危害。其应对措施各不相同,反映了不同的法律传统、政治制度和社会优先事项。全球共识仍然难以捉摸,导致国家和地区法律环境变得支离破碎。这种分歧为全球技术公司创造了一个复杂的合规环境,并凸显了在创新、自由表达和公共安全之间取得平衡的不同哲学方法。

美国:联邦和州行动的拼凑

美国对深度伪造监管的方法的特点是将有针对性的联邦法律与更广泛的州一级立法拼凑相结合,所有这些都受到第一修正案下对言论自由的强大宪法保护的制约。

在联邦层面,最重要的立法是 2025 年 5 月颁布的 TAKEOFF IT DOWN Act。该法律是在两党的罕见支持下通过的,这主要是由于使用人工智能创建的未经同意的亲密图像 (NCII) 或“复仇色情”的危机日益严重。该法案是第一部正式将分发此类内容(包括人工智能生成的深度伪造品)定为犯罪的联邦法规。其关键条款包括:

  • 刑事定罪: 禁止分发未经同意的亲密图像,最高可判处两年监禁。

  • 通知和删除授权: 要求托管用户生成内容的在线平台建立程序,以便在 48 小时内删除标记的 NCII 内容并删除重复项。

  • 执行: 授予联邦贸易委员会 (FTC) 对不合规平台执行这些规定的权力。

可能还会将其他现有的联邦法律用于解决与深度伪造相关的危害。《国防授权法案》(National Defense Authorization Act,NDAA)包括解决在外国虚假信息宣传活动中使用深度伪造品的条款。美国联邦贸易委员会(FTC)法令中关于“不公平或欺骗行为或做法”的禁令可用于针对深度伪造引起的欺诈和诈骗,而联邦电信诈骗法规可用于使用虚假音频或视频进行的诈骗。

在州一级,所有 50 个州和华盛顿特区都已颁布针对 NCII 的法律,许多州还更新了法律以明确包括深度伪造品。各州也在选举诚信方面积极监管深度伪造品。各种州法律现在强制要求在人工智能生成的政治广告上使用明确免责声明,或禁止分发旨在影响选举的“具有重大欺骗性的媒体”,尤其是在投票开始前的设定期限内。

美国法律辩论的核心挑战是如何在监管有害内容和保护第一修正案权利之间找到平衡。例如,《TAKEOFF IT DOWN Act》的批评者警告说,其条款可能被出于恶意行为者滥用,以要求删除合法的言论(例如模仿或政治评论),并且 48 小时的删除要求可能会给较小的平台带来不适当的负担。这促使法学学者探索现有法律框架(如形象权 (ROP))的应用,该框架禁止未经授权将个人形象用于商业用途,这是一种潜在的中间地带,可以在不侵犯受保护的言论的情况下解决危害。

欧盟:全面且基于风险的方法

与美国有针对性的、针对特定危害的方法相比,欧盟对管理所有人工智能(包括为深度伪造技术提供支持的技术)采取了广泛、全面且基于风险的框架。这主要是通过两项具有里程碑意义的立法来实现的:《人工智能法案》(AI Act)和《数字服务法案》(DSA)。

《欧盟人工智能法案》于 2024 年 3 月正式获得批准,是世界上第一部综合性人工智能法律。它建立了一个分类系统,根据人工智能系统带来的风险级别来监管这些系统。该法案并未完全禁止深度伪造品,而是对创建深度伪造品的人工智能系统施加了严格的透明度义务。关键条款包括:

  • 披露要求: 当用户与人为生成或操纵的内容进行交互时,必须告知他们。所有深度伪造内容(广义地定义为人员、对象、地点或事件的经过操纵的图像、音频或视频)都必须明确标记为此类内容。

  • 技术标记: 生成合成内容的人工智能系统提供商必须确保以机器可读的格式(例如,通过水印或元数据)标记其输出,以便它们在技术上可检测为人工智能生成的内容。

  • 豁免: 这些透明度义务不适用于明显是模仿或讽刺的内容,或者为了执法等合法目的而获得授权的内容。

**《人工智能法案》是对《数字服务法案》(DSA)**的补充, 后者规范了在线平台的责任。 根据《数字服务法案》,托管包括深度伪造品在内的用户生成内容的平台必须具有清晰透明的内容审核政策,并为非法内容提供易于访问的通知和删除机制。欧盟关于虚假信息的加强版行为准则(现在是共同监管的,并由《数字服务法案》支持)可以对未能充分解决系统性风险(例如虚假信息传播(包括深度伪造品))的超大型在线平台处以巨额罚款(高达全球收入的 6%)。

亚太地区的方法:控制范围

亚太地区的监管措施范围广泛,从中国全面的国家控制到韩国和澳大利亚的有针对性的刑法。

  • 中国: 中国通过于 2023 年 1 月生效的“互联网信息服务深度合成管理规定”实施了世界上最严格和最全面的合成媒体监管框架之一。该法律由社会稳定优先事项驱动,强制要求所有深度合成服务的用户进行实名身份验证;获得所使用的任何个人的明确同意;以及显眼地标注所有人工智能生成的内容。这些规定赋予国家对深度伪造创建和分发的整个生命周期进行广泛控制。

  • 韩国: 韩国采取了一种进取的立法方法,侧重于具体、备受瞩目的危害。《公共官员选举法》修正案禁止在选举前 90 天内将深度伪造品用于政治目的,违者将受到严厉处罚,包括监禁和巨额罚款。此外,该国《关于性犯罪处罚特例法》将创建、分发甚至明知拥有或查看未经同意的性爱深度伪造品定为严重的刑事犯罪。

  • 新加坡: 新加坡的方法侧重于打击在线虚假信息和确保选举诚信。《防止在线虚假信息和操纵法案》(POFMA)赋予政府广泛的权力,可以针对任何被认为损害公共利益的在线内容(包括深度伪造)发出更正或删除指示。更具体地说,《选举(在线广告诚信)法案》禁止在选举期间发布描绘政治候选人的深度伪造内容。

  • 澳大利亚: 澳大利亚主要通过联邦刑法解决了深度伪造威胁。于 2024 年 9 月生效的**《2024 年刑法修正案(深度伪造性材料)法案》**为通过运输服务未经同意共享性暗示材料制定了新的独立的联邦犯罪行为,并且明确包括使用人工智能创建或更改的材料。该联邦法律是对现有州一级刑事犯罪和根据《2021 年在线安全法》由电子安全专员管理的民事处罚制度的补充。

通过这些各种方法, 可以明显看出全球范围内的法律法规出现了分歧,这反映了社会优先事项从根本上的不同。 例如,美国的模式优先保护言论自由,因此仅针对某些明显的危害(如未经同意的亲密照),同时避免更广泛的内容限制。 相反,欧盟的框架并不关注深度伪造的_内容_,而是关注底层人工智能系统带来的_风险_;其主要工具是强制实施透明度,旨在使个人有权