防範人工智慧深度偽造技術之策略

深度偽造的引擎:技術分析

深度偽造的核心在於生成模型,這是一種能夠從海量數據集中學習並生成逼真圖像、影片和音訊的人工智慧。近年來,生成對抗網路 (GAN) 已演變為擴散模型,後者的功能更為強大。因此,有必要對這些生成引擎進行技術分析,以便創建一個強大的預防框架。

對抗性博弈:生成對抗網路 (GAN)

GAN 由兩個神經網路組成:生成器和鑑別器。生成器的任務是創建模仿真實世界資料的合成資料。它從隨機輸入(通常稱為潛在向量)開始,並試圖將其轉換為連貫的輸出。另一方面,鑑別器充當分類器,評估資料以確定它是真實的(來自真實訓練數據集)還是偽造的(由生成器創建)。

訓練過程涉及兩個網路之間的持續回饋循環,類似於零和博弈。生成器創建一個偽造圖像並將其傳遞給鑑別器,鑑別器還會收到訓練集中的真實圖像。然後,鑑別器預測每張圖像的真實性。如果鑑別器正確地將生成器的輸出識別為偽造的,它會提供回饋。生成器通過反向傳播使用此回饋來調整其內部參數,以便在下一次迭代中生成更令人信服的圖像。同時,鑑別器調整其自己的參數,以便更好地發現偽造品。這個對抗性競爭持續到系統達到平衡點,有時稱為奈許均衡,在該均衡點處,生成器的輸出是如此真實,以至於鑑別器無法再可靠地區分它們與真實資料,並且大約以 50% 的準確率進行猜測。

GAN 已經證明能夠有效地生成合成媒體,並為許多有影響力的深度偽造模型奠定了基礎。深度卷積 GAN (DCGAN) 等架構通過替換池化層並使用批量歸一化來提高穩定性,從而引入了關鍵改進。NVIDIA 的 StyleGAN 及其繼任者 StyleGAN2 和 StyleGAN3 通過修復特徵偽影並推進模型架構,在面部生成方面實現了前所未有的照片真實感。CycleGAN 等其他變體實現了風格轉換任務,並因此被廣泛用於 Face App 等應用程式中進行,以改變人的外貌年齡。

儘管 GAN 的功能强大,但眾所周知,GAN 難以訓練。生成器和鑑別器之間的微妙平衡很容易被破壞,導致訓練不穩定、收斂缓慢或稱為“模式崩潰”的關鍵故障模式。當生成器發現鑑別器中的弱點並通過僅生成有限種類的輸出(它知道可以欺騙鑑別器)來利用它時,就會發生模式崩潰,從而無法捕獲訓練資料的真實多樣性。這些固有的挑戰以及它們通常產生的細微偽影,成為早期深度偽造檢測系統的主要目標。

混沌的反轉:擴散模型

在生成式人工智慧中,最新技術已果斷地轉向一類新模型:擴散模型。擴散模型受到非平衡熱力學概念的啟發,其工作原理與 GAN 的對抗性競爭的原理根本不同。它們是概率生成模型,可以通過學習反轉逐漸損壞的過程來生成異常高品質和多樣化的資料。

擴散模型的機制是一個雙相過程:

  1. 前向擴散過程: 此階段在一定時間內(例如,T 步)有條不紊且逐步地向圖像添加少量高斯噪聲。這是一個馬可夫鏈過程,其中每個步驟都以上一個步驟為條件,逐漸降低圖像品質,直到在最終時間步 T 時,它變得與純粹的非結構化噪聲無法區分。

  2. 反向去噪過程: 模型的關鍵是一個神經網路(通常採用 U-Net 架構),它經過訓練來反轉此過程。它學會預測在前向過程中每個時間步添加的噪聲並將其減去。訓練後,模型可以通過從隨機噪聲樣本開始並迭代應用此習得的“去噪”函數來向後處理時間步,將混沌轉換為原始資料分佈的連貫樣本,從而生成新的高品質圖像。

這種迭代細化過程使擴散模型能夠實現比最好的 GAN 甚至是更好的照片真實感和多樣性水平。它們的訓練過程也比 GAN 的訓練過程穩定得多,避免了模式崩潰等問題,並產生了更可靠和更多樣化的輸出。這種技術優勢使擴散模型成為當今最突出和最強大的生成式人工智慧工具的基礎,包括 OpenAI 的 DALL-E 2、Google 的 Imagen 和 Stability AI 的 Stable Diffusion 等文本到圖像模型,以及 OpenAI 的 Sora 等文本到影片模型。這些模型的廣泛可用性和卓越的輸出品質極大地升級了深度偽造威脅。

操作方法

無論是 GAN 還是擴散模型,底層生成引擎都通過多種特定技術來應用,以創建深度偽造影片。這些方法會處理目標影片的各個方面以實現所需的欺騙效果。

  • 重新演繹: 此技術將源角色的面部表情、頭部動作和與語音相關的動作轉移到影片中的目標對象。該過程通常包含三個主要步驟:首先,追蹤源影片和目標影片中的面部特徵;其次,使用一致性度量將這些特徵與通用 3D 面部模型對齊;第三,將表情從源轉移到目標,然後進行後續細化以增強真實感和一致性。

  • 口型同步: 口型同步深度偽造技術專門致力於處理語音,主要使用音訊輸入來生成逼真的嘴部動作。音訊被轉換為動態嘴部形狀和紋理,然後與目標影片小心翼翼地匹配和混合,以產生目標人物正在說輸入音訊的錯覺。

  • 基於文字的合成: 這種高度精細的方法會根據文字腳本修改影片。它的工作原理是將文字分析為其組成音素(聲音單元)和視覺素(語音聲音的視覺表示)。然後將它們與源影片中的相應序列進行匹配,並使用 3D 头部模型的參數來生成和平滑嘴唇動作以匹配新文字,從而可以逐字編輯人物似乎在說的話。

從 GAN 到擴散模型的技術發展不僅僅是一個漸進式的改進;它是一種從根本上改變深度偽造預防戰略格局的範式轉變。GAN 儘管功能强大,但存在已知的架構弱點,例如訓練不穩定和模式崩潰,而這通常會導致圖像頻域中出現可預測且可檢測到的偽影。因此,整個一代檢測工具都是專門為識別這些特定於 GAN 的指紋而構建的。然而,擴散模型訓練起來更穩定,並且產生的輸出更多樣化、更逼真,並且在統計上更接近真實圖像,因此不具備其前身所具有的許多明顯缺陷。

因此,現有深度偽造檢測基礎設施的很大一部分正在迅速過時。研究表明,在 GAN 生成的圖像上訓練的檢測器應用於來自擴散模型的內容時,會出現“嚴重的性能下降”。值得注意的是,在擴散模型圖像上訓練的檢測器可以成功識別 GAN 生成的内容,但反之則不然,這表明擴散模型代表了一類更複雜且更具挑戰性的偽造品。 事实上,這已經有效地重置了技術軍備競賽,要求重新設計防禦策略以應對擴散生成媒體的獨特且更微妙的特徵。

此外,這些生成模型的“黑盒子”性質使源頭預防工作的複雜性增加。GAN 和擴散模型都以無監督或半監督方式運行,學習模仿數據集的統計分佈,而無需顯式的語義標籤。它們不是以人類可以理解的方式學習“什麼是人臉”,而是學習“在人臉數據集中哪些像素模式是可能的”。這使得直接將約束編程到生成過程中變得異常困難(例如,“不生成有害圖像”)。該模型只是優化一個數學函數:要么欺騙鑑別器,要么反轉噪聲過程。这意味着預防不能依賴於從內部監管核心算法。最可行的干預措施必須发生在生成之前(通过控制训练数据)或生成之后(通过检测、水印和出处),因為創建行為本身本質上是對直接治理的抵抗。

生成引擎的比較分析

了解 GAN 和擴散模型之間的戰略差異對於任何利益相關者(從政策制定者到公司安全官員)來說都至關重要。從前者到後者的技術主導地位轉變對檢測難度、欺騙可能性和整體威脅形式造成了深遠的影響。

特徵 生成對抗網路 (GAN) 擴散模型 戰略意義
核心機制 生成器和鑑別器在零和博弈中競爭。 神經網路學習反轉逐漸“噪聲”過程。 擴散的迭代細化過程會產生更高的準確性且結構錯誤更少。
訓練過程 以不穩定而著稱;容易出現“模式崩潰”和收斂缓慢。 訓練過程穩定可靠,但計算密集。 使用擴散模型實現高品質结果的進入門檻較低,從而使威脅變得民主化。
輸出品質 可以生成高品質的圖像,但可能包含細微的偽影。 目前照片级的真實感和多樣性的最高水平;通常與真實照片無法區分。 偽造品變得更令人信服,侵蝕“眼見為實”的啟發式方法並挑戰人類檢測。
可檢測性 較舊的檢測方法通常經過調整以查找 GAN 特定的偽影(例如,頻率不平衡)。 使許多基於 GAN 的檢測器過時。圖像包含的偽影更少,並且與真實資料統計資料更緊密地匹配。 深度偽造“軍備競賽”已重置。檢測研發必須轉向專注於擴散特有的資訊。
著名型號 StyleGAN、CycleGAN DALL-E、Stable Diffusion、Imagen、Sora 現在,最強大和最廣泛使用的工具都基於擴散,從而加速了威脅。

數位免疫系統:檢測方法比較分析

為了應對合成媒體的激增,出現了一個多樣化的檢測方法領域,形成了一個新生“數位免疫系統”。這些技術涵蓋了對數位偽影的法醫分析,以及探測潛在生物信號的新穎方法。但是,這種免疫系統的有效性不斷受到生成模型的快速發展和旨在逃避檢測的對抗性攻擊的挑戰。創建和檢測之間持續的鬥爭是一個“紅皇后”悖論,在這種悖論下,防禦者必須不斷創新才能維持現狀。

數位偽影的法醫分析

最確立的深度偽造檢測類別涉及數位偽影的法醫分析,即生成過程中留下的細微缺陷和不一致之處。這些缺陷和不一致之處通常難以識別,並且無法用肉眼察覺到,但可以通過專用算法來識別。

  • 視覺和解剖上的不一致之處: 早期甚至現在的一些生成模型難以完美複製人體解剖結構的複雜性和真實世界的物理特性。檢測方法通過分析媒體中的特定異常現象來利用這些缺陷。其中包括不自然的眨眼模式,即眨眼過多、眨眼過少或根本不眨眼(通常是由於訓練資料中缺少閉眼圖像),機器人的或不一致的眼部運動,以及底部牙齒永遠都不會顯示的經約束的嘴唇或嘴部形狀。其他指標是說話期間鼻孔缺乏細微的變化、與周圍環境不匹配的光照和陰影不一致,以及眼鏡或其他反射表面上的錯誤或丟失的反射。

  • 像素和壓縮分析: 這些技術以較低的級別運行,檢查圖像或影片的數位結構。誤差級別分析 (ELA) 是一種識別圖像中具有不同壓縮級別的區域的方法。由於被操縱的區域通常會被重新保存或重新壓縮,因此它們可能會顯示出與圖像原始部分不同的誤差級別,從而高亮顯示偽造品。與此密切相關的是 邊緣和混合分析,它仔細檢查合成元素(例如,交換的面孔)和真實背景之間的邊界和輪廓。這些區域可能會通過像不一致的像素化、不自然的清晰度或模糊度以及顏色和紋理的細微差異之類的跡象來暴露操縱。

  • 頻域分析: 這些方法不是直接分析像素,而是將圖像轉換為其頻率分量,以查找不自然的模式。由於 GAN 的生成器是採用上採樣的架構,因此通常會留下特徵譜偽影,從而創建真實圖像中不存在的週期性模式。儘管這對於大多數 GAN 有效,但這種方法對於擴散模型的成功率較低,擴散模型生成的圖像具有更自然的頻率輪廓。但是,一些研究表明,與真實圖像相比,擴散模型可能仍然在高頻細節中顯示出可檢測到的不匹配,這為檢測提供了一個潛在途徑。

生物信號分析:深度偽造的“心跳”

深度偽造檢測領域中更新且極具前景的領域涉及分析媒體中是否存在真實的生物信號。其核心前提是,雖然生成模型越來越擅長複製視覺外觀,但它們卻無法模擬活人的潛在生理過程。

該領域中的主要技術是遠程光體積描記法 (rPPG)。此技術使用標準攝影機來檢測皮膚顏色中的微小週期性變化,這些變化是在心臟將血液泵入面部淺表血管時發生的。在人的真實影片中,這會產生微弱但一致的脈衝信號。在深度偽造品中,此信號通常不存在、失真或不一致。

檢測方法包含多個步驟:

  1. 信號提取: 從影片中人臉上的多個感興趣區域 (ROI) 提取 rPPG 信號。

  2. 信號處理: 清除原始信號中的噪聲,然後對其進行處理(通常使用快速傅里葉變換 (FFT))以分析其時域和譜域特徵。FFT 可以揭示信號的優勢頻率,該頻率對應於心率。

  3. 分類: 訓練一個分類器(例如,CNN)以區分真實心跳的連貫的節律模式和在偽造影片中發現的嘈雜、不一致或不存在的信號。

在受控實驗環境中,這種方法已實現了非常高的檢測準確率,一些研究報告的準確率高達 99.22%。但是,此方法存在一個關鍵漏洞。更高級的深度偽造技術(特别是涉及重新演绎的技术)可以繼承來自源影片或“驅動”影片的生理信號。这意味着深度偽造品可能显示出完全正常且一致的 rPPG 信號。它只会是源演員的心跳,而不是最終影片中描繪的人物。这项发现挑战了深度偽造品缺乏生理信號的简单假设,并提高了檢測的門檻。未來的檢測方法必須超越仅仅檢查脈搏的存在,而是應驗證該信號的生理一致性和特定於身份的特徵。

檢測軍備競賽:擴散模型和對抗性攻擊的挑戰

深度偽造檢測領域由一場無情的軍備競賽來定義。 一旦開發出可靠的檢測方法,生成模型就會不斷發展以克服它。擴散模型的最新崛起和對抗性攻擊的使用是對現代檢測器構成的兩大最重要挑戰。

  • 泛化失敗: 許多檢測模型的一個主要弱點是它們無法泛化。經過訓練可以識別來自特定生成模型(例如,StyleGAN2)或在特定資料集上的偽造品的檢測器,在面對新的操縱技術或不同的資料域時经常会失败。擴散模型使這個問題尤為嚴重。由於它們的輸出包含較少的明顯偽影,內容更加多樣化,並且與真實圖像的統計特性更加匹配,因此它們可以有效地逃避為 GAN 設計的檢測器。為了解决这个问题,研究人員正在開發包含最先進的擴散深度偽造品的新型且難度更大的基準資料集,以推動創建更强大和更通用的檢測器。

  • 對抗性攻擊: 即使是高度準確的檢測器也容易受到通過對抗性攻擊進行的直接破壞。在這種情况下,攻擊者會對深度偽造圖像的像素進行微小的不易察覺的擾動。雖然這些更改對人類不可見,但它們經過專門設計以利用檢測器神經網路中的弱點,從而導致其將偽造圖像錯誤地分類為真實的圖像。這種威脅存在於“白盒”設置中(攻擊者完全了解檢測器的架構)和更現實的“黑盒”設置中(攻擊者只能查詢檢測器並觀察其輸出)。

為了應對,研究團體專注於開發具有增強恢復能力的下一代檢測器。關鍵策略包括:

  • 訓練資料多樣性: 已證明增強訓練資料集以包含來自 GAN 和擴散模型的各種偽造品,以及各種圖像域,可以提高泛化能力。

  • 高級訓練策略: 正在探索新型技術(例如“動量難度提升”)以通過基於動態樣本對分類難度來為樣本加權,幫助模型在異構資料集上更有效地訓練。

  • 魯棒性架構: 正在設計新的架構,使其本質上更抗攻擊。一種有前景的方法是使用不相交的集成,其中在圖像的頻率譜的不同且不重疊的子集上訓練多個模型。這迫使攻擊者找到可以同時欺騙多個模型的擾動, 這是一個困難得多的任務。其他混合方法融合來自空間域和頻域的特徵,以構建資料的更全面的模型。

生成技術和檢測技術之間不斷來回表明,任何靜態防禦注定會過時。隨著生成模型不斷發展以消除眨眼異常或 GAN 偽影之類的跡象,檢測器必須轉向更微妙的信號,例如高頻不匹配或 rPPG 簽名。反過來,可以訓練生成模型來模仿這些信號,就像在繼承來自源影片的 rPPG 中看到的那樣。這個永久循環表明,仅仅依靠反應性檢測的預防策略正在進行昂貴且可能無法赢得的軍備競賽。

最持久的檢測策略很可能是那些利用數位模擬和物理現實之間基本差距的策略。虽然視覺偽影是可以在使用更好的算法和更多計算能力逐步修補的_模擬_中的缺陷,但對於 AI 來說,從第一原理對生物學和物理學的新興特性進行建模要困難得多。生成模型並不“了解”人類心血管系統。它僅學習複製與面部相關的像素模式。虽然可以訓練它來模仿心跳的視覺结果,但從頭開始為新身份生成生理一致且準確的信號將需要建模整個生物系統,這是一個更高階的挑戰。因此,最可靠的检测研究将侧重于這些“物理性差距”, 不僅包括 rPPG,還可能包括其他跡象,例如細微的呼吸模式、不由自主的瞳孔放大和微表情,這些微表情由複雜的生物過程控制,難以以高精度進行模擬。

建立數位信任:通過水印和出處進行主動預防

鑒於純粹的反應性檢測策略的固有局限性,更具彈性和可持續的深度偽造危害預防方案涉及主動措施。這些技術旨在從創建之日起就在數位媒體生態系統中建立信任和責任。此範例不是側重於在創建和傳播偽造品之後再識別它們,而是將重點轉移到驗證合法內容的真實性和來源上。該領域中的兩種領先技術是法醫數位水印和基於區塊鏈的內容出處。

法醫數位水印:隱形簽名

法醫數位水印是一種主動技術,可將唯一且不易察覺的標識符直接嵌入到數位內容(例如,圖像、影片或文檔)中。與可見水印(例如,覆蓋在圖像上的徽標)不同,法醫水印隱藏在文件本身的数据中,并且设计得异常强大。設計良好的法醫水印可以在常見的文件操作中幸存下來,包括壓縮、裁剪、調整大小、顏色調整,甚至螢幕截圖或萤幕到攝影機捕獲。

在深度偽造預防方面,法醫水印具有多個關鍵功能:

  • 來源追蹤和責任: 通過嵌入識別創建者、用戶或分發通道的唯一資訊,如果恶意深度偽造被洩露或濫用,則水印可用於追蹤其來源。例如,在影片點播 (VOD) 或企業環境中,系統可以使用 A/B 水印為每個用户提供略有不同、唯一带有水印的影片版本。如果副本在線顯示,則可以提取水印以識別洩漏的精確來源,從而為法律或行政訴訟提供强有力的證據。

  • 真實性驗證: 水印可以用作官方內容的真實性印章。政府機構、公司或新聞機構可以在其合法媒體中嵌入唯一的水印。这允许验证真實通信,并有助于檢測和阻止使用深度偽造進行冒充的企图。

  • 生命週期追蹤: 支持者建議可以在內容生命週期的各個階段集成水印。例如,可以在上傳到社交媒體、消息傳遞應用程式中甚至由