揭露 DeepSeek-R1 的訓練起源
Copyleaks,一家專注於 AI 檢測和治理的公司,最近的研究為 DeepSeek-R1 是否基於 OpenAI 的模型進行訓練提供了一個明確的答案:是的。DeepSeek 是一款免費的 AI 聊天機器人,其外觀、使用感受和功能與 ChatGPT 極為相似。
指紋技術:識別 AI 作者
為了揭示 AI 生成文本的起源,研究人員開發了一種創新的文本指紋工具。此工具旨在確定負責生成特定文本的 AI 模型。研究人員使用包含數千個 AI 生成樣本的龐大數據集對該工具進行了精心訓練。隨後,他們使用已知的 AI 模型對其進行了測試,結果非常明確。
驚人的相似性:DeepSeek-R1 與 OpenAI
測試揭示了一個引人注目的統計數據:DeepSeek-R1 生成的文本中有 74.2% 表現出與 OpenAI 輸出風格的匹配。這種強烈的相關性強烈表明 DeepSeek 在其訓練階段納入了 OpenAI 的模型。
對比方法:Microsoft 的 Phi-4
為了提供對比,可以參考 Microsoft 的 Phi-4 模型。在相同的測試中,Phi-4 與任何已知模型都表現出 99.3% 的「不一致」。這一結果有力地證明了其獨立訓練,表明 Phi-4 的開發沒有依賴現有模型。Phi-4 的獨立性與 DeepSeek 與 OpenAI 的高度相似性形成鮮明對比,突顯了後者明顯的複製或抄襲。
道德和智慧財產權問題
這一發現引發了對 DeepSeek-R1 與 OpenAI 模型高度相似性的嚴重擔憂。這些擔憂包括以下幾個關鍵領域:
- 數據來源: 用於訓練 DeepSeek-R1 的數據來源成為一個關鍵問題。
- 智慧財產權: 潛在侵犯 OpenAI 智慧財產權是一個重大問題。
- 透明度: DeepSeek 訓練方法缺乏透明度引發了道德問題。
研究團隊和方法
由 Yehonatan Bitton、Shai Nisan 和 Elad Bitton 領導的 Copyleaks 數據科學團隊進行了這項開創性的研究。他們的方法以「一致陪審團」方法為中心。這種方法涉及三個不同的檢測系統,每個系統都負責對 AI 生成的文本進行分類。只有當所有三個系統都一致時,才會做出最終判斷。
營運和市場影響
除了道德和智慧財產權問題外,還有實際的營運影響需要考慮。未公開依賴現有模型可能會導致以下幾個問題:
- 強化偏見: 原始模型中存在的偏見可能會被延續。
- 限制多樣性: 輸出的多樣性可能會受到限制,阻礙創新。
- 法律和道德風險: 可能會出現無法預見的法律或道德後果。
此外,DeepSeek 聲稱其革命性的、具有成本效益的訓練方法,如果被發現是基於未經授權的 OpenAI 技術提煉,可能會產生重大的市場影響。這可能導致 NVIDIA 一天損失 5930 億美元,並可能為 DeepSeek 提供不公平的競爭優勢。
嚴謹的方法:結合多個分類器
研究方法採用了高度嚴謹的方法,整合了三個先進的 AI 分類器。這些分類器中的每一個都經過精心訓練,使用了來自四個主要 AI 模型的文本樣本:
- Claude
- Gemini
- Llama
- OpenAI
這些分類器旨在識別細微的風格差異,包括:
- 句子結構: 句子中單詞和短語的排列。
- 詞彙: 單詞的選擇及其頻率。
- 措辭: 整體風格和表達語氣。
「一致陪審團」系統:確保準確性
「一致陪審團」系統是該方法的關鍵要素,確保了對誤報的強有力檢查。該系統要求所有三個分類器獨立地對分類達成一致,然後才認為分類是最終的。這一嚴格的標準使得精確度達到了 99.88%,誤報率僅為 0.04%。該系統展示了其準確識別來自已知和未知 AI 模型文本的能力。
超越 AI 檢測:模型特定歸因
Copyleaks 首席數據科學家 Shai Nisan 表示:「通過這項研究,我們已經超越了我們所知的通用 AI 檢測,進入了模型特定歸因,這是一項從根本上改變我們處理 AI 內容方式的突破。」
模型歸因的重要性
Nisan 進一步強調了此功能的重要性:「此功能至關重要,原因有很多,包括提高整體透明度、確保 AI 訓練的道德規範,以及最重要的是,保護 AI 技術的智慧財產權,並希望防止其潛在的濫用。」
深入探討:DeepSeek 方法的影響
這項研究的發現具有深遠的影響,不僅僅是 DeepSeek 是否抄襲了 OpenAI 模型這一直接問題。讓我們更詳細地探討其中一些影響:
創新的假象
如果 DeepSeek 的訓練嚴重依賴 OpenAI 的模型,那麼這就引發了對其創新程度的質疑。雖然 DeepSeek 可能將其聊天機器人呈現為一種新穎的創造,但其底層技術可能並不像最初聲稱的那樣具有突破性。這可能會誤導那些認為自己正在與真正獨特的 AI 系統互動的用戶和投資者。
對 AI 格局的影響
廣泛採用基於其他模型訓練的 AI 模型可能會對 AI 格局產生同質化影響。如果許多 AI 系統最終都源自少數幾個基礎模型,那麼這可能會限制該領域方法和觀點的多樣性。這可能會扼殺創新,並導致一個不那麼活躍和競爭激烈的 AI 生態系統。
需要更高的透明度
此案例突顯了在 AI 模型的開發和部署中需要更高透明度的迫切性。用戶和利益相關者有權知道 AI 系統是如何訓練的,以及使用了哪些數據來源。這些信息對於評估這些系統的潛在偏見、局限性和道德影響至關重要。
監管的作用
DeepSeek 案例也可能引發關於是否需要對 AI 行業進行更多監管的爭論。政府和監管機構可能需要考慮採取措施,以確保 AI 開發人員遵守道德準則、保護智慧財產權並提高透明度。
AI 開發的未來
圍繞 DeepSeek 訓練方法的爭議可能會成為更廣泛討論 AI 開發未來的催化劑。這可能會促使人們重新評估最佳實踐、道德考量以及在創建 AI 系統中原創性的重要性。
呼籲負責任的 AI 開發
DeepSeek 案例提醒我們負責任的 AI 開發的重要性。它強調了以下幾點:
- 原創性: AI 開發人員應努力創建真正新穎的模型,而不是嚴重依賴現有模型。
- 透明度: 用於開發 AI 系統的訓練數據和方法應向用戶和利益相關者披露。
- 道德考量: AI 開發應以道德原則為指導,包括公平、問責制和尊重智慧財產權。
- 協作: AI 社區內的開放協作和知識共享有助於促進創新並防止複製現有偏見。
前進的道路:確保一個多元化和道德的 AI 未來
最終目標應該是創建一個多元化和道德的 AI 生態系統,讓創新蓬勃發展,用戶可以信任他們所互動的系統。這需要對負責任的 AI 開發實踐、透明度以及對這項快速發展技術的道德影響進行持續對話的承諾。DeepSeek 案例是一個寶貴的教訓,突顯了過度依賴現有模型的潛在陷阱,並強調了在追求 AI 進步過程中原創性和道德考量的重要性。AI 的未來取決於我們今天所做的選擇,我們必須優先考慮負責任的開發,以確保為所有人創造一個有益和公平的未來。Copyleaks 調查的結果揭示了 AI 開發的一個關鍵方面,整個行業必須從這次經驗中學習,以促進一個更透明、更道德和更具創新性的未來。