人工智慧的世界向來不乏爭議,最新的發展涉及中國的AI實驗室 DeepSeek。最近,DeepSeek 公布了其 R1 推理模型的更新版本,展示了在處理數學和編碼基準方面的卓越能力。然而,用於訓練這個模型的數據來源引發了 AI 研究人員之間的相當大的爭論,有些人推測,它可能至少部分源自 Google 的 Gemini 系列 AI 模型。這種懷疑引發了關於倫理實踐、數據採集以及 AI 行業內競爭格局的重大問題。
所提出的證據
這場爭議始於 Sam Paech,一位位於墨爾本的開發人員,專門為 AI 系統創建「情感智慧」評估,他提出了他聲稱的證據,即 DeepSeek 最新的模型已經在 Gemini 生成的輸出上進行了訓練。根據 Paech 的說法,DeepSeek 的模型,標識為 R1-0528,表現出對特定詞語和表達方式的偏好,這些詞語和表達方式與 Google 的 Gemini 2.5 Pro 所偏好的詞語和表達方式非常相似。雖然僅僅這個觀察可能並不具有決定性,但它提出了一個危險信號,需要進一步調查。
另一個以 SpeechMap 為化名運營的開發人員,以創建 AI 的「言論自由評估」而聞名,他指出 DeepSeek 模型的痕跡——它在得出結論時產生的「想法」——「讀起來像 Gemini 痕跡」。這種語言模式和思維過程的趨同進一步助長了 DeepSeek 可能在訓練過程中利用了 Gemini 的輸出的懷疑。
過去對 DeepSeek 的指控
這不是 DeepSeek 第一次面臨指控,指控它使用來自競爭對手的 AI 系統的數據訓練其 AI 模型。早在 12 月,開發人員注意到 DeepSeek 的 V3 模型經常將自己識別為 ChatGPT,OpenAI 的 AI 驅動的聊天機器人平台。這種奇特的行為表明該模型可能已經在 ChatGPT 聊天日誌上進行了訓練,引發了對這種做法的倫理影響的擔憂。
今年早些時候,OpenAI 告知金融時報,它發現了將 DeepSeek 與使用提煉(distillation)聯繫起來的證據,提煉是一種通過從更大、更強大的模型中提取數據來訓練 AI 模型的技術。此外,微軟是 OpenAI 的主要合作者和投資者,在 2024 年底檢測到大量數據通過 OpenAI 開發者帳戶洩露。OpenAI 認為這些帳戶與 DeepSeek 有關,進一步鞏固了對未經授權數據提取的懷疑。
雖然提煉本質上並不不道德,但 OpenAI 的服務條款明確禁止客戶使用該公司的模型輸出構建競爭性的 AI 系統。此限制旨在保護 OpenAI 的知識產權並在 AI 行業內維持公平的競爭環境。如果 DeepSeek 確實使用提煉在 Gemini 輸出上訓練其 R1 模型,這將構成違反 OpenAI 的服務條款,並引發嚴重的倫理問題。
數據污染的挑戰
重要的是要承認,許多 AI 模型表現出一種錯誤識別自己並收斂於相似的詞語和短語的趨勢。這種現象可以歸因於 AI 生成的內容在開放網絡上的日益普及,開放網絡是 AI 公司訓練數據的主要來源。內容農場正在使用 AI 來創建點擊誘餌文章,並且機器人正在用 AI 生成的帖子充斥 Reddit 和 X 等平台。
這種 AI 生成內容對網絡的「污染」對 AI 公司構成了重大挑戰,使得徹底過濾 AI 輸出與訓練數據集變得極其困難。因此,AI 模型可能會在不知不覺中相互學習,導致觀察到的語言和思維過程的相似性。
專家意見和觀點
儘管存在數據污染的挑戰,但 AI 專家 Nathan Lambert(非營利 AI 研究機構 AI2 的研究員)認為,DeepSeek 在來自 Google 的 Gemini 的數據上進行訓練並非不可能。Lambert 認為,DeepSeek 在面臨 GPU 短缺但擁有充足的財力資源的情況下,可能選擇從可用的最佳 API 模型生成合成數據。在他看來,這種方法可能對 DeepSeek 而言更具計算效率。
Lambert 的觀點突顯了可能促使 AI 公司探索替代數據採集策略的實際考慮因素。雖然使用合成數據可能是一種合法且有效的技術,但至關重要的是要確保數據的生成符合倫理規範,並且不違反任何服務條款或倫理準則。
安全措施和預防工作
為了應對圍繞提煉和數據污染的擔憂,AI 公司一直在加強其安全措施。例如,OpenAI 已經實施了一項要求,要求組織完成 ID 驗證過程才能訪問某些高級模型。此過程需要 OpenAI 的 API 支持的國家/地區之一頒發的政府ID,但不包括中國。
Google 也採取了措施來降低提煉的風險,方法是「總結」通過其 AI Studio 開發者平台提供的模型生成的痕跡。這種總結過程使得在 Gemini 痕跡上訓練高效的競爭對手模型更具挑戰性。同樣,Anthropic 在 5 月宣布,它將開始總結其自己模型的痕跡,理由是需要保護其「競爭優勢」。
這些安全措施代表了 AI 公司為保護其知識產權和防止未經授權的數據提取所做的協同努力。通過實施更嚴格的訪問控制並混淆模型痕跡,它們旨在阻止不道德的行為並在 AI 行業內維持公平的競爭環境。
Google 的回應
在被要求發表評論時,Google 尚未對這些指控作出回應。這種沉默為猜測留下了空間,並進一步加劇了爭議。由於 AI 社區正在等待 Google 的官方聲明,圍繞 DeepSeek 的數據採集實踐的問題繼續存在。
對 AI 行業的影響
DeepSeek 爭議提出了關於 AI 開發的倫理界限以及負責任的數據採集重要性的根本問題。隨著 AI 模型變得越來越複雜和強大,走捷徑和利用未經授權的數據的誘惑可能會越來越強烈。然而,這種做法可能會產生不利後果,破壞 AI 行業的完整性並削弱公眾信任。
為了確保 AI 的長期可持續性和倫理發展,AI 公司必須遵守嚴格的倫理準則,並優先考慮負責任的數據採集實踐。這包括獲得數據提供商的明確同意,尊重知識產權,並避免使用未經授權或有偏見的數據。
此外,AI 行業內需要更大的透明度和問責制。AI 公司應更願意公開其數據採集實踐以及用於訓練其模型的方法。這種增加的透明度將有助於培養對 AI 系統的信任和信心,並促進更加道德和負責任的 AI 生態系統。
DeepSeek 爭議及時提醒我們,隨著 AI 技術的不斷發展,必須解決的挑戰和倫理考量。通過堅持倫理原則、促進透明度和促進協作,AI 社區可以確保 AI 被用於造福社會,而不是以犧牲倫理價值為代價。
深入探討技術層面
為了更深入地了解這個問題的細微之處,深入探討 AI 模型如何訓練的技術層面,以及相關的具體技術,即提煉和合成數據生成,至關重要。
提煉:複製智慧?
在 AI 的上下文中,提煉是指一種模型壓縮技術,其中訓練一個更小、更有效的「學生」模型來模仿更大、更複雜的「教師」模型的行為。學生模型通過觀察教師模型的輸出進行學習,有效地提取知識並將其傳輸到較小的架構。雖然提煉對於在資源受限的設備上部署 AI 模型可能是有益的,但是當教師模型的數據或架構是專有的時,它會引發倫理問題。
如果 DeepSeek 未經許可使用 Gemini 的輸出通過提煉訓練其 R1 模型,這將類似於複製 Gemini 的智慧,並可能侵犯 Google 的知識產權。這裡的關鍵是未經授權使用 Gemini 的輸出,這些輸出受版權和其他法律機制保護。
合成數據生成:雙刃劍
合成數據生成涉及創建類似於現實世界數據的人工數據點。此技術通常用於擴充訓練數據集,尤其是在真實數據稀缺或獲取成本高昂的情況下。但是,合成數據的質量和倫理影響在很大程度上取決於其生成方式。
如果 DeepSeek 使用 Gemini 的 API 生成合成數據,問題就變成了:此數據與實際的 Gemini 輸出有多相似,並且它是否侵犯了 Google 的知識產權?如果合成數據僅僅受到 Gemini 的啟發,但沒有直接複製其輸出,則可以認為是合理使用。但是,如果合成數據與 Gemini 的輸出幾乎無法區分,則可能會提出與提煉類似的擔憂。
模型過度擬合的影響
另一個相關的擔憂是模型過度擬合。當模型過於了解訓練數據時,就會發生過度擬合,以至於它在新數據(未見過的數據)上的表現很差。如果 DeepSeek 在 Gemini 的輸出上過度訓練其 R1 模型,則可能會導致過度擬合,其中模型基本上會記住 Gemini 的響應,而不是推廣到新的情況。
這種過度擬合不僅會限制 R1 模型的適用性,而且還會使其更容易檢測到它對 Gemini 數據的依賴性。SpeechMap 注意到的「痕跡」可能是這種過度擬合的證據,其中 R1 模型基本上是在重複從 Gemini 的輸出中學習到的模式。
倫理考量和行業最佳實踐
除了技術層面之外,這場爭議凸顯了 AI 開發需要明確的倫理準則和行業最佳實踐。一些關鍵原則包括:
- 透明度:AI 公司應對其數據來源和訓練方法保持透明。這允許進行獨立審計和驗證。
- 同意:AI 公司在使用數據提供商的數據進行訓練之前,應獲得其明確同意。這包括尊重知識產權並避免未經授權的數據抓取。
- 公平性:AI 模型應公平且公正。這需要仔細注意數據多樣性並減輕算法偏差。
- 問責制:AI 公司應對其 AI 模型的行為負責。這包括建立明確的責任框架並解決 AI 系統造成的危害。
- 安全性:AI 公司應優先考慮其 AI 模型和數據的安全性。這包括防止未經授權的訪問和防止數據洩露。
法規的作用
除了倫理準則和行業最佳實踐之外,可能需要法規來應對 AI 開發帶來的挑戰。一些潛在的監管措施包括:
- 數據隱私法:保護個人數據並限制使用個人訊息進行 AI 訓練的法律。
- 知識產權法:保護 AI 模型和數據免受未經授權的複製和分發的法律。
- 競爭法:防止 AI 行業中的反競爭行為(例如數據囤積和不公平的資源訪問)的法律。
- 安全法規:確保用於關鍵應用中的 AI 系統的安全性和可靠性的法規。
通過結合倫理準則、行業最佳實踐和適當的法規,我們可以創建一個更負責任和可持續的 AI 生態系統,從而使整個社會受益。DeepSeek 爭議敲響了警鐘,敦促我們主動應對這些挑戰,並確保以符合我們的價值觀和原則的方式開發 AI。