DeepSeek AI 進展引發爭議:Gemini 是否參與?

人工智慧 (AI) 領域正熱烈討論著 DeepSeek 最新發布的 R1 推理模型的強化版本。這家中國 AI 實驗室推出了一個模型,在數學和編碼基準測試中展現出令人印象深刻的能力。然而,用於訓練該模型的資料來源已成為討論的焦點,一些 AI 研究人員認為這可能與 Google 的 Gemini AI 家族有關。

DeepSeek 的 R1 模型:更深入的剖析

DeepSeek 的 R1 推理模型在數學問題解決和編碼任務等領域的表現引起了廣泛關注。該公司不願透露模型訓練中使用的具體資料來源,這在 AI 研究社群中引發了猜測。

Gemini 影響的指控

辯論的核心圍繞著 DeepSeek 可能利用 Google 的 Gemini 的輸出來增強其自身模型的可能性。專門從事「情商」評估的 AI 開發人員 Sam Paech 提出了證據,表明 DeepSeek 的 R1-0528 模型表現出對 Google 的 Gemini 2.5 Pro 偏好的語言和表達方式。雖然僅憑這一觀察並不能構成明確的證據,但它促成了正在進行的討論。

另一個增加討論層面的是匿名創建者 "SpeechMap",這是一個專注於言論自由的 AI 評估工具,指出 DeepSeek 模型生成的「想法」——它用來得出結論的內部推理過程——與 Gemini 的追蹤模式相似。這進一步加劇了 DeepSeek 是否使用了來自 Google 的 Gemini 家族的資料的疑問。

過去的指控和 OpenAI 的擔憂

這並非 DeepSeek 首次面臨利用競爭對手 AI 模型資料的指控。去年 12 月,有人觀察到 DeepSeek 的 V3 模型經常將自己識別為 ChatGPT,即 OpenAI 廣泛使用的 AI 聊天機器人。這導致人們懷疑該模型可能是在 ChatGPT 聊天日誌上訓練的。

更令人感興趣的是,據報導,OpenAI 今年早些時候發現了將 DeepSeek 與蒸餾聯繫起來的證據,蒸餾是一種從更大、更強大的 AI 模型中提取資料以訓練較小模型的方法。根據報導,Microsoft,作為 OpenAI 的主要合作者和投資者,在 2024 年底通過 OpenAI 開發人員帳戶檢測到大量資料外洩。OpenAI 認為這些帳戶與 DeepSeek 相關聯。

雖然蒸餾是 AI 領域的常見做法,但 OpenAI 的服務條款明確禁止用戶使用該公司的模型輸出來創建競爭性的 AI 系統。這引發了對潛在違反 OpenAI 政策的擔憂。

AI「污染」的挑戰

重要的是要考慮到 AI 模型在訓練過程中可能會收斂到相似的詞彙和措辭。這主要是因為開放網路是 AI 公司訓練資料的主要來源,並且越來越多地充斥著 AI 生成的內容。內容農場使用 AI 來製作點擊誘餌文章,機器人則使用 AI 生成的帖子淹沒 Reddit 和 X 等平台。

這種資料格局的「污染」使得從訓練資料集中有效過濾 AI 生成的內容變得具有挑戰性。因此,辨別模型的輸出是否真正源自另一個模型的資料,或者僅僅反映了網路中無處不在的 AI 生成內容,可能很困難。

專家對此事的看法

儘管在明確證明連結方面存在挑戰,但像 AI 研究機構 AI2 的研究員 Nathan Lambert 這樣的 AI 專家認為,DeepSeek 在 Google 的 Gemini 資料上進行訓練的可能性是合理的。Lambert 認為,DeepSeek 面臨 GPU 可用性方面的限制,但擁有充足的財力,可能更有效率地利用最佳可用 API 模型生成的合成資料。

AI 公司加強安全措施

對蒸餾和未經授權的資料使用的擔憂正在推動 AI 公司加強其安全措施。例如,OpenAI 現在要求組織完成身份驗證過程才能訪問某些高級模型。此過程需要由 OpenAI 的 API 支援的國家/地區頒發的政府身份證,但不包括中國。

Google 也採取了措施來減輕蒸餾的可能性。他們最近開始「總結」通過其 AI Studio 開發人員平台提供的模型生成的追蹤。這使得通過從 Gemini 追蹤中提取詳細資訊來訓練競爭模型變得更加困難。同樣,Anthropic 宣布計劃總結其自身模型的追蹤,理由是需要保護其「競爭優勢」。

對 AI 格局的影響

圍繞 DeepSeek 和 Google 的 Gemini 資料的潛在使用的爭議突顯了 AI 格局中的幾個關鍵問題:

  • 資料倫理和負責任的 AI 開發: 隨著 AI 模型變得越來越複雜,圍繞資料來源和使用的倫理考量變得至關重要。AI 公司需要確保他們遵守道德準則並尊重他人的知識產權。
  • AI 生成內容的影響: AI 生成內容在網路上的激增對 AI 訓練構成了挑戰。隨著資料變得越來越「受污染」,確保 AI 模型的質量和完整性變得更加困難。
  • 對透明度和問責制的需求: AI 公司應公開其資料來源和訓練方法。這將有助於建立信任並確保以負責任的方式開發和使用 AI。
  • 強大的安全措施的重要性: 隨著 AI 行業變得更具競爭力,AI 公司需要實施強大的安全措施,以防止未經授權訪問其資料和模型。

AI 開發的未來

DeepSeek 的爭議提醒人們,AI 行業面臨著複雜的倫理和技術挑戰。隨著 AI 的不斷發展,AI 公司、研究人員和政策制定者共同努力以確保以造福社會的方式開發和使用 AI 至關重要。這包括促進透明度、問責制和道德資料實踐。

持續的辯論: 針對 DeepSeek 的指控凸顯了人們對資料隱私、安全和道德 AI 開發的日益關注。資料來源缺乏透明度,以及合法資料收集和未經授權的資料抓取之間日益模糊的事實要求 AI 社群內制定明確的規範和負責的做法。隨著技術的進步,該行業必須應對知識產權、"AI 污染"的風險以及潛在的意外後果等問題。

AI 訓練資料的倫理: 圍繞 DeepSeek 的爭議也突顯了在為 AI 模型收集訓練資料時所要考慮的倫理因素。隨著越來越依賴從網絡上抓取的龐大數據集,誰擁有這些數據、如何獲得同意(或忽略)以及是否公平且負責任地使用這些數據等問題正變得越來越緊迫。AI 社群必須建立明確的資料來源指南,以尊重版權法、保護個人資訊並減輕偏見。

AI 主導地位的競賽: 對 DeepSeek 的指控也可以理解為反映了美國和中國之間激烈的 AI 主導地位競賽。兩國都在向 AI 研發投入數十億美元,而取得突破的壓力正在加劇競爭,並可能偷工減料。如果 DeepSeek 確實未經許可使用了 OpenAI 或 Google 的資料,則可以將其解釋為長期困擾美中技術關係的激進策略和智慧財產權盜竊的一個例子。

對 AI 生態系統的更廣泛影響: 雖然目前的重點放在 DeepSeek 上,但此案例可能對整個 AI 生態系統產生更廣泛的影響。如果證明 DeepSeek 非法使用了 ChatGPT 或 Gemini 的資料,它可能會促使其他公司嚴格審計自己的資料來源實踐,這可能會減慢開發速度並提高成本。它也可能導致對資料收集和使用的更嚴格的監管,不僅在美國和中國,而且在全球範圍內。

合成生成的資料的影響: Lambert 提出的合成資料的出現,作為訓練模型的可行替代方案,引發了關於 AI 開發未來的基本問題。雖然合成數據集繞過了一些與實際世界資料相關的倫理和版權問題,但基於合成資料訓練的模型的性能和穩健性通常無法與基於原始資料訓練的模型相媲美。AI 社群需要找到創新的方法來產生複雜的合成數據集,以滿足行業的需求,同時又不影響準確性和可靠性。

模型摘要作為一種資料治理形式: Google 和 Anthropic 最近決定開始"摘要"其模型生成的追蹤,這表明了資料治理在 AI 行業中日益重要的地位。通過模糊模型決策過程中的詳細資訊,公司正在使其他人更難以對其技術進行逆向工程。這種方法有助於保護商業秘密並維護道德的資料來源實踐,但它也引發了關於 AI 系統的透明度和可解釋性的問題。

在創新與倫理和法律考量之間取得平衡: DeepSeek 的爭議強調了在鼓勵 AI 創新與保護智慧財產權以及確保遵守道德原則之間取得謹慎平衡的必要性。隨著 AI 模型繼續在複雜性和複雜性方面不斷增長,該行業面臨的倫理和法律挑戰只會變得更加突出。在這些擔憂之間找到適當的平衡對於促進 AI 的負責任和可持續發展至關重要。