DeepSeek AI訓練受檢視:Gemini涉入?

近期浮現的猜測指出,中國 AI 實驗室 DeepSeek 可能利用了 Google 的 Gemini AI 模型資料,來訓練其最新迭代版本 R1 推理 AI 模型。此模型在數學和程式碼基準測試中展現了強勁的效能。雖然 DeepSeek 對於用來訓練 R1 的資料來源保持沉默,但幾位 AI 研究人員提出 Gemini,或至少是 Gemini 的一部分,可能在其中扮演了某種角色。

證據與指控

墨爾本一位專門為 AI 建立「情緒智力」評估的開發者 Sam Paech,提出了他認為 DeepSeek 模型使用 Gemini 產生的輸出進行訓練的證據。Paech 在 X(前身為 Twitter)上的一篇貼文中指出,DeepSeek 的模型,特別是 R1-0528 版本,展現出與 Google 的 Gemini 2.5 Pro 偏好的語言和表達方式相似的偏好。

此外,另一位以 SpeechMap(一個用於 AI 的「言論自由評估」)的創建者身分運作的開發者觀察到,DeepSeek 模型在得出結論時產生的「想法」非常類似 Gemini 的痕跡。此觀察為這些說法增添了另一層耐人尋味的色彩。

這並非 DeepSeek 首次面臨利用競爭 AI 模型資料的指控。早在去年 12 月,開發者們就注意到 DeepSeek 的 V3 模型經常將自己識別為 ChatGPT,OpenAI 流行的聊天機器人平台。這表明該模型已使用 ChatGPT 聊天記錄進行訓練,引發了對資料使用實務的擔憂。

更深層的指控:蒸餾與資料外洩

今年稍早,OpenAI 向金融時報分享,他們發現了將 DeepSeek 與使用一種稱為蒸餾的技術聯繫起來的證據。蒸餾涉及透過從更大、更先進的模型中提取資料來訓練 AI 模型。彭博社報導,微軟(OpenAI 的主要合作者和投資者)在 2024 年底偵測到透過 OpenAI 開發者帳戶進行的重大資料外洩。OpenAI 認為這些帳戶與 DeepSeek 有關聯。

蒸餾本身並非不道德,但在違反服務條款時會變得有問題。OpenAI 的條款明確禁止客戶使用該公司的模型輸出,來開發競爭的 AI 系統。這引發了對 DeepSeek 是否遵守這些條款的嚴重質疑。

AI 訓練資料的渾水

重要的是要承認,AI 模型經常會錯誤地識別自己,並收斂到相似的詞語和片語。這是由於開放網路的性質,開放網路是許多 AI 公司的主要訓練資料來源。網路越來越飽和 AI 生成的內容。內容農場正在使用 AI 來產生點擊誘餌,而機器人正在用 AI 生成的貼文淹沒 Reddit 和 X 等平台。

此種「污染」使得有效過濾訓練資料集中的 AI 輸出變得極具挑戰性,進一步複雜化了 DeepSeek 是否故意使用 Gemini 資料的問題。

專家意見與觀點

儘管難以明確證明這些說法,但一些 AI 專家認為 DeepSeek 使用 Google 的 Gemini 資料進行訓練是合理的。非營利 AI 研究機構 AI2 的研究人員 Nathan Lambert 在 X 上表示:「如果我是 DeepSeek,我絕對會從現有最好的 API 模型中建立大量的合成資料。[DeepSeek] 缺乏 GPU,但現金充裕。實際上,這對他們來說更具運算能力。」

Lambert 的觀點突顯了 DeepSeek 利用現有 AI 模型來增強自身能力的潛在經濟誘因,尤其是在其資源有限的情況下。

安全措施與反制措施

AI 公司一直在加強安全措施,部分原因是为了防止像蒸餾这样的做法。OpenAI 在 4 月開始要求組織完成身分驗證流程,才能存取某些進階模型。此流程涉及提交由 OpenAI 的 API 支援的國家/地區政府核發的身分證件。值得注意的是,中國不在這個名單上。

在另一個行動中,Google 最近開始「總結」透過其 AI Studio 開發者平台提供的模型產生的痕跡。此動作使得競爭對手更難有效地在 Gemini 痕跡上訓練模型。同樣地,Anthropic 在 5 月宣布,它也將開始總結其自身模型的痕跡,理由是需要保護其「競爭優勢」。這些措施表明人們越來越意識到 AI 模型輸出可能被濫用,並積極努力減輕此類風險。

影響與後果

針對 DeepSeek 的指控,引發了關於 AI 訓練實務的道德和合法性的重大問題。如果 DeepSeek 確實使用 Gemini 資料來訓練其 R1 模型,它可能會面臨法律後果和聲譽損害。這種情況也突顯了 AI 產業需要更高的透明度和監管,尤其是在資料來源和使用方面。

對 DeepSeek 的指控突顯了一個關鍵困境:如何在 AI 領域平衡創新和進步的渴望,以及保護智慧財產權和確保公平競爭的需要。AI 產業正在快速發展,明確的指導方針和道德框架對於引導複雜的法律和道德環境至關重要。公司必須對其資料來源保持透明,並遵守服務條款協議,以維持信任並避免潛在的法律責任。

此外,AI 生成的內容污染訓練資料集的問題,對整個 AI 社群構成了主要挑戰。隨著 AI 模型越來越擅長產生令人信服的文字、圖像和其他形式的內容,區分人為生成和 AI 生成的資料變得越來越困難。這種「污染」可能導致 AI 模型同質化,所有模型都開始表現出相似的偏差和限制。

為了應對此挑戰,AI 公司需要投資更先進的資料過濾技術,並探索替代訓練資料來源。他們還需要更透明地了解其訓練資料集的組成以及用於過濾 AI 生成內容的方法。

導航 AI 訓練的未來

DeepSeek 爭議突顯了迫切需要對 AI 訓練的未來進行更細緻的討論。隨著 AI 模型變得越來越強大,而且資料變得越來越稀缺,公司可能會受到誘惑而偷工減料,並從事不道德或非法的行為。然而,這些做法最終會破壞 AI 產業的長期永續性和可信度。

需要研究人員、政策制定者和產業領導者共同努力,制定道德指導方針和法律框架,以促進負責任的 AI 開發。這些指導方針應解決資料來源、透明度和問責制等問題。它們也應該鼓勵公司投資於道德和永續的 AI 訓練實務。

AI 訓練未來的主要考量:

  • 透明度: 公司應對用於訓練其 AI 模型的資料來源,以及用於過濾 AI 生成內容的方法保持透明。
  • 倫理: AI 開發應遵守促進公平、問責制和尊重智慧財產權的倫理原則。
  • 監管: 政策制定者應制定明確的法律框架,以應對 AI 訓練帶來的獨特挑戰。
  • 合作: 研究人員、政策制定者和產業領導者應合作制定 AI 開發的道德指導方針和最佳實務。
  • 資料多樣性: AI 訓練應優先考慮資料多樣性,以減少偏差並提高 AI 模型的整體效能。
  • 永續性: AI 訓練應以永續的方式進行,盡量減少其環境影響。
  • 安全性: 安全措施應保護 AI 模型和訓練資料免受未經授權的存取和使用。

透過解決這些關鍵考量因素,AI 產業可以確保 AI 開發以負責任和合乎道德的方式進行,在促進創新的同時,減輕潛在風險。

前進的道路

針對 DeepSeek 的指控,為 AI 社群敲響了警鐘。它們突顯了在 AI 開發中,迫切需要提高透明度、恪守道德規範和加強防護措施。隨著 AI 繼續滲透到我們生活的各個層面,我們必須建立明確的界限和道德指導方針,以確保其負責任和有益的使用。

無論 DeepSeek 案件的最終結果如何,無疑都將影響圍繞 AI 倫理的持續討論,並影響 AI 開發的未來發展軌跡。它提醒我們,在追求創新時,必須以對道德原則的承諾和對我們行動的潛在後果的認識來加以節制。AI 的未來取決於我們是否有能力運用智慧和遠見來應對這些複雜的挑戰。