AI'開源'大騙局:珍貴理想如何被劫持

‘開源’一詞曾帶有某種清晰的共鳴,一種共享知識和協作進步的承諾,推動了無數科學和技術的飛躍。它讓人聯想到社群共同建設、互相審視工作、站在巨人肩膀上的景象,因為藍圖是免費提供的。如今,在人工智慧 (Artificial Intelligence) 的領域中遊走,這個詞語感覺越來越……滑溜。正如《Nature》雜誌所強調,以及在實驗室和董事會中低聲議論的那樣,AI淘金熱中令人擔憂數量的參與者,正將他們的創作披上’開源’的外衣,同時卻將真正關鍵的組件鎖在保險箱裡。這不僅僅是語義上的狡辯;這種做法侵蝕了科學誠信的根基,並可能遮蔽未來創新的道路。研究社群,這個最可能從中獲益或受損的群體,需要認清這場騙局的真相,並強烈倡導那些真正體現我們長期依賴的透明度和可重現性原則的AI系統。

開放的黃金時代:瀕危的遺產

數十年來,開源運動一直是科學進步的無名英雄。想想那些熟悉的工具之外,例如用於統計魔法的 R Studio 或用於模擬流體動力學的 OpenFOAM。考慮一下像 Linux 這樣的基石系統,它驅動著廣闊的互聯網和科學計算集群,或者 Apache 網絡伺服器,這是協作軟件開發的證明。其理念很直接:提供對源代碼的訪問,允許在寬鬆的許可下修改和重新分發,並培育一個全球生態系統,讓改進惠及每個人。

這不僅僅是利他主義;這是務實的天才之舉。開放加速了發現。 研究人員可以複製實驗,驗證發現,並在現有工作的基礎上進行建設,而無需重新發明輪子或在不透明的專有系統中摸索。它培養了信任,因為內部運作可供檢查,允許集體發現和修復錯誤。它實現了訪問的民主化,使全球的科學家和開發人員,無論機構歸屬或預算如何,都能參與尖端工作。這種建立在共享訪問和相互審查基礎上的協作精神,已深深植根於科學方法本身,確保了穩健性並促進了跨領域的快速進步。剖析、理解和修改所用工具的能力至關重要。這不僅僅是關於使用軟件;更是關於理解它如何運作,確保其適用於特定的科學任務,並回饋集體知識庫。這個良性循環以前所未有的速度推動了創新。

AI 的數據依賴性:為何’代碼為王’已不足夠

進入大規模人工智慧 (Artificial Intelligence) 的時代,特別是那些吸引了大量關注和投資的基礎模型。在這裡,主要以源代碼為中心的傳統開源範式遇到了根本性的不匹配。雖然用於構建 AI 模型的算法和代碼當然是圖景的一部分,但它們遠非全部。現代 AI,尤其是深度學習模型,是數據的貪婪消費者。訓練數據不僅僅是輸入;它幾乎可以說是模型能力、偏見和局限性的主要決定因素。

發布模型的代碼,甚至其最終訓練好的參數(’權重’),卻不提供對用於訓練的龐大數據集的有意義訪問或詳細信息,就像給了某人一把車鑰匙,卻拒絕告訴他們這輛車需要什麼樣的燃料,它去過哪裡,或者引擎實際上是如何組裝的。你或許能開動它,但你理解其性能怪癖、診斷潛在問題或可靠地為新旅程修改它的能力有限。

此外,從頭開始訓練這些模型所需的計算資源是巨大的,單次訓練運行通常需要數百萬美元。這造成了另一個障礙。即使代碼和數據完全可用,也只有少數組織擁有複製訓練過程的基礎設施。與傳統軟件相比,這種現實從根本上改變了動態,在傳統軟件中,編譯代碼通常是大多數開發人員或研究人員力所能及的。對於 AI 而言,真正的可重現性和通過重新訓練進行實驗的能力往往遙不可及,即使組件被標記為’開放’。因此,簡單地應用為代碼構思的舊開源定義,並不能捕捉到這個新的、以數據為中心且計算密集型領域的必需品。

‘開放清洗’ (Openwashing):披著羊皮的狼

傳統開源概念與 AI 開發現實之間的這種差距,為一種被稱為**’開放清洗’ (openwashing)** 的現象創造了沃土。公司急切地將’開源’標籤貼在他們的 AI 模型上,收穫與該術語相關的公共關係利益和好感,同時採用那些背叛了真正開放精神(如果不是嚴格的(且可以說是過時的)字面意義)的許可證或訪問限制。

這在實踐中是什麼樣子的?

  • 發布代碼卻無數據: 公司可能會發布模型的架構代碼,甚至可能發布預訓練的權重,允許其他人’按原樣’使用模型或在較小的數據集上進行微調。然而,龐大的、基礎性的訓練數據集——定義模型核心能力的秘方——仍然是專有的和隱藏的。
  • 限制性許可: 模型可能在乍看之下似乎開放的許可證下發布,但包含限制商業用途、限制在某些場景中部署或禁止特定類型的修改或分析的條款。這些限制與通常與開源軟件相關的自由背道而馳。
  • 模糊的數據披露: 公司可能提供模糊的描述或完全省略關鍵細節,而不是提供有關數據來源、收集方法、清理過程和潛在偏見的詳細信息。這種’數據透明度’的缺乏使得無法全面評估模型的可靠性或倫理影響。

為什麼要從事這種做法?動機可能是多樣的。’開源’的積極內涵對於吸引人才、建立開發者社群(即使受到限制)和產生有利的新聞報導無疑是有價值的。更具諷刺意味的是,正如《Nature》所暗示的,可能存在監管激勵。例如,歐盟全面的 2024 年 AI 法案 (EU AI Act) 包括對歸類為開源的系統的潛在豁免或較輕的要求。通過策略性地使用這個標籤,一些公司可能希望以較少的摩擦來應對複雜的監管環境,可能規避針對強大的通用 AI 系統的審查。這種策略性的品牌塑造利用了開源運動的歷史好感,同時可能破壞確保負責任的 AI 部署的努力。

開放的光譜:檢視案例

認識到 AI 的開放性不一定是二元狀態至關重要;它存在於一個光譜上。然而,當前的標籤做法常常模糊了特定模型在該光譜上的真實位置。

考慮一些在此背景下經常討論的著名例子:

  • Meta 的 Llama 系列: 雖然 Meta 發布了 Llama 模型的權重和代碼,但最初訪問需要申請,並且許可證包含限制,特別是關於非常大的公司的使用和特定應用。關鍵的是,底層的訓練數據並未發布,限制了完全的可重現性和對其特性的深入分析。雖然後續版本調整了條款,但數據不透明的核心問題通常仍然存在。
  • Microsoft 的 Phi-2: Microsoft 將 Phi-2 呈現為一個’開源’小型語言模型。雖然模型權重可用,但許可證具有特定的使用限制,並且關於其訓練數據集的詳細信息(對於理解其能力和潛在偏見至關重要,特別是考慮到它是在’合成’數據上訓練的)並不完全透明。
  • Mistral AI 的 Mixtral: 這個由一家著名的歐洲 AI 初創公司發布的模型因其性能而受到關注。雖然組件是在寬鬆的 Apache 2.0 許可證(一個真正開放的代碼/權重許可證)下發布的,但關於訓練數據組成和策劃過程的完全透明度仍然有限,阻礙了深入的科學審查。

將這些與努力更符合傳統開源原則的倡議進行對比:

  • Allen Institute for AI 的 OLMo: 這個項目明確旨在構建一個真正開放的語言模型,優先發布的不仅是模型權重和代碼,還有訓練數據(Dolma 數據集)和詳細的訓練日誌。這一承諾允許更廣泛的研究社群進行前所未有的可重現性和分析。
  • LLM360 的 CrystalCoder: 這個社群驅動的努力同樣強調發布模型開發生命週期的所有組件,包括中間檢查點以及關於數據和訓練過程的詳細文檔,培養了企業發布中經常缺失的透明度水平。

這些對比鮮明的例子突顯了AI 領域真正的開放是可能的,但它需要超越僅僅發布代碼或權重的刻意承諾。它要求數據和過程的透明度,並擁抱隨之而來的審查。當前由’開放清洗’造成的模糊性,使得研究人員更難辨別哪些工具真正支持開放的科學探究。

信任的侵蝕:科學誠信岌岌可危

這種普遍的’開放清洗’的影響遠不止於品牌塑造。當研究人員依賴那些內部運作,特別是其訓練數據不透明的 AI 模型時,這就觸及了科學方法論的核心。

  • 可重現性受損: 科學有效性的一個基石是獨立研究人員能夠重現結果。如果訓練數據和確切的訓練方法未知,真正的複製就變得不可能。研究人員可能使用預訓練模型,但他們無法驗證其構建過程或探究其源自隱藏數據的基本屬性。
  • 驗證受阻: 如果科學家無法檢查模型學習的數據,他們如何信任模型的輸出?隱藏在訓練數據中的偏見、不準確性或倫理問題將不可避免地體現在模型的行為中,然而,沒有透明度,這些缺陷很難被檢測、診斷或緩解。使用這樣的黑盒子進行科學發現引入了不可接受的不確定性。
  • 創新受阻: 科學通過在前人工作的基礎上發展。如果基礎模型在發布時帶有限制或缺乏必要的透明度(尤其是在數據方面),就會阻礙他人創新、試驗替代訓練方案或以原始創建者可能未曾設想的方式將模型應用於新的科學領域。進步被這些半透明系統的提供者所控制。

對封閉或部分封閉的企業系統的依賴,迫使研究人員扮演被動消費者的角色,而不是積極的參與者和創新者。這有可能創造一個未來,即關鍵的科學基礎設施由少數大型實體控制,可能優先考慮商業利益而非開放科學探究的需求。這種透明度的侵蝕直接轉化為對支撐現代研究的工具的信任侵蝕。

市場集中與對創新的寒蟬效應

除了對科學實踐的直接影響外,AI 領域普遍存在的偽開源現象還帶來了重大的經濟和市場影響。大型基礎模型的開發不僅需要重要的專業知識,還需要訪問龐大的數據集和巨大的計算能力——這些資源不成比例地掌握在大型科技公司手中。

當這些公司以’開源’的名義發布模型,但保留對關鍵訓練數據的控制或施加限制性許可時,就創造了一個不公平的競爭環境。

  • 進入壁壘: 初創公司和小型研究實驗室缺乏從頭開始創建可比基礎模型的資源。如果現有企業發布的所謂’開放’模型附帶條件(如商業使用限制或阻止深度修改的數據不透明性),就會限制這些小型參與者有效競爭或在其基礎上構建真正創新應用的能力。
  • 鞏固現有地位: ‘開放清洗’可以作為一種戰略護城河。通過發布有用但並非真正開放的模型,大公司可以培育依賴其技術的生態系統,同時阻止競爭對手完全複製或顯著改進其核心資產(數據和精煉的訓練過程)。它看起來像是開放,但其功能更接近於受控的平台策略。
  • 方法多樣性減少: 如果創新過度依賴少數占主導地位的、半透明的基礎模型,可能導致 AI 開發的同質化,可能忽略了如果領域真正開放,小型獨立團體可能探索的替代架構、訓練範式或數據策略。

真正的開源歷來是競爭和分佈式創新的強大引擎。AI 領域當前的趨勢有可能集中權力並扼殺開放協作本應促進的活力,可能導致一個不那麼活躍、更受中心控制的 AI 格局。

監管盲點與倫理鋼絲

‘開放清洗’可能利用監管漏洞,特別是像 EU AI Act 這樣的框架,值得更仔細地審視。該法案旨在為 AI 系統建立基於風險的法規,對高風險應用施加更嚴格的要求。對開源 AI 的豁免或較輕的義務旨在促進創新並避免給開源社群帶來過重負擔。

然而,如果公司能夠成功地為缺乏真正透明度(尤其是在數據和訓練方面)的模型爭取到’開源’的稱號,它們可能會繞過重要的保障措施。這引發了關鍵問題:

  • 有意義的審查: 如果一個強大 AI 模型的訓練數據——其行為和潛在偏見的關鍵決定因素——被隱藏起來,監管機構能否充分評估其風險?錯誤標籤可能允許潛在的高風險系統在比預期更少的監督下運行。
  • 問責差距: 當出現問題時——如果模型表現出有害的偏見或產生危險的輸出——如果底層數據和訓練過程不透明,誰應負責?真正的開放有助於調查和問責;’開放清洗’則掩蓋了它。
  • 倫理治理: 負責任地部署 AI 需要理解其局限性和潛在的社會影響。當像訓練數據這樣的核心組件被保密時,這種理解從根本上受到了損害。它使得獨立審計、偏見評估和倫理審查變得更加困難,甚至不可能。

策略性地使用’開源’標籤來應對監管不僅僅是一種法律策略;它具有深遠的倫理影響。它有可能破壞公眾信任,並阻礙確保 AI 開發以安全、公平和負責任的方式進行的努力。因此,確保’開源 AI’的監管定義與真正透明的原則保持一致至關重要。

規劃通往真正 AI 開放之路

幸運的是,警鐘已經敲響,人們正在努力在 AI 時代重新定義’開源’的含義。Open Source Initiative (OSI),作為開源定義的長期管理者,率先發起了一個全球諮詢過程,旨在為開源 AI 建立明確的標準(產生了 OSAID 1.0 定義)。

這項努力中的一個關鍵創新是**’數據信息’ (data information)** 的概念。認識到在某些情況下發布海量原始數據集可能在法律上或後勤上不可行(由於隱私、版權或純粹的規模),OSAID 框架強調需要關於數據的全面披露。這包括以下細節:

  • 來源 (Sources): 數據來自哪裡?
  • 特徵 (Characteristics): 它是什麼類型的數據(文本、圖像、代碼)?它的統計特性是什麼?
  • 準備 (Preparation): 數據是如何收集、過濾、清理和預處理的?採取了哪些措施來減輕偏見?

這種透明度水平,即使沒有原始數據本身,也為研究人員提供了理解模型可能的能力、局限性和潛在偏見的關鍵背景。它代表了一種務實的妥協,在現有約束條件下推動最大程度的透明度。與 OSI 一道,像 Open Future 這樣的組織正在倡導向更廣泛的**’數據共享’ (data-commons)** 模式轉變,探索創建共享的、符合倫理的、可公開訪問的 AI 訓練數據集的方法,進一步降低進入壁壘並促進協作開發。建立並遵守這樣清晰的、經社群審查的標準,是驅散’開放清洗’迷霧的必要第一步。

研究社群的當務之急

科學家和研究人員不僅僅是 AI 工具的消費者;他們是確保這些工具符合科學價值觀的關鍵利益相關者。積極參與不斷發展的定義和標準,例如 OSAID 1.0,至關重要。但行動必須超越僅僅意識到:

  • 要求透明度: 在出版物、研究資助申請和工具選擇中,研究人員應優先考慮並要求他們使用的 AI 模型具有更高的透明度。這包括推動模型發布時附帶詳細的’數據信息’卡或數據表。
  • 支持真正的開放: 積極貢獻、利用並引用像 OLMo 或其他表現出真正致力於發布代碼、數據和方法的倡議。用下載量和引用來投票,發出強烈的市場信號。
  • 制定評估標準: 社群需要穩健的方法和檢查清單來評估 AI 模型的開放程度,超越簡單化的標籤。同行評審過程應納入對研究中使用的 AI 工具相關透明度聲明的審查。
  • 在機構內倡導: 鼓勵大學、研究機構和專業學會採納有利於或要求使用真正開放和透明的 AI 工具和平台的政策。

科學社群擁有相當大的影響力。通過集體堅持維護可重現性、透明度和協作訪問的標準,研究人員可以抵制誤導性的聲明,並幫助塑造一個有利於嚴謹科學發現的 AI 生態系統。

政策、資助與前進之路

政府和公共資助機構在塑造 AI 格局方面也擁有巨大的權力。他們的政策既可能默許’開放清洗’,也可能積極推動真正的開放。

  • 開放性強制要求: 像美國國立衛生研究院 (NIH) 這樣的機構已經有要求對其資助的研究進行開放許可和數據共享的規定。將類似原則擴展到用公共資金開發的 AI 模型和數據集是一個合乎邏輯且必要的步驟。如果公共資金支持 AI 開發,其成果應在最大程度上公開可訪問和可驗證。
  • 採購力量: 政府機構是技術的主要消費者。通過在公共採購合同中規定真正的開源 AI 要求(遵守像 OSAID 這樣的標準),政府可以為公司採用更透明的做法創造重要的市場激勵。意大利要求公共行政部門使用開源軟件提供了一個潛在的模板。
  • 投資開放基礎設施: 除了監管之外,對’數據共享’ (data commons) 倡議、為研究人員提供的開放計算資源以及致力於託管和評估真正開放 AI 模型的平台的公共投資可能是變革性的。這有助於創造公平的競爭環境,並為專有或半開放系統提供可行的替代方案。
  • 全球合作: 鑑於 AI 開發的全球性,就定義和推廣開源 AI 標準進行國際合作對於避免監管碎片化和確保全球範圍內透明度和問責制的基線一致性至關重要。

政策槓桿,如果運用得當,可以顯著地將激勵從欺騙性標籤轉向真正支持科學誠信和廣泛創新的實踐。打擊 AI 領域’開源’幻覺的鬥爭需要協同努力。研究人員必須是警惕的批評者,要求科學嚴謹性所必需的透明度。像 OSI 這樣的標準制定機構必須繼續完善反映 AI 獨特性的定義。而政策制定者必須利用他們的影響力來激勵和強制執行符合公眾利益的、可驗證的、值得信賴的和可訪問的人工智慧實踐。AI 在科學領域的未來軌跡——無論是成為一個真正開放的發現前沿,還是一個由不透明的企業系統主導的景觀——正懸而未決。