開放性的侵蝕:為何'開源'AI常名不副實及其風險

‘開源’(open source)一詞在科技界具有強大的共鳴。它喚起了協作創新、知識共享以及對透明度基本信念的想像。半個世紀前,加州 Menlo Park 的 Homebrew Computer Club 的成立生動地體現了這種精神。這個由愛好者和修補匠組成的團體不僅製造機器;他們建立了一種基於自由交流思想和軟體的文化,為將徹底改變計算的開源運動奠定了基石。然而,今天,這來之不易的遺產和開放性的定義本身正受到一種微妙但重大的挑戰,尤其是在快速擴展的人工智慧(artificial intelligence)領域。越來越多的開發複雜 AI 模型的公司急於將其創作標榜為’開源’,但仔細觀察會發現,這個標籤往往只是表面功夫,掩蓋了與該運動核心原則相去甚遠的現實。這種意義的稀釋不僅僅是語義上的爭論;它對透明度和可複製性原則構成了真正的威脅,而這些原則在科學界尤為重要。

理解真正的開放協作精神

要理解當前的困境,首先必須領會’開源’的真正含義。它不僅僅是免費軟體;它是一種植根於集體進步和可驗證信任的哲學。這種哲學的基石在於四項基本自由

  1. 為任何目的運行程式的自由
  2. 研究程式如何運作並修改它以滿足您計算需求的自由。獲取原始碼是此項自由的前提。
  3. 重新分發副本以幫助他人的自由
  4. 將您修改過的版本副本分發給他人的自由。通過這樣做,您可以讓整個社群有機會從您的更改中受益。獲取原始碼是此項自由的前提。

這些自由,通常體現在諸如 GNU General Public License (GPL)、MIT License 或 Apache License 等授權條款中,歷史上一直以原始碼(source code)為中心。原始碼——由程式設計師編寫的人類可讀指令——是傳統軟體的藍圖。公開提供這些程式碼允許任何人檢查它、理解其邏輯、識別潛在缺陷、使其適應新需求,並分享這些改進。

這種模式一直是創新和科學進步的非凡催化劑。考慮一下全球研究人員隨手可得的工具所帶來的影響:

  • 統計分析:像 R Studio 這樣的軟體提供了一個強大、透明且可擴展的統計計算和圖形環境,成為無數科學領域數據分析的基石。其開放性允許對方法進行同行評審和開發專門的套件。
  • 計算流體動力學OpenFOAM 提供了一個用於模擬流體流動的複雜函式庫,這在從航空航太工程到環境科學等領域至關重要。其開放性使得能夠自訂和驗證複雜的模擬。
  • 作業系統Linux 和其他開源作業系統構成了世界上大部分計算基礎設施的骨幹,包括科學高性能計算集群,因其穩定性、靈活性和透明度而備受重視。

其益處遠不止節省成本。開源促進了可複製性(reproducibility),這是科學方法的基石。當研究中使用的工具和程式碼是開放的時,其他科學家可以複製實驗、驗證結果,並充滿信心地在該工作基礎上繼續發展。它促進了全球協作,打破壁壘,讓來自不同背景和機構的研究人員能夠為共同的挑戰做出貢獻。它確保了長期可用性並避免供應商鎖定(vendor lock-in),保護研究投資免受專有軟體公司一時興起的影響。它通過允許新思想和技術的快速傳播和迭代來加速發現。開源精神從根本上與科學通過透明度、審查和共享進步來追求知識的目標相一致。

人工智慧:截然不同的野獸

建立在原始碼可訪問性基礎上的既定開源範式,在應用於人工智慧領域,特別是像基礎大型語言模型(LLMs)這樣的大規模模型時,遇到了顯著的動盪。雖然這些 AI 系統當然涉及程式碼,但它們的功能和行為是由更複雜且往往不透明的元素塑造的。僅僅發布神經網路的架構程式碼,並不等同於傳統軟體那樣的真正開放性。

一個 AI 模型,特別是深度學習模型,通常由幾個關鍵要素組成:

  1. 模型架構(Model Architecture):這是神經網路的結構設計——層、神經元和連接的排列方式。公司通常確實會發布這些資訊,並將其作為開放性的證據。這類似於分享引擎的藍圖。
  2. 模型權重(Model Weights / Parameters):這些是網路內部在訓練過程中調整過的數值,通常有數十億個。它們代表了從訓練數據中提取的學習到的模式和知識。發布權重允許其他人使用預訓練模型。這就像提供了完全組裝好的引擎,隨時可以運行。
  3. 訓練數據(Training Data):這也許是最關鍵且最常被遮掩的組件。基礎模型是在龐大的數據集上訓練的,這些數據集通常是從網路上抓取的,或是來自專有或私人收藏(如可能引發重大隱私擔憂的醫療記錄)。這些數據的組成、策劃、過濾以及潛在的偏見,深刻影響著模型的能力、局限性和道德行為。沒有關於訓練數據的詳細資訊,要理解模型為何會這樣表現,或評估其對特定應用的適用性和安全性,變得極其困難。這是秘密的燃料混合物以及引擎磨合時的精確條件。
  4. 訓練程式碼與過程(Training Code and Process):這包括用於訓練的具體演算法、優化技術、選擇的超參數(控制學習過程的設置)、使用的計算基礎設施以及消耗的大量能源。訓練過程中的微小變化可能導致不同的模型行為,即使架構和數據已知,也使得可複製性具有挑戰性。這代表了用於建造和調校引擎的詳細工程規格、工具和工廠條件。

目前許多被標榜為’開源’ AI 的系統主要提供對模型架構和預訓練權重的訪問。雖然這允許用戶運行模型,或許還可以在較小的數據集上進行微調,但它關鍵地未能提供關於訓練數據和過程的必要透明度。這嚴重限制了真正研究模型基本屬性或以需要重新訓練或理解其起源的深度有意義方式修改它的能力。研究和修改的自由,作為開源定義的核心,在數據和訓練方法論等關鍵元素仍然隱藏時,受到了顯著阻礙。從頭開始複製模型的創建——科學理解和驗證的關鍵測試——變得幾乎不可能。

AI領域令人不安的’開放洗白’趨勢

標籤與現實之間的這種差距催生了一種被稱為**’開放洗白’(openwashing)**的做法。這個術語描述了公司利用’開源’的良好聲譽和感知到的好處來進行市場行銷和獲取戰略優勢,同時卻扣留對關鍵組件(如詳細的訓練數據資訊或用於訓練本身的程式碼)的訪問權。他們用開放的語言掩蓋其系統,卻沒有完全擁抱其對透明度和社群訪問的嚴格要求。

幾個著名的 AI 模型,儘管被廣泛使用,有時還帶有’開放’的標籤,但若以 Open Source Initiative (OSI) 等組織倡導的開源綜合定義來衡量,則顯得不足。OSI 自 2022 年以來一直致力於釐清 AI 背景下開源的含義,其分析強調了對幾個流行模型的擔憂:

  • Llama 2 & Llama 3.x (Meta):雖然模型權重和架構可用,但使用限制以及關於完整訓練數據集和過程的不完全透明度,限制了它們與傳統開源價值觀的一致性。
  • Grok (X):類似地,雖然已提供,但缺乏關於其訓練數據和方法論的全面資訊,引發了對其真正開放性的質疑。
  • Phi-2 (Microsoft):常被描述為’開放模型’,但關於其創建過程和數據的完全透明度仍然有限。
  • Mixtral (Mistral AI):雖然部分已發布,但由於在訪問所有必要組件以供研究和修改方面存在限制,它不符合開源的全部標準。

這些例子與那些努力更嚴格遵守開源原則的努力形成對比:

  • OLMo (Allen Institute for AI):由非營利研究機構開發,OLMo 在設計時明確考慮了開放性,不僅發布了權重,還發布了訓練程式碼和所用數據的詳細資訊。
  • LLM360 的 CrystalCoder:一個社群驅動的專案,旨在實現模型整個生命週期的完全透明,包括數據、訓練程序和評估指標。

為何要進行’開放洗白’?動機是多方面的:

  1. 市場行銷與觀感:’開源’標籤帶有顯著的商譽。它暗示著協作、道德實踐以及對更廣泛社群的承諾,這可以吸引用戶、開發者和正面的媒體報導。
  2. 生態系統建設:即使沒有完全透明,發布模型權重也能鼓勵開發者在 AI 系統之上構建應用程式,從而可能創建一個有利於原始公司的依賴性生態系統。
  3. 監管套利:這是一個特別令人擔憂的驅動因素。即將出台的法規,例如歐盟的 AI 法案(European Union’s AI Act, 2024),預計將對某些高風險 AI 系統施加更嚴格的要求。然而,對於’自由和開源軟體’,通常會提議豁免或較輕的審查。通過貼上’開源’標籤——即使根據既定定義並不準確——公司可能希望更容易地規避這些法規,避免與專有的、高風險系統相關的潛在昂貴合規負擔。這種策略性標籤利用了一個潛在的漏洞,破壞了法規確保安全和透明度的意圖。

這種做法最終貶低了’開源’一詞的價值並造成混淆,使得用戶、開發者和研究人員更難辨別哪些 AI 系統真正提供了該標籤所暗示的透明度和自由。

為何真正的開放性對科學迫在眉睫

對於科學界來說,這場辯論的利害關係異常重大。科學的繁榮依賴於透明度、可複製性以及獨立驗證的能力。AI 日益融入研究——從分析基因組數據、模擬氣候變化到發現新材料和理解複雜的生物系統——使得這些 AI 工具的性質變得至關重要。依賴’黑盒子’ AI 系統,或那些偽裝開放卻未提供真正透明度的系統,會帶來深遠的風險:

  • 損害可複製性:如果研究人員無法訪問或理解研究中使用的 AI 模型的訓練數據和方法論,複製結果就變得不可能。這從根本上破壞了科學方法的核心支柱之一。如果發現無法被獨立驗證,如何信任或在其基礎上繼續發展?
  • 隱藏的偏見與局限性:所有 AI 模型都繼承了其訓練數據和設計選擇中的偏見。沒有透明度,研究人員無法充分評估這些偏見或理解模型的局限性。在不知情的情況下使用有偏見的模型可能導致結果偏差、結論錯誤,甚至可能產生有害的現實後果,尤其是在醫學研究或社會科學等敏感領域。
  • 缺乏審查:不透明的模型逃避了嚴格的同行評審。科學界無法充分審問模型的內部運作、識別其邏輯中的潛在錯誤,或理解與其預測相關的不確定性。這阻礙了科學探究的自我修正特性。
  • 對企業系統的依賴:依賴由企業控制的封閉或半封閉 AI 系統會產生依賴性。研究議程可能會受到可用企業工具的能力和局限性的微妙影響,訪問權限可能受到限制或變得昂貴,從而可能扼殺獨立的研究方向,並擴大資金充足的機構與其他機構之間的差距。
  • 扼殺創新:真正的開源不僅允許研究人員使用工具,還允許他們剖析、修改、改進和重新利用這些工具。如果 AI 模型的關鍵組件仍然無法訪問,這條重要的創新途徑就會被阻塞。科學家們被阻止嘗試新穎的訓練技術、探索不同的數據組合,或為原始開發者未預料到的特定、細緻的研究問題調整模型。

科學界不能被動地接受’開源’一詞的稀釋。它必須積極倡導清晰度,並要求 AI 開發者提供真正的透明度,尤其是在研究環境中使用這些工具時。這包括:

  • 推廣明確標準:支持像 OSI 那樣的努力,為構成’開源 AI’的內容建立清晰、嚴格的定義,這些定義應涵蓋架構、權重、訓練數據和訓練過程的透明度。
  • 優先考慮可驗證工具:傾向於使用符合這些高透明度標準的 AI 模型和平台,即使它們最初性能較差或比現成的不透明替代方案需要更多努力。
  • 要求透明度:堅持涉及 AI 的出版物應包含有關所用模型的詳細披露,包括關於訓練數據來源、處理、潛在偏見以及訓練方法論的全面資訊。
  • 支持真正開放的專案:為致力於 AI 開發真正開放性的社群驅動專案和機構倡議做出貢獻並加以利用。

Homebrew Computer Club 的精神——知識共享和協作建設的精神——對於負責任地應對 AI 時代的複雜性至關重要。為人工智慧重新奪回並捍衛’開源’的真正含義,不僅僅關乎術語的純潔性;它關乎在一個日益由 AI 驅動的世界中,維護科學本身的完整性、可複製性和持續進步。前進的道路需要警惕和集體承諾,以確保強大的 AI 工具的開發和部署方式符合幾個世紀以來一直為科學服務的開放探究原則。