貶低基礎概念:’開源’的侵蝕
‘開源’ (open source) 一詞曾是科技與科學領域的燈塔。它代表著一種強大的精神,植根於透明度、無限制的存取、協作改進以及可重複性的基本原則。對於數代的研發人員與開發者而言,它象徵著對共享知識和集體進步的承諾。從 R Studio 等環境中賦予跨學科無數分析能力的基礎統計工具,到用於解開流體動力學複雜性的 OpenFOAM 等精密模擬平台,開源軟體一直是創新的不可或缺的催化劑。它透過允許全球科學家檢視、驗證、修改並在彼此的工作基礎上進行建構,加速了發現的過程,確保研究結果可以被複製和驗證——這正是科學方法的基石。
然而,如今一片陰影籠罩著這個值得信賴的稱號,這片陰影來自蓬勃發展的人工智慧領域。正如近期包括《Nature》等刊物所指出的批判性討論中所強調的,一個令人擔憂的趨勢已經出現:著名的人工智慧開發者為其模型貼上 ‘open source’ 標籤,卻同時隱藏了實現真正開放性所必需的關鍵組件。這種做法有可能稀釋該術語的含義,將其從透明度的象徵轉變為可能具有誤導性的行銷口號。核心問題往往在於現代 AI 系統的獨特性質。與傳統軟體中原始碼至關重要不同,大型 AI 模型的力量和行為與其訓練所用的龐大數據集以及定義它們的複雜架構密不可分。當對這些訓練數據或關於模型建構和權重的詳細資訊的存取受到限制時,無論模型的某些程式碼部分是否公開,聲稱 ‘open source’ 都顯得空洞。這種差異直擊開源哲學的核心,製造了一種可及性的假象,同時掩蓋了獨立審查和複製最為關鍵的元素。
科學 AI 真正開放性的必要性
維持 AI 領域真正開放性的利害關係,尤其是在科學領域內,是極其重大的。科學的繁榮依賴於獨立驗證結果、理解方法論以及在先前工作基礎上進行建構的能力。當工具本身——日益複雜的 AI 模型——變成黑盒子時,這個基本過程就受到了威脅。依賴那些內部運作、訓練數據偏見或潛在失敗模式不透明的 AI 系統,會給研究帶來不可接受的不確定性。如果影響 AI 輸出的因素未知或無法驗證,科學家如何能自信地將結論建立在該輸出之上?社群如何能信任那些無法獨立審計或複製的專有系統所產生的發現?
科學領域開源軟體的歷史成功提供了一個鮮明的對比和明確的基準。傳統開源專案固有的透明度培養了信任,並促成了穩健的同儕審查。研究人員可以檢查演算法,理解其局限性,並根據特定需求進行調整。這個協作生態系統加速了從生物資訊學到天文物理學等領域的進步。AI 徹底改變科學發現的潛力是巨大的,有望以前所未有的規模分析複雜數據集、生成假說和模擬錯綜複雜的過程。然而,實現這一潛力取決於維持一直以來支撐科學進步的相同透明度和可重複性原則。轉向封閉的、專有的 AI 系統,即使是那些偽裝成 ‘open’ 的系統,也可能分裂研究社群,阻礙協作,並最終透過設置理解和驗證的障礙來減緩發現的步伐。科學事業需要的工具不僅要強大,而且要透明且值得信賴。
數據難題:AI 的透明度挑戰
在 AI 領域關於 ‘open source’ 的爭論核心,是訓練數據的關鍵問題。與主要由其程式碼定義的傳統軟體不同,大型語言模型 (LLMs) 和其他基礎 AI 系統基本上是由它們在開發過程中吸收的龐大數據集所塑造的。這些數據的特性、偏見和來源深刻地影響著模型的行為、能力及其潛在的局限性。因此,AI 的真正開放性需要對這些數據達到一定程度的透明度,這遠遠超出了僅僅發布模型權重或推論程式碼的範疇。
目前許多以 ‘open source’ 名義銷售的模型在這方面顯然不足。考慮一些著名的例子,如 Meta 的 Llama 系列、Microsoft 的 Phi-2 或 Mistral AI 的 Mixtral。雖然這些公司發布了某些組件,允許開發者運行或微調模型,但它們通常對底層的訓練數據施加重大限制或提供極少的細節。所涉及的數據集可能極其龐大、是專有的、未經仔細整理便從網路上抓取,或受到授權限制,使得完全公開發布變得困難或不可能。然而,如果缺乏關於以下方面的全面資訊:
- 數據來源 (Data Sources): 資訊來自何處?主要是文本、圖像還是程式碼?來自哪些網站、書籍或數據庫?
- 數據整理 (Data Curation): 數據是如何被過濾、清理和處理的?使用了哪些標準來包含或排除資訊?
- 數據特性 (Data Characteristics): 數據中已知的偏見是什麼(例如,人口統計學、文化、語言)?它涵蓋了哪個時間段?
- 預處理步驟 (Preprocessing Steps): 在訓練前對數據應用了哪些轉換?
…獨立研究人員將極難完全理解模型的行為、複製其開發過程,或批判性地評估其潛在的偏見和失敗點。這種數據透明度的缺乏是當前許多 ‘open source’ AI 發布未能達到軟體世界所建立的真正開放精神(如果不是字面意義的話)的主要原因。相比之下,像 Allen Institute for AI 的 OLMo 模型或社群驅動的努力,如 LLM360 的 CrystalCoder,則做出了更協調一致的努力,在其數據和訓練方法方面提供了更大的透明度,設定了一個更符合傳統開源價值觀的更高標準。
‘開放洗白’ (Openwashing):策略性標籤或規避監管?
那些未能完全擁抱 ‘open source’ 原則的實體挪用該標籤的行為,引發了對**’開放洗白’ (openwashing)** 的擔憂。這個術語描述了利用開放性的正面內涵來獲取公共關係利益或策略優勢,卻沒有承諾相應的透明度和可及性水平的做法。為什麼公司會這樣做?可能有幾個因素在起作用。’open source’ 品牌帶有顯著的商譽,暗示著對社群和共享進步的承諾,這對開發者和客戶都可能具有吸引力。
此外,正如《Nature》和其他觀察者所指出的,監管環境可能無意中鼓勵了這種行為。歐盟於 2024 年最終確定的里程碑式的 AI 法案 (AI Act) 包含對高風險和通用 AI 系統施加更嚴格要求的條款。然而,它也包含了對根據開源授權發布的 AI 模型可能存在的豁免或較輕的要求。這就創造了一個潛在的漏洞,公司可能會策略性地將其模型標記為 ‘open source’——即使像訓練數據這樣的關鍵組件仍然受到限制——其目的就是為了規避監管障礙,避免更嚴格的合規義務。
這種潛在的監管套利令人深感擔憂。如果 ‘openwashing’ 允許強大的 AI 系統繞過旨在確保安全、公平和問責制的審查,它就破壞了監管的根本目的。這也將科學界置於一個不穩定的境地。研究人員可能會因為這些名義上 ‘open’ 的系統相較於完全封閉的商業產品更易於獲取而被吸引,結果卻發現自己依賴於那些方法論仍然不透明且無法驗證的工具。這種依賴性有可能損害科學誠信,使得確保研究可重複、無偏見且建立在堅實、可理解的基礎上變得更加困難。一個熟悉標籤的誘惑可能掩蓋了阻礙真正科學探究的潛在限制。
為 AI 時代重新定義開放性:OSAID 框架
認識到傳統的開源定義不足以應對 AI 帶來的獨特挑戰,Open Source Initiative (OSI)——一個長期以來開源原則的守護者——已經啟動了一項關鍵的全球性努力。他們的目標是建立一個專門為人工智慧量身定制的清晰、穩健的定義:Open Source AI Definition (OSAID 1.0)。這項倡議代表了在 AI 背景下重新奪回 ‘open’ 意義的關鍵一步,並為透明度和問責制設定了明確的標準。
擬議的 OSAID 框架內的一個關鍵創新是**’數據資訊’ (data information)** 的概念。承認完全發布龐大的訓練數據集往往由於隱私問題、版權限制或純粹的規模而不可行或法律禁止,OSAID 著重於強制要求關於數據的全面披露。這包括要求開發者提供關於以下方面的詳細資訊:
- 來源與構成 (Sources and Composition): 清晰地標識訓練數據的來源。
- 特性 (Characteristics): 記錄數據中已知的特徵、局限性和潛在偏見。
- 準備方法 (Preparation Methods): 解釋用於清理、過濾和準備數據以供訓練的過程。
即使原始數據無法共享,提供這些元數據也能讓研究人員和審計人員獲得對塑造 AI 模型因素的關鍵洞察。它有助於更好地理解潛在偏見,實現更明智的風險評估,並為嘗試複製或進行比較研究提供了基礎。
除了數據資訊,OSI 的努力,以及像 Open Future 這樣的組織的倡導,推動了向更廣泛的**’數據共享’ (data-commons) 模型**的轉變。這設想了一個未來,即用於 AI 訓練的基本數據集能夠更公開、更公平地被整理和提供,從而為 AI 開發,特別是在研究社群內,培養一個更透明、更協作的生態系統。OSAID 定義旨在提供一個清晰的基準,用以評估 AI 系統,超越膚淺的標籤,評估其對開放性的真正承諾。
集體責任:推動真正的 AI 透明度
確保 AI 真正開放性的挑戰不能僅靠定義來解決;它需要多方利益相關者的協同行動。科學界作為精密 AI 工具的開發者和主要使用者,肩負著重大責任。研究人員必須積極參與像 OSAID 1.0 這樣的倡議,理解其原則並倡導其採用。他們需要批判性地評估他們考慮使用的 AI 模型的 ‘開放性’ 聲明,優先選擇那些在訓練數據和方法論方面提供更大透明度的模型,即使這意味著要抵制那些看似方便但不透明的系統的誘惑。在出版物、會議和機構討論中,表達對可驗證、可重複 AI 工具的需求至關重要。
公共資助機構和政府機構也扮演著關鍵角色。它們透過撥款要求和採購政策施加相當大的影響力。像美國國家衛生研究院 (US National Institutes of Health, NIH) 這樣已經強制要求對其資助產生的研究數據進行開放授權的機構,提供了一個寶貴的先例。同樣,像義大利要求公共行政機構優先考慮開源軟體的例子,也展示了政策如何推動採用。這些原則可以而且應該擴展到 AI 領域。政府和資助機構應考慮:
- 強制要求公共資助的 AI 研發遵循穩健的 Open Source AI 標準(如 OSAID)。
- 投資創建真正開放、高質量的數據集——一個 ‘數據共享’ (data commons)——適合訓練以研究為重點的 AI 模型。
- 確保像歐盟 AI 法案 (EU AI Act) 這樣的法規在實施時能夠防止 ‘openwashing’,並使所有強大的 AI 系統都承擔責任,無論其授權聲明如何。
歸根結底,保障 AI 在研究領域的未來需要一個統一戰線。科學家必須要求透明度,機構必須實施優先考慮真正開放性的政策,而監管機構必須確保 ‘open source’ 標籤意味著對問責制的有意義承諾,而不是一個方便的逃生口。沒有這些集體的努力,AI 在科學發現方面的巨大潛力就有可能被一個由封閉、專有系統主導的格局所損害,從根本上破壞科學進步本身的協作和可驗證性質。未來研究的誠信正懸而未決。