調整的假象
微調和檢索增強生成(RAG)通常被認為是增強預訓練AI模型知識和能力的成熟方法。然而,Aleph Alpha 的 CEO Jonas Andrulis 指出,現實情況更加複雜。
「一年前,人們普遍認為微調是一種神奇的解決方案。如果 AI 系統的表現不如預期,答案就是簡單地進行微調。但事情並非如此簡單,」他解釋道。
雖然微調可以修改模型的風格或行為,但它並不是教授新資訊最有效的方法。期望僅靠微調就能解決所有 AI 應用問題是一種誤解。
RAG:另一種途徑
RAG 提供了一種替代方案,其功能就像一位圖書館員,從外部檔案庫中檢索資訊。這種方法允許更新和更改資料庫中的資訊,而無需重新訓練或微調模型。此外,生成的結果可以被引用和審計,以確保準確性。
「特定的知識應該始終被記錄下來,而不是儲存在 LLM 的參數中,」Andrulis 強調。
雖然 RAG 提供了許多好處,但它的成功取決於關鍵流程、程序和機構知識的正確記錄,並以模型可以理解的格式呈現。不幸的是,情況往往並非如此。
即使文檔存在,如果文檔或流程依賴於超出分佈範圍的數據(即與用於訓練基礎模型的數據顯著不同的數據),企業也可能會遇到問題。例如,一個僅在英語數據集上訓練的模型將難以處理德語文檔,特別是如果它包含科學公式。在許多情況下,模型可能根本無法解釋數據。
因此,Andrulis 建議,通常需要結合微調和 RAG 才能獲得有意義的結果。這種混合方法利用了兩種方法的優勢,以克服它們各自的局限性。
彌合差距
Aleph Alpha 旨在通過解決阻止企業和國家開發自己的主權 AI 的挑戰,將自己定位為歐洲的 DeepMind。
主權 AI 指的是使用一個國家內部數據集,在該國境內構建或部署的硬體上訓練或微調的模型。這種方法確保了數據隱私、安全和控制,這對於許多組織和政府至關重要。
「我們努力成為企業和政府構建自己的主權 AI 戰略的作業系統和基礎,」Andrulis 說。「我們的目標是在必要時進行創新,同時在可能的情況下利用開源和最先進的技術。」
雖然這偶爾涉及訓練模型,例如 Aleph 的 Pharia-1-LLM,但 Andrulis 強調,他們並不是試圖複製現有的模型,如 Llama 或 DeepSeek。他們的重點是創建獨特的解決方案,以解決特定的挑戰。
「我總是引導我們的研究專注於有意義的不同事物,而不僅僅是複製其他人正在做的事情,因為這些已經存在了,」Andrulis 說。「我們不需要構建另一個 Llama 或 DeepSeek,因為它們已經存在了。」
相反,Aleph Alpha 專注於構建簡化和精簡這些技術採用的框架。最近的一個例子是他們新的無分詞器或「T-Free」訓練架構,旨在更有效地微調可以理解超出分佈範圍數據的模型。
傳統的基於分詞器的方法通常需要大量的超出分佈範圍的數據才能有效地微調模型。這在計算上是昂貴的,並且假設有足夠的數據可用。
Aleph Alpha 的 T-Free 架構通過消除分詞器來繞過這個問題。在芬蘭語的 Pharia LLM 上的早期測試表明,與基於分詞器的方法相比,訓練成本和碳足跡減少了 70%。這種創新方法使微調更易於訪問和更具可持續性。
Aleph Alpha 還開發了工具來解決記錄知識中的差距,這些差距可能導致不準確或無益的結論。
例如,如果與合規性問題相關的兩份合同相互矛盾,「系統可以接近人並說,’我發現了一個差異……請您提供反饋,說明這是否是一個實際的衝突?’」Andrulis 解釋說。
通過這個名為 Pharia Catch 的框架收集的資訊可以反饋到應用程序的知識庫中,或用於微調更有效的模型。這種反饋迴路隨著時間的推移提高了 AI 系統的準確性和可靠性。
根據 Andrulis 的說法,這些工具吸引了 PwC、Deloitte、Capgemini 和 Supra 等合作夥伴,他們與最終客戶合作實施 Aleph Alpha 的技術。這些合作夥伴關係證明了 Aleph Alpha 的解決方案在現實應用中的價值和實用性。
硬體因素
軟體和數據並不是主權 AI 採用者面臨的唯一挑戰。硬體是另一個關鍵考慮因素。
不同的企業和國家可能有特定的要求,需要在國內開發的硬體上運行,或者可能只是規定工作負載可以在哪裡運行。這些限制會顯著影響硬體和基礎設施的選擇。
這意味著 Andrulis 和他的團隊必須支持各種硬體選項。Aleph Alpha 吸引了一群不拘一格的硬體合作夥伴,包括 AMD、Graphcore 和 Cerebras。
上個月,Aleph Alpha 宣布與 AMD 合作,使用其 MI300 系列加速器。這次合作將利用 AMD 的先進硬體來加速 AI 訓練和推理。
Andrulis 還強調了與 Softbank 收購的 Graphcore 以及 Cerebras 的合作,後者的 CS-3 晶圓級加速器用於訓練德國武裝部隊的 AI 模型。這些合作夥伴關係證明了 Aleph Alpha 致力於與不同的硬體供應商合作,以滿足其客戶的特定需求。
儘管有這些合作,Andrulis 堅持認為 Aleph Alpha 的目標不是成為託管服務或雲端供應商。「我們永遠不會成為雲端供應商,」他說。「我希望我的客戶是自由的,並且不受鎖定。」這種對客戶自由和靈活性的承諾使 Aleph Alpha 與許多其他 AI 公司區分開來。
前進的道路:日益複雜
展望未來,Andrulis 預計,隨著行業從聊天機器人轉向能夠進行更複雜問題解決的代理 AI 系統,構建 AI 應用程序將變得更加複雜。
代理 AI 在過去一年中受到了廣泛關注,模型構建者、軟體開發人員和硬體供應商承諾提供可以異步完成多步驟流程的系統。早期的例子包括 OpenAI 的 Operator 和 Anthropic 的電腦使用 API。這些代理 AI 系統代表了 AI 能力的重大進步。
「去年,我們主要關注文檔摘要或寫作輔助等簡單任務,」他說。「現在,隨著一些乍一看甚至不像是 genAI 問題的事情,用戶體驗不是聊天機器人,這變得更加令人興奮。」這種向更複雜和集成 AI 應用程序的轉變為行業帶來了新的挑戰和機遇。
構建企業 AI 應用程序的關鍵挑戰:
- 彌合模型訓練和應用程序集成之間的差距: 有效地將 LLM 的能力轉化為實際應用仍然是一個重要的障礙。
- 克服微調的局限性: 僅靠微調通常不足以教導 AI 模型新的資訊或使它們適應特定任務。
- 確保數據的質量和可訪問性: RAG 依賴於記錄良好且易於訪問的數據,而這在許多組織中通常是缺乏的。
- 處理超出分佈範圍的數據: AI 模型必須能夠處理與它們訓練的數據不同的數據,這需要專門的技術。
- 解決硬體限制: 不同的企業和國家有不同的硬體要求,必須加以考慮。
- 維護數據隱私和安全: 主權 AI 需要確保數據在一個國家境內安全地處理和存儲。
- 開發代理 AI 系統: 構建可以異步執行複雜多步驟流程的 AI 應用程序是一個具有挑戰性但很有希望的研究領域。
構建企業 AI 應用程序的關鍵機遇:
- 開發創新的 AI 解決方案: 構建企業 AI 應用程序的挑戰為開發解決特定需求的創新解決方案創造了機會。
- 利用開源技術: 開源技術可以幫助降低成本並加速 AI 應用程序的開發。
- 與硬體合作夥伴合作: 與硬體合作夥伴合作可以幫助確保 AI 應用程序針對特定硬體平台進行了優化。
- 構建主權 AI 能力: 主權 AI 可以為國家和組織提供對其數據和 AI 基礎設施的更大控制權。
- 通過 AI 轉型行業: AI 有潛力通過自動化任務、改進決策制定以及創建新產品和服務來轉型行業。
企業 AI 應用程序的未來:
企業 AI 應用程序的未來可能具有以下特徵:
- 日益複雜: AI 應用程序將變得更加複雜和集成,需要專業的知識和工具。
- 更加關注數據質量: 隨著 AI 應用程序依賴於準確可靠的數據,數據質量將變得越來越重要。
- 更加強調安全和隱私: 隨著 AI 應用程序處理敏感數據,安全和隱私將至關重要。
- 更廣泛地採用代理 AI: 隨著組織尋求自動化複雜任務,代理 AI 系統將變得更加普遍。
- 持續創新: AI 領域將繼續快速發展,從而帶來新的突破和機遇。
通過應對挑戰並抓住機遇,組織可以利用 AI 的力量來轉型其業務並創造更美好的未來。