鴻海進軍繁中LLM:FoxBrain問世

迅速崛起:高效訓練與在地化專業知識

FoxBrain 的開發是一個展現卓越效率的故事。僅僅四周,鴻海團隊就將這個複雜的 LLM 實現。這種快速的開發週期強調了一種策略性方法,專注於優化訓練過程,而不是單純地投入計算能力。鴻海研究院 AI 研究所所長栗永徽博士強調了這一點,他說:「我們的 FoxBrain 模型採用了一種非常有效的訓練策略,專注於優化訓練過程,而不是盲目地累積計算能力。」

這種效率並非以犧牲能力為代價。FoxBrain 專為繁體中文的細微差別而設計,展示了針對本地語言模式優化的強大推理能力。這種對在地化的關注至關重要,使模型能夠理解和回應語言的複雜性,這是通用模型可能難以做到的。

超越內部應用:開源願景

雖然最初的構想是為了簡化鴻海的內部營運,包括數據分析、決策支援、文件協作,甚至程式碼生成等任務。它專為數學、推理和解決問題而設計。FoxBrain 的命運遠遠超出了公司的範圍。鴻海已大膽宣布其將該模型作為開源技術發布的意圖。此舉旨在普及先進 AI 功能,使台灣乃至其他地區的開發人員和研究人員能夠利用 FoxBrain 的潛力。

這種對開源的承諾與 AI 社群的更廣泛趨勢一致,認識到協作和共享知識是創新的關鍵驅動力。通過向更廣泛的社群提供 FoxBrain,鴻海不僅為 AI 的進步做出了貢獻,而且還培養了共享進步的精神。

合作的力量:利用 Nvidia 的專業知識

FoxBrain 的創建是一項協作努力,Nvidia 發揮了關鍵作用。訓練過程利用了 120 個 Nvidia H100 GPU 的強大功能,這些 GPU 通過 Nvidia 的 Quantum-2 InfiniBand 網路技術互連。這種設置實現了高速數據傳輸,這是有效訓練這種規模模型的關鍵因素。

Nvidia 的支持不僅限於提供硬體。該公司的 Taipei-1 超級電腦設施和技術諮詢在使鴻海能夠利用 Nvidia 的 NeMo 框架方面發揮了重要作用,NeMo 框架是一個用於構建和定制 AI 模型的強大工具包。這種夥伴關係體現了硬體和軟體專業知識之間的協同作用,突出了協作在推動 AI 開發邊界方面的重要性。

建立在堅實的基礎上:Llama 3.1 架構

FoxBrain 的架構植根於 Meta 的 Llama 3.1,證明了開源協作的力量。這個基礎提供了一個強大且經過充分測試的框架,包含驚人的 700 億個參數。這些參數是 AI 系統在從數據中學習時微調的可調整值,代表了模型累積的知識。

選擇 Llama 3.1 作為起點反映了一項戰略決策,即利用現有的、經過驗證的技術,而不是重新發明輪子。這種方法使鴻海能夠將精力集中在根據繁體中文的特定需求定制模型,並優化其預期應用程序的性能。

領先競爭對手:對 FoxBrain 能力進行基準測試

鴻海的內部測試顯示,FoxBrain 在幾個關鍵類別中優於 Llama-3-Taiwan-70B,這是另一個規模相當的繁體中文語言模型。這種卓越的性能突顯了鴻海訓練策略的有效性及其對在地化的關注。

值得注意的是,與基礎 Meta Llama 3.1 模型相比,FoxBrain 在數學性能方面表現出顯著的改進。這種增強的數學能力與製造、供應鏈管理和其他依賴定量分析的領域的應用特別相關。

深入研究性能:TMMLU+ 基準

為了嚴格評估 FoxBrain 的能力,鴻海採用了 TMMLU+ 基準,這是一項全面的測試,用於衡量跨廣泛知識領域的性能。結果突出了 FoxBrain 在數學和邏輯推理方面的優勢,進一步驗證了其在實際應用中的潛力。

TMMLU+ 基準提供了一種標準化的方法來比較 FoxBrain 與其他模型的性能,清晰地展示了其優勢和潛在的改進領域。這種對客觀評估的承諾突顯了鴻海對透明度和持續改進的奉獻精神。

數據增強的藝術:擴展訓練語料庫

FoxBrain 成功的關鍵因素是其複雜的數據增強策略。這涉及採用技術來擴展和增強訓練數據,確保模型暴露於多樣化和具有代表性的語言模式範圍。

鴻海的團隊開發了 24 個不同主題類別的專有數據增強方法,為繁體中文創建了一個包含 980 億個 token 的龐大預訓練數據集。Token 代表 AI 系統處理的文本單元,通常由單詞或單詞的一部分組成。這個廣泛的數據集對於訓練一個能夠理解和回應各種語言細微差別的模型至關重要。

上下文為王:廣闊的理解窗口

FoxBrain 擁有 128,000 個 token 的上下文窗口。這種令人印象深刻的容量決定了模型一次可以考慮多少信息,使其能夠保持對廣泛的對話歷史或文檔內容的感知。與具有較小上下文窗口的模型相比,這是一個顯著的優勢,允許 FoxBrain 掌握對話或文本的更廣泛的上下文,從而產生更連貫和相關的回應。

較大的上下文窗口對於需要理解文本不同部分之間複雜關係的任務特別有利,例如總結冗長的文件或回答需要整合來自多個來源的信息的問題。

關鍵創新:技術成就摘要

鴻海開發 FoxBrain 的過程中,有幾項關鍵創新:

  • 專有數據增強: 為 24 個主題類別創建獨特的數據增強和質量評估技術,顯著豐富了訓練數據。
  • 高效的 GPU 利用率: 該模型使用 120 個 Nvidia H100 GPU 進行訓練,總共使用了 2,688 個 GPU 天,展示了計算資源的高效利用。
  • 多節點並行訓練: 實施了多節點並行訓練框架,以確保最佳性能和系統穩定性,使模型能夠有效地擴展。
  • 自適應推理反思: 引入了一種創新的自適應推理反思方法,以增強模型的自主推理能力,使其能夠隨著時間的推移學習和提高其推理技能。

展望未來:持續改進與合作

栗永徽博士承認,雖然 FoxBrain 表現出令人印象深刻的性能,但仍有成長空間。他指出,與 DeepSeek 的蒸餾模型(另一個專注於高效知識轉移的 AI 系統)相比,存在性能差距。然而,他強調 FoxBrain 的性能接近「世界領先水平」。

這種對持續改進的承諾是鴻海方法的標誌。該公司計劃繼續完善 FoxBrain,探索新技術並利用開源社群的反饋來進一步增強其能力。

擴展視野:協作應用

雖然最初設計用於內部使用,但鴻海設想未來 FoxBrain 的能力將遠遠超出其自身的營運範圍。該公司計劃積極與技術合作夥伴合作,探索新的應用,並促進 AI 在製造、供應鏈管理和決策過程中的使用。

這種協作方法與鴻海的開源理念一致,認識到 AI 的真正潛力只能通過共享知識和集體努力來釋放。通過與其他組織合作,鴻海旨在加速 AI 的採用並推動各個行業的創新。

展示創新:在 Nvidia GTC 2025 上的演講

鴻海在 Nvidia GTC 2025 大會上的演講計劃進一步證明了其與更廣泛的 AI 社群分享其進展的承諾。該會議的標題為「從開源到前沿 AI:構建、定制和擴展基礎模型」,將提供一個平台來展示 FoxBrain 的開發並討論開源 AI 的更廣泛影響。

此次演講突顯了鴻海對透明度的承諾,以及其為圍繞 AI 未來的持續對話做出貢獻的願望。通過分享其經驗和見解,鴻海旨在激發 AI 社群內的進一步創新和協作。該演講已於 3 月 20 日舉行。