Sarvam AI推出新型LLM,比肩Meta與Google

Sarvam AI 是一家位於班加羅爾的創新新創公司,在印度政府享有盛譽的 IndiaAI Mission 下獲得殊榮,已成為人工智慧領域的領跑者。該公司最近推出了其旗艦大型語言模型 (LLM),命名為 Sarvam-M,標誌著印度人工智慧能力的重大飛躍。

這個擁有 240 億參數的多語言 LLM,證明了 Sarvam AI 致力於推動人工智慧技術的界限。Sarvam-M 建立在法國人工智慧巨頭 Mistral AI 開發的開放權重人工智慧模型 Mistral Small 的基礎上,採用了混合推理方法,使其能夠在各種基於文字的任務中脫穎而出。

Sarvam-M 的設計經過精心設計,旨在滿足各種不同的使用案例,使其成為各行各業的珍貴工具。從驅動能夠進行自然且理解上下文對話的複雜對話代理,到提供彌合語言鴻溝的無縫翻譯服務,Sarvam-M 準備徹底改變通訊和訊息存取方式。

此外,該模型的潛力還可以擴展到教育領域,它可以作為一種動態的教育工具,提供個人化的學習體驗,並促進對複雜科目的更深入理解。這種適應性使 Sarvam-M 成為希望利用人工智慧變革力量的個人和組織的強大資產。

效能

Sarvam-M 在一些關鍵領域展現了卓越的能力,在印度語言、數學推理和程式設計任務中樹立了新的效能標準。這些成就突顯了該模型有能力滿足印度市場的特定需求和挑戰。

在印度語言、數學和程式設計方面的卓越表現

該人工智慧模型在印度語言基準測試中的表現比其基礎模型平均提高了 20%,突顯了其對這些語言的進階理解和流利程度。這種增強功能確保了在各種語言環境中進行更準確和細緻的溝通。

在數學問題解決領域,Sarvam-M 在與數學相關的任務中展現出顯著的 21.6% 的提升,使其能夠更準確、更有效率地解決複雜的方程式和邏輯推理挑戰。此功能使 Sarvam-M 成為各種科學和工程應用的寶貴工具。

此外,該模型在程式設計基準測試中表現出值得注意的 17.6% 的提升,證明其能夠生成乾淨、高效且無錯誤的程式碼。這種能力使 Sarvam-M 成為希望自動化和簡化其工作流程的軟體開發人員和程式設計師的寶貴資源。

在印度語言和數學的交叉領域,Sarvam-M 在羅馬化的印度語言 GSM-8K 基準測試中取得了令人印象深刻的 +86% 的提升。這一成就突顯了該模型能夠彌合不同語言和數學領域之間的差距,為問題解決提供全面且整合的方法。

在發布 Sarvam-M 之前,Sarvam AI 推出了 Bulbul,這是一款以道地印度口音為特色的新型語音模型。這進一步證明了該公司致力於創建在文化上相關且符合印度市場細微差別的人工智慧解決方案。

比較

Sarvam AI 有信心地聲稱,Sarvam-M 在大多數基準測試中都優於 Meta 的 LLaMA-4 Scout。該公司還聲稱,該模型的效能可與更大的密集模型(如 LLaMA-3 70B 和 Google 的 Gemma 3 27B)相媲美。考慮到這些模型是經過大量 tokens 預先訓練的,這一點值得注意。

Sarvam-M:LLaMA-4 Scout 的挑戰者,效能可與更大的模型相媲美

Sarvam-M 能夠以更少的參數實現與這些更大的模型相似的效能水平,證明了其高效的架構和最佳化的訓練方法。它突顯了更敏捷、更小的模型有效與更大、資源更密集的模型競爭的潛力。

但是,該公司承認,Sarvam-M 在 “與英文相關的知識基準” 中還有改進的空間,在基準模型 MMLU 中下降了約 1% 個百分點。這是 Sarvam AI 正在積極努力解決的一個領域,以進一步提高模型的整體效能和多功能性。

Sarvam-M 是開放原始碼的,並且可以在人工智慧社群平台 Hugging Face 上免費取得。API 可供希望將其整合到產品中的開發人員使用。這種可存取性使開發人員可以輕鬆地使用該模型並探索創新的應用。

功能

Sarvam-M 是一款多功能模型,具有先進的 Indic 技能。該模型可以無縫支援 “思考” 和 “不思考” 模式,輕鬆適應不同的任務需求。

Sarvam-M:具有先進 Indic 技能的多功能 AI 模型

“思考” 模式適用於複雜的邏輯推理、數學問題和程式設計任務。它使模型能夠分析和解決需要深度認知處理的複雜問題。

“不思考” 模式適用於高效的通用對話。它允許模型進行更輕鬆和自發的對話,而無需相同程度的分析嚴謹性。

該模型已專門針對帶有英文的印度語言進行了訓練,真實地反映了印度的文化價值觀。這確保了該模型能夠在不同的文化背景下進行有效且尊重的溝通。

它還完全支援 Indic 腳本以及印度語言的羅馬化版本。此功能進一步增強了該模型滿足印度市場特定需求的能力。此外,Sarvam-M模型具備辨識多種印度方言的能力,讓模型更加貼近使用者的生活。不論是北方邦的口音,或是泰米爾納德邦的腔調,Sarvam-M都能準確捕捉並理解其語意。這項功能消除了語言隔閡,讓使用者能夠更自然地和AI互動。

在安全性方面,Sarvam-M模型也採取了嚴密的防範措施,確保使用者的隱私和資料安全。模型在設計之初就納入了差分隱私技術,有效降低了訓練資料洩漏的風險。此外,Sarvam-M還內建了內容過濾器,自動屏蔽掉包含仇恨言論、暴力內容等不當資訊,營造一個安全友善的對話環境。

為了讓更多開發者和研究人員能夠使用Sarvam-M,Sarvam AI提供了完善的開發者工具和API介面。開發者可以輕鬆地將Sarvam-M整合到自己的應用程式和產品中,例如聊天機器人、語音助理、內容生成工具等。此外,Sarvam AI還提供了詳細的文檔和範例程式碼,幫助開發者快速上手。Sarvam AI也積極參與開源社群,鼓勵開發者共同貢獻,不斷改進Sarvam-M的效能和功能。

Sarvam-M的成功推出,不僅代表了印度在人工智慧領域的重大突破,也為其他發展中國家提供了一個寶貴的參考案例。透過自主研發和技術創新,開發中國家也能夠在人工智慧領域佔有一席之地,並利用人工智慧技術解決自身面臨的獨特挑戰。Sarvam AI的願景是打造一個更加普惠和公平的人工智慧生態系統,讓人工智慧技術能夠真正為全人類服務。未來,Sarvam AI將持續加大對人工智慧技術的研發投入,不斷推出更先進、更實用的人工智慧產品和服務,為印度乃至全球的經濟社會發展做出更大的貢獻。該公司也積極尋求與各國政府、企業和研究機構的合作,共同推動全球人工智慧產業的發展。