印度已展開一項轉型計畫,旨在建立其獨立的人工智慧能力。位於班加羅爾的新創公司Sarvam AI,被賦予重任,在 IndiaAI Mission 的支持下,負責帶領開發印度首個主權大型語言模型 (LLM)。這項雄心勃勃的計畫,彰顯了印度致力於促進技術自給自足,並利用人工智慧的力量為其公民謀福祉的決心。
印度本土AI的願景
這項倡議的核心在於一個深刻的願景:創建一個不僅是本土的 AI 模型,還具備先進的推理能力、複雜的語音處理能力,以及流暢運用各種印度語言的能力。此模型將深深植根於印度的語言和文化景觀中,反映該國獨特的身份和文化遺產。
為了促進此願景的實現,Sarvam AI 將獲得強大的計算資源,包括 4,086 個 NVIDIA H100 GPU,為期六個月。 這項資源將使這家新創公司能夠從頭開始建構 LLM,使其能夠根據印度具體情況的需求和願望進行客製化。
三種不同版本
這款主權 LLM 的開發將包含三種不同的版本,每一種都旨在滿足特定的一組應用程式和需求:
Sarvam-Large: 此版本將被設計為擅長複雜的推理和生成任務,使其能夠解決複雜的問題並生成複雜的內容。
Sarvam-Small: 此版本將針對即時互動應用程式進行優化,確保在各種情況下與使用者的快速且反應靈敏的互動。
Sarvam-Edge: 此版本將針對裝置端操作進行客製化,使其能夠在資源有限的裝置上無縫運行,而無需持續連接到雲端。
在一個協作的努力中,Sarvam AI 將與 IIT Madras 的一項倡議 AI4Bharat 合作,以確保這些模型深深嵌入印度的語言和文化背景中。 此次合作將利用 AI4Bharat 在自然語言處理方面的專業知識及其豐富的印度語言資源庫。
Sarvam AI 的過往績效
Sarvam AI 已在印度 AI 領域中脫穎而出,尤其是在多語 AI 領域。 該公司在創新方面的往績以及致力於解決印度特有挑戰的承諾,使其成為領導這項雄心勃勃計畫的當然之選。
2024 年 10 月,Sarvam AI 公布了 Sarvam-1,這是一個專門為印度語言設計和優化的 20 億參數 LLM。 除了英語外,該模型還支援十種主要的印度語言,包括孟加拉語、古吉拉特語、印地語、卡納達語、馬拉雅拉姆語、馬拉地語、奧迪亞語、旁遮普語、泰米爾語和泰盧固語。
與許多現有模型在處理印度語腳本時難以應付 token 效率低下不同,Sarvam-1 的每個單詞可達到 1.4 到 2.1 個 token 的豐饒率。 這一卓越的成就在很大程度上提高了處理效率,使該模型能夠以更快的速度和更高的準確性處理印度語言。
國內培訓與基礎設施
Sarvam-1 完全在印度境內接受培訓,利用由 NVIDIA H100 Tensor Core GPU、Yotta 的資料中心和 AI4Bharat 的語言資源提供支援的國內 AI 基礎設施。 這種端到端的國內方法,突顯了印度在 AI 開發方面不斷增長的能力及其致力於建立自給自足的 AI 生態系統。
性能基準測試顯示,Sarvam-1 不僅與 Meta 的 Llama 3.1 8B 和 Google 的 Gemma-2-9B 等較大型模型相符,而且在某些情況下,尤其是在涉及印度語言的任務中,甚至超越了這些模型。 這種令人印象深刻的性能突顯了 Sarvam AI 方法的有效性及其與全球 AI 領導者競爭的能力。
在跨印度語言的 TriviaQA 基準測試中,Sarvam-1 的準確度達到 86.11,優於 Llama-3.1 8B 的 61.47 分。 這個顯著的差距證明了 Sarvam-1 在理解和處理印度語言資訊方面的卓越能力。
未來的挑戰
雖然 Sarvam AI 已透過 Sarvam-1 展現了其能力,但建立第一個本土基礎模型的任務並非沒有挑戰。 克服這些挑戰將需要創造力、毅力和協作精神。
基礎設施擴展
最重大的障礙之一是擴展基礎設施以滿足培訓大型模型的需求。 培訓這些模型需要長時間存取大量的計算能力。 雖然政府提供數千個 NVIDIA H100 GPU 是向前邁出的重要一步,但管理、優化和維護如此高端的資源是一項複雜的任務。
有效的資源管理對於確保培訓過程高效且具有成本效益至關重要。 這將涉及優化 GPU 的使用、管理記憶體分配以及實施策略以減輕潛在的瓶頸。
資料管理
另一個關鍵挑戰在於管理高品質、多樣化的資料集。 印度的語言景觀非常複雜,不僅語言之間存在差異,方言、文化和書寫風格也存在差異。 創建一個真正捕捉到這種多樣性而不引入偏差的平衡資料集至關重要,但也極具挑戰性。
該資料集必須代表印度境內各個地區、社群和社會群體。 它也必須沒有可能導致不公平或歧視性結果的偏差。 必須仔細注意資料的選擇和註釋,以確保其符合這些標準。
語言細微差別
此外,這些模型必須能夠捕捉到印度語言的細微差別,包括成語、隱喻和文化典故。 這需要對這些語言所使用的文化背景有深刻的理解。
Sarvam AI 與 AI4Bharat 的合作將有助於應對這些挑戰。 AI4Bharat 在印度語言方面的專業知識及其對大量語言資源的存取,將為主權 LLM 的開發提供寶貴的支援。
對印度的影響
開發主權 LLM 對印度的技術格局及其在全球 AI 領域中的作用具有深遠的影響。 這項倡議有可能改變包括教育、醫療保健、金融和治理在內的各個領域。
經濟成長
透過促進創新和推動經濟成長,主權 LLM 可以為印度企業家創造新的機會。 它還可以透過提供當地語言的資訊和服務來幫助彌合數位鴻溝。
賦權
此外,LLM 可以透過向公民提供個人化的教育、醫療保健和其他基本服務來賦予他們權力。 它還可以透過打破語言障礙和促進不同社群之間的溝通來幫助促進社會融合。
戰略獨立性
最終,開發主權 LLM 對印度來說是一項戰略要務。 它將使該國能夠發展自己的 AI 能力,減少對外國技術的依賴並確保其數位主權。
協作生態系統
這項雄心勃勃的事業能否成功,取決於創建一個協作生態系統,將政府、產業界、學術界和新創社群聚集在一起。 透過共同努力,這些利害關係者可以利用其集體的專業知識和資源來推動創新並加速印度 AI 的發展。
政府對 Sarvam AI 的支持及其對提供計算資源的承諾是該生態系統的關鍵推動因素。 產業合作夥伴關係可以提供對真實世界資料和專業知識的存取,而學術機構可以貢獻尖端研究和人才。
由AI驅動的未來
隨著印度踏上這趟轉型之旅,這個國家已準備好釋放 AI 的巨大潛力,並創造一個由創新、包容性和自力更生驅動的未來。 主權 LLM 的開發證明了印度的雄心及其堅定不移地致力於在人工智慧時代塑造自己的命運。