Nvidia 發表 NeMo 平台,建構 AI 代理
Nvidia 正式發表了 NeMo 平台,这是一套全面的微服務,旨在簡化先進 AI 代理系統的開發。這個平台於 4 月 23 日星期三宣佈,支援各種大型語言模型 (LLM),並利用「資料飛輪」(Data Flywheel) 機制。這種創新的方法使 AI 代理能夠從真實世界的經驗中不斷學習,從而提高其效能和適應性。
NeMo 平台的核心元件
NeMo 平台是一個相互連接的微服務生態系統,每個微服務都旨在解決 AI 代理開發的特定方面。這些元件協同工作,為開發人員提供一個強大的工具包,以創建複雜的 AI 解決方案。
NeMo Customizer:加速 LLM 微調
NeMo Customizer 是一個關鍵元件,旨在加速大型語言模型的微調。此微服務簡化了為特定任務或資料集定制 LLM 的過程,使開發人員能夠以最少的努力實現最佳效能。透過簡化微調過程,NeMo Customizer 減少了將 LLM 適應於各種應用所需的時間和資源。它透過以下幾個步驟實現高效微調:
- 資料準備:自動化資料清洗和格式化,確保模型訓練的資料品質。
- 參數調整:提供自動化的超參數優化工具,以找到最佳訓練參數組合。
- 模型儲存:方便模型儲存和版本控制,確保可追溯性和重用性。
- 部署:簡化模型部署到各種平台,包括雲端和邊緣設備。
NeMo Evaluator:簡化 AI 模型和工作流程評估
NeMo Evaluator 提供了一種簡化的方法,可根據定制和行業特定的基準來評估 AI 模型和工作流程。此微服務使開發人員能夠快速評估其 AI 代理的效能,確定需要改進的領域,並確保其解決方案符合要求的標準。只需五個 API 調用,開發人員就可以深入了解其 AI 模型的有效性。NeMo Evaluator 支援多種評估指標,包括:
- 準確性:衡量模型預測的正確性。
- 精確度:衡量模型預測為真的實例中,實際為真的比例。
- 召回率:衡量所有實際為真的實例中,模型預測為真的比例。
- F1 分數:精確度和召回率的調和平均值。
- 延遲:衡量模型做出預測所需的時間。
- 吞吐量:衡量模型每單位時間可以處理的請求數量。
NeMo Guardrails:增強合規性和保護
NeMo Guardrails 旨在增強 AI 系統的合規性和保護,而不會顯著影響效能。此微服務確保 AI 代理遵守道德準則和法規要求,從而降低意外後果的風險。透過僅增加半秒的延遲,NeMo Guardrails 可以將合規性保護提高多達 1.4 倍。其主要功能包括:
- 內容審查:自動檢測和過濾不適當或有害的內容。
- 隱私保護:確保個人資料的處理符合隱私法規。
- 偏見檢測:識別和減輕 AI 模型中的偏見。
- 可解釋性:提供模型預測的可解釋性,以便更容易理解和信任 AI 系統。
NeMo Retriever:促進知識檢索
NeMo Retriever 協助 AI 代理從資料庫中存取和檢索準確的資訊。此微服務使 AI 代理能夠快速找到正確的知識,從而提高它們回答問題、解決問題和做出明智決策的能力。透過簡化知識檢索過程,NeMo Retriever 提高了 AI 代理的整體有效性。它利用以下技術實現高效知識檢索:
- 向量資料庫:將知識儲存在向量資料庫中,以便快速相似性搜尋。
- 語義搜尋:使用語義理解技術來提高搜尋準確性。
- 上下文感知:根據上下文資訊來調整搜尋結果。
- 多語言支援:支援多種語言的知識檢索。
NeMo Curator:訓練高度準確的生成式 AI 模型
NeMo Curator 旨在訓練高度準確的生成式 AI 模型。此微服務為開發人員提供創建 AI 代理所需的工具和資源,這些 AI 代理可以生成逼真且連貫的文字、圖像和其他類型的內容。透過優化訓練過程,NeMo Curator 可以開發尖端的生成式 AI 解決方案。它提供以下功能:
- 資料生成:自動生成訓練資料,以提高模型的準確性和魯棒性。
- 模型訓練:支援多種訓練方法,包括監督學習、非監督學習和強化學習。
- 模型評估:提供多種評估指標,以衡量生成式 AI 模型的品質。
- 模型部署:簡化模型部署到各種平台。
資料飛輪機制
資料飛輪是 NeMo 平台的核心概念,旨在實現 AI 模型的持續學習和改進。此機制創建了一個正向回饋迴圈,AI 代理從與環境的互動中學習,隨著時間的推移變得更加智能和有效。
正向回饋迴圈
資料飛輪透過互動、資料收集、評估和改進的連續循環運作。當 AI 代理與使用者和環境互動時,它們會產生大量的資料,包括對話記錄和使用模式。然後,NeMo Curator 處理這些資料,以識別相關的見解和模式。NeMo Evaluator 評估 AI 代理的效能,找出它擅長的領域和需要改進的領域。最後,NeMo Customizer 根據此評估來微調模型,從而提高其準確性和有效性。
- 互動:AI 代理與使用者和環境互動。
- 資料收集:收集互動產生的資料。
- 評估:使用 NeMo Evaluator 評估 AI 代理的效能。
- 改進:使用 NeMo Customizer 微調模型。
最小的人工干預和最大的自主性
資料飛輪旨在以最小的人工干預和最大的自主性運作。這使 AI 代理能夠不斷學習和改進,而無需持續監督。透過自動化學習過程,資料飛輪減輕了開發人員的負擔,並使 AI 代理能夠適應不斷變化的條件和使用者需求。
- 自動化:自動化資料收集、評估和改進過程。
- 自主性:AI 代理能夠在沒有人工干預的情況下學習和改進。
- 適應性:AI 代理能夠適應不斷變化的條件和使用者需求。
整合與部署
NeMo 平台旨在輕鬆地整合和部署到各種計算基礎設施中,包括本地和雲端環境。這種靈活性使組織能夠以最適合其需求和資源的方式利用該平台。
Nvidia AI Enterprise 軟體平台
NeMo 平台部署在 Nvidia AI Enterprise 軟體平台上,該平台提供了一套全面的工具和資源,用於開發和部署 AI 應用程式。此平台簡化了管理和擴展 AI 解決方案的過程,使組織能夠專注於創新和業務價值。Nvidia AI Enterprise 提供了以下優勢:
- 加速計算:利用 Nvidia GPU 的強大功能來加速 AI 模型的訓練和推論。
- 企業級支援:提供企業級的支援和維護,以確保 AI 系統的可靠性和穩定性。
- 安全性:提供多種安全功能,以保護 AI 系統免受威脅。
- 可擴展性:輕鬆擴展 AI 系統以滿足不斷增長的需求。
在加速計算基礎設施上執行
NeMo 可以在任何加速計算基礎設施上執行,使組織能夠利用 GPU 和其他專用硬體的強大功能來優化其 AI 代理的效能。這確保 AI 代理可以輕鬆處理複雜的任務和大型資料集。除了 GPU,NeMo 還支援以下加速計算技術:
- FPGA:現場可程式化閘陣列 (FPGA) 提供高度可定制的硬體加速。
- ASIC:特殊應用積體電路 (ASIC) 提供針對特定 AI 任務優化的硬體加速。
- 記憶體內計算:記憶體內計算將計算直接整合到記憶體中,從而提高效能和能效。
真實世界的應用
NeMo 平台旨在支援各個行業的廣泛應用。大型企業可以建構數百個具有不同功能的 AI 代理,例如自動化詐欺檢測、購物助理、預測性機器維護和文件審查。
AT&T 的實施
AT&T 已與 Arize 和 Quantiphi 合作,利用 NeMo 開發一種先進的 AI 代理,該代理能夠處理每週更新的近 10,000 份企業知識文件。透過結合 NeMo Customizer 和 Evaluator,AT&T 已微調 Mistral 7B 以實現個性化的客戶服務、詐欺預防和網路效能優化。此實施使整體 AI 回應準確性提高了 40%。AT&T 的實施重點關注以下方面:
- 客戶服務:使用 AI 代理來回答客戶問題並解決問題。
- 詐欺預防:使用 AI 代理來檢測和預防詐欺活動。
- 網路效能優化:使用 AI 代理來優化網路效能。
開源模型支援和整合
NeMo 微服務支援各種流行的開源模型,包括 Llama、Microsoft Phi、Google Gemma、Mistral 和 Llama Nemotron Ultra。這使開發人員能夠利用最佳的可用 AI 模型並對其進行客製化,以滿足其特定需求。
Meta 的整合
Meta 已透過將連接器添加到 Llamastack 來整合 NeMo。此整合使開發人員能夠將 NeMo 的功能無縫地整合到其現有的 AI 工作流程中。
AI 軟體供應商整合
AI 軟體供應商(例如 Cloudera、Datadog、Dataiku、DataRobot、DataStax、SuperAnnotate 和 Weights & Biases)已將 NeMo 整合到其平台中。這種廣泛的整合使廣泛的開發人員和組織都可以存取 NeMo。