NVIDIA創新揭露:Llama Nemotron Ultra與Parakeet

在一次深入的對話中,來自 NVIDIA 的 Joey Conway 提供了對公司在開源大型語言模型 (LLMs) 和自動語音辨識 (ASR) 方面的最新進展的深入了解。 討論的重點是 Llama Nemotron Ultra 和 Parakeet,這兩個突破性的項目展示了 NVIDIA 對於推動 AI 技術邊界的承諾。

NVIDIA 的開源策略

NVIDIA 正迅速崛起成為開源 AI 領域的重要力量。 像是 Llama Nemotron Ultra 和 Parakeet TDT 等先進模型的發布,展示了一項將 AI 技術民主化並促進社群內創新的戰略舉措。 透過提供這些尖端工具,NVIDIA 旨在加速跨各個產業的 AI 解決方案的研究、開發和部署。

Llama Nemotron Ultra:重新定義效率與效能

Llama Nemotron Ultra 是一個擁有 2530 億參數的模型,是 NVIDIA 工程實力的證明。 它的與眾不同之處在於它能夠提供與 Llama 405B 和 DeepSeek R1 等兩倍大小模型相媲美的效能。 這種卓越的成就使其能夠部署在單個 8x H100 節點上,讓更廣泛的使用者都能夠使用它。

秘訣:FFN 融合

Llama Nemotron Ultra 令人印象深刻的效率在很大程度上歸功於一種稱為 FFN(Feed-Forward Network,前饋網路)融合的創新技術。 這種最佳化策略是透過 NVIDIA 的 Puzzle 神經架構搜尋發現的,它透過減少冗餘的注意力層來簡化模型的架構。

透過以序列方式對齊 FFN 層,該技術能夠在 GPU 上實現更大的並行計算。 合併或融合剩餘的層可最大程度地提高效率,尤其適用於基於 Meta 的 Llama 3.1 - 405B 的較大模型。 FFN 融合的優點是雙重的:它顯著提高了吞吐量,實現了 3 到 5 倍的速度提升,並減少了模型的記憶體佔用空間。 縮小的尺寸允許使用更大的 KV 快取,使模型能夠處理更大的上下文長度。

按需推理:改變遊戲規則的功能

Llama Nemotron Ultra 最獨特且最有價值的特征之一是其「reasoning on/off(推理開啟/關閉)」功能。 這可以對模型的推理過程進行前所未有的控制,為生產部署和成本最佳化提供顯著的優勢。

透過系統提示開啟和關閉推理的能力,使企業能夠靈活地在準確性與延遲和成本之間取得平衡。 推理雖然對於解決複雜問題至關重要,但會產生更多的 tokens,從而導致更高的延遲和成本。 透過提供明確的控制,NVIDIA 使使用者能夠就何時使用推理做出明智的決策,從而最佳化效能和資源利用率。

為了實現此功能,NVIDIA 在監督式微調階段明確地教導模型何時進行推理,何時不進行推理。 這涉及提出具有兩種不同答案的相同問題:一種帶有詳細的推理,一種沒有,本質上使此特定目的的資料集增加了一倍。 結果是一個單一模型,使用者只需在提示中包含「use detailed thinking on(開啟詳細思考)」或「use detailed thinking off(關閉詳細思考)」即可控制推理過程。

使用 Parakeet TDT 徹底改變語音辨識

Parakeet TDT 是 NVIDIA 最先進的 ASR 模型,它重新定義了語音辨識的速度和準確性基準。 它可以在一秒鐘內轉錄一小時的音訊,且單詞錯誤率僅為 6%——比其他開源替代方案快 50 倍。

架構創新:Parakeet 效能的「如何」

Parakeet TDT 令人印象深刻的效能是架構選擇和特定最佳化的結合。 它基於快速 Conformer 架構,並透過深度可分離卷積降取樣和有限的上下文注意等技術進行了增強。

輸入階段的深度可分離卷積降取樣顯著降低了處理的計算成本和記憶體需求。 透過關注較小、重疊的音訊區塊,有限的上下文注意可在保持準確性的同時實現處理速度的提高。 在編碼器端,滑動視窗注意技術允許模型處理更長的音訊文件,而無需將它們分割成更短的片段,這對於處理長篇音訊至關重要。

Token Duration Transducer (TDT):速度的關鍵

除了 Conformer 架構之外,Parakeet TDT 還結合了一個 Token and Duration Transducer (TDT)。 傳統的 Recurrent Neural Network (RNN) 轉換器技術逐幀處理音訊。 TDT 使模型能夠預測 tokens 及其預期的持續時間,使其能夠跳過冗餘幀並顯著加快轉錄過程。

僅此 TDT 創新就有助於約 1.5 到 2 倍的速度提升。 此外,標籤循環演算法允許在批量推論期間獨立推進不同樣本的 tokens,從而進一步加快了解碼過程。 將解碼器端的一些計算移至 CUDA 圖中可提供額外 3 倍的速度提升。 這些創新使 Parakeet TDT 能夠實現與 Connectionist Temporal Classification (CTC) 解碼器(以其速度而聞名)相媲美的速度,同時保持高準確性。

透過開放資料將 AI 民主化

NVIDIA 對開源社群的承諾不僅擴展到模型發布,還包括共享大量用於語言和語音的高品質資料集。 該公司對資料整理的方法強調透明度和開放性,目標是盡可能多地共享有關其資料、技術和工具的信息,以便社群可以理解和使用它們。

Llama Nemotron Ultra 的資料整理

Llama Nemotron Ultra 的資料整理的主要目標是提高幾個關鍵領域的準確性,包括數學和編碼等推理任務,以及工具呼叫、指令跟隨和聊天等非推理任務。

該策略涉及整理特定的資料集以增強這些領域的效能。 在監督式微調過程中,NVIDIA 區分了「reasoning on(開啟推理)」和「reasoning off(關閉推理)」情境。 來自社群的高品質模型被用作特定領域的「專家」。 例如,DeepSeek R-1 被廣泛用於推理密集的數學和編碼任務,而 Llama 和 Qwen 等模型則用於諸如基本數學、編碼、聊天和工具呼叫等非推理任務。 該整理的資料集包含約 3000 萬個問答對,已在 Hugging Face 上公開提供。

確保資料品質:多層方法

鑑於很大一部分資料是使用其他模型產生的,NVIDIA 實施了嚴格的多層品質保證流程。 這包括:

  • 使用每個專家模型為同一提示產生的多個候選回應。
  • 使用一組單獨的「評論」模型來根據正確性、連貫性和對提示的遵守情況來評估這些候選者。
  • 實施一種評分機制,其中每個產生的問答對都會收到基於評論模型評估的品質分數,並設定一個高於接受標準的閾值。
  • 在各個階段整合人工審查,由資料科學家和工程師手動檢查產生的資料樣本,以識別任何系統性錯誤、偏差或幻覺實例。
  • 專注於產生的資料的多樣性,以確保每個領域內都有廣泛的示例。
  • 在基於此整理的資料訓練 Llama Nemotron Ultra 後,針對基準資料集和實際使用案例進行廣泛的評估。

開源用於 Parakeet TDT 的語音資料集

NVIDIA 計劃開源一個大量的語音資料集,約 100,000 小時,經過精心整理以反映真實世界的多樣性。 該資料集將包括聲音級別、訊號雜訊比、背景噪音類型,甚至與呼叫中心相關的電話音訊格式的變化。 目標是為社群提供高品質、多樣化的資料,使模型能夠在各種真實世界情境中良好地執行。

未來方向:更小的模型、多語言支援和即時串流

NVIDIA 對未來的願景包括在多語言支援、更小的邊緣最佳化模型以及語音辨識即時串流方面的進一步進展。

多語言能力

支援多種語言對於大型企業至關重要。 NVIDIA 旨在專注於一些關鍵語言,並確保在這些語言中進行推理、工具呼叫和聊天的世界一流的準確性。 這可能是下一個主要的擴展領域。

邊緣最佳化模型

NVIDIA 正在考慮將模型降至約 5000 萬個參數,以解決邊緣需要較小佔用空間的使用案例,例如為嘈雜環境中的機器人啟用即時音訊處理。

Parakeet TDT 的即時串流

在技術上,NVIDIA 計劃致力於 TDT 的串流功能,以實現即時、即時轉錄。

生產就緒的 AI:為真實世界部署而設計

Llama Nemotron Ultra 和 Parakeet TDT 的設計都考慮到了真實世界部署的挑戰,專注於準確性、效率和成本效益。

用於可擴展性和成本效益的推理開啟/關閉

過多的推理可能導致生產環境中的可擴展性問題和延遲增加。 Llama Nemotron Ultra 中引入的推理開啟/關閉功能提供了按查詢控制推理的靈活性,從而實現了眾多的生產使用案例。

平衡準確性和效率

平衡準確性和效率是一個持續的挑戰。 NVIDIA 的方法包括在訓練期間仔細考慮每個技能的 epochs 數量,並持續測量準確性。 目標是提高所有關鍵領域的效能。

NVIDIA 模型在開源生態系統中的作用

NVIDIA 認為 Llama Nemotron Ultra 和 Parakeet TDT 在更廣泛的開源和 LLM 生態系統中的作用是建立在現有基礎之上,並狹隘地關注特定領域以增加顯著價值。 該公司旨在繼續識別其可以做出貢獻的特定領域,而其他人則繼續構建適用於企業生產的出色通用模型。

主要收穫:開源、快速、高吞吐量、具有成本效益

NVIDIA 在 Llama Nemotron Ultra 和 Parakeet TDT 方面的主要收穫是對所有內容進行開源、實現最先進的準確性、針對延遲和吞吐量方面的有效 GPU 利用率最佳化佔用空間以及增強社群能力的承諾。

所有模型和資料集都可以在 Hugging Face 上找到。 執行它們的軟體堆疊來自 NVIDIA,可以在 NGC(其內容儲存庫)上找到。 許多底層軟體也是開源的,可以在 GitHub 上找到。 Nemo 框架是許多此軟體堆疊的中心樞紐。