NVIDIAのJoey Conway氏への独占インタビューを通じて、オープンソースの大規模言語モデル(LLM)と自動音声認識(ASR)における同社の最新の進歩を詳細に見ていきましょう。今回は、NVIDIAがAI技術の限界を押し広げるというコミットメントを示す、画期的なプロジェクトであるLlama Nemotron UltraとParakeetに焦点を当てます。
NVIDIAのオープンソース戦略
NVIDIAは、オープンソースAI分野で急速に重要な勢力として台頭しています。Llama Nemotron UltraやParakeet TDTのような高度なモデルのリリースは、AI技術を民主化し、コミュニティ内のイノベーションを促進するための戦略的な動きを示しています。NVIDIAは、これらの最先端ツールを利用可能にすることで、さまざまな業界におけるAIソリューションの研究、開発、展開を加速することを目指しています。
Llama Nemotron Ultra:効率とパフォーマンスの再定義
2530億のパラメータを持つモデルであるLlama Nemotron Ultraは、NVIDIAのエンジニアリングの腕前を証明するものです。その際立った特徴は、Llama 405BやDeepSeek R1のような、その2倍のサイズのモデルに匹敵するパフォーマンスを提供できることです。この驚くべき成果により、単一の8x H100ノードに展開できるため、より幅広いユーザーがアクセスできるようになります。
秘密兵器:FFNフュージョン
Llama Nemotron Ultraの印象的な効率は、主にFFN(フィードフォワードネットワーク)フュージョンと呼ばれる革新的な技術に起因しています。NVIDIAのPuzzleニューラルアーキテクチャ検索を通じて発見されたこの最適化戦略は、冗長な注意層を削減することで、モデルのアーキテクチャを合理化します。
FFN層をシーケンスに整列させることで、この技術はGPU上でのより大きな並列計算を可能にします。残りの層をマージまたはフュージョンすることで効率を最大化し、特にMeta’s Llama 3.1 - 405Bに基づくより大きなモデルに有益です。FFNフュージョンの利点は2つあります。スループットを大幅に向上させ、3〜5倍の高速化を達成し、モデルのメモリフットプリントを削減します。サイズが縮小されると、より大きなKVキャッシュを利用できるようになり、モデルはより大きなコンテキスト長を処理できます。
オンデマンド推論:ゲームを変える機能
Llama Nemotron Ultraの最もユニークで価値のある機能の1つは、「推論オン/オフ」機能です。これにより、モデルの推論プロセスを前例のないほど制御でき、本番環境へのデプロイメントとコスト最適化に大きな利点をもたらします。
システムプロンプトを介して推論をオン/オフに切り替える機能により、企業は精度とレイテンシおよびコストのバランスを取る柔軟性が得られます。推論は、複雑な問題を解決するために不可欠ですが、より多くのトークンを生成するため、レイテンシとコストが高くなります。NVIDIAは、明示的な制御を提供することで、ユーザーがいつ推論を使用するかについて情報に基づいた意思決定を行い、パフォーマンスとリソース使用率を最適化できるようにします。
この機能を実装するために、NVIDIAは教師ありファインチューニング段階で、いつ推論すべきか、いつそうでないかをモデルに明示的に教えました。これには、詳細な推論を含む回答とそうでない回答の2つの異なる回答を同じ質問に提示することが含まれ、本質的にこの特定の目的のためにデータセットを2倍にしました。その結果、ユーザーがプロンプトに「詳細な思考を使用する」または「詳細な思考を使用しない」を含めるだけで、推論プロセスを制御できる単一のモデルが完成しました。
Parakeet TDTによる音声認識の革命
NVIDIAの最先端ASRモデルであるParakeet TDTは、音声認識におけるスピードと精度に関するベンチマークを再定義しました。1時間のオーディオをわずか1秒で書き起こすことができ、驚異的な6%の単語誤り率を達成しています。これは、他のオープンソースの代替手段よりも50倍高速です。
アーキテクチャの革新:Parakeetのパフォーマンスの「方法」
Parakeet TDTの印象的なパフォーマンスは、アーキテクチャの選択と特定の最適化の組み合わせの結果です。これは、高速コンフォーマーアーキテクチャに基づいており、深さ方向分離可能畳み込みダウンサンプリングや制限されたコンテキストアテンションなどの技術で強化されています。
入力段階での深さ方向分離可能畳み込みダウンサンプリングにより、処理に必要な計算コストとメモリ要件が大幅に削減されます。制限されたコンテキストアテンションは、オーディオのより小さく、重複するチャンクに焦点を当てることで、処理の高速化を実現しながら精度を維持します。エンコーダー側では、スライディングウィンドウアテンション技術により、モデルは長いオーディオファイルを短いセグメントに分割することなく処理できます。これは、長時間のオーディオを処理する上で重要です。
トークン持続時間トランスデューサー(TDT):スピードの鍵
コンフォーマーアーキテクチャに加えて、Parakeet TDTにはトークンおよび期間トランスデューサー(TDT)が組み込まれています。従来のリカレントニューラルネットワーク(RNN)トランスデューサー技術は、オーディオをフレームごとに処理します。TDTにより、モデルはトークンとそれらのトークンの予想される期間の両方を予測できるため、冗長なフレームをスキップして、書き起こしプロセスを大幅に高速化できます。
このTDTイノベーションだけで、約1.5〜2倍の高速化に貢献します。さらに、ラベルルーピングアルゴリズムにより、バッチ推論中に異なるサンプルについてトークンを個別に進めることができ、デコードプロセスがさらに高速化されます。デコーダー側の計算の一部をCUDAグラフに移動すると、さらに3倍の高速化が実現します。これらのイノベーションにより、Parakeet TDTは、その速度で知られるコネクショニスト一時分類(CTC)デコーダーに匹敵する速度を、高い精度を維持しながら実現できます。
オープンデータによるAIの民主化
オープンソースコミュニティに対するNVIDIAのコミットメントは、モデルのリリースを超えて、言語と音声の両方に対応する大規模で高品質なデータセットの共有にまで及びます。同社のデータキュレーションへのアプローチは、透明性とオープン性を重視しており、データ、技術、ツールについて可能な限り多くの情報を共有し、コミュニティがそれらを理解して使用できるようにすることを目指しています。
Llama Nemotron Ultraのデータキュレーション
Llama Nemotron Ultraのデータキュレーションの主な目標は、数学やコーディングのような推論タスクや、ツール呼び出し、命令追跡、チャットのような非推論タスクを含む、いくつかの主要ドメインにわたって精度を向上させることでした。
この戦略には、これらの領域でパフォーマンスを向上させるために特定のデータセットをキュレーションすることが含まれていました。教師ありファインチューニングプロセスの中で、NVIDIAは「推論オン」と「推論オフ」のシナリオを区別しました。コミュニティからの高品質なモデルは、特定のドメインの「専門家」として活用されました。たとえば、DeepSeek R-1は推論を多用する数学およびコーディングタスクに広範に使用され、LlamaやQwenのようなモデルは、基本的な数学、コーディング、チャット、ツール呼び出しのような非推論タスクに使用されました。このキュレーションされたデータセットは、約3000万の質問と回答のペアで構成されており、Hugging Faceで公開されています。
データ品質の確保:多層アプローチ
データの大部分が他のモデルを使用して生成されたことを考慮して、NVIDIAは厳格な多層品質保証プロセスを実装しました。これには次のものが含まれます。
- 各専門家モデルを使用して、同じプロンプトに対して複数の候補応答を生成します。
- これらの候補を、正確性、コヒーレンス、プロンプトへの準拠に基づいて評価するために、別の「批評家」モデルのセットを採用します。
- 生成された各質問と回答のペアが、批評家モデルの評価に基づいて品質スコアを受け取るスコアリングメカニズムを実装し、受け入れには高いしきい値を設定します。
- さまざまな段階で人的レビューを統合し、データサイエンティストとエンジニアが生成されたデータのサンプルを手動で検査して、体系的なエラー、バイアス、または幻覚のインスタンスを特定します。
- 各ドメイン内の幅広い範囲の例を確保するために、生成されたデータの多様性に焦点を当てています。
- このキュレーションされたデータでLlama Nemotron Ultraをトレーニングした後、ベンチマークデータセットおよび実際のユースケースに対して広範な評価を実施します。
Parakeet TDT用の音声データセットのオープンソース化
NVIDIAは、現実世界の多様性を反映するように細心の注意を払ってキュレーションされた、約100,000時間の膨大な音声データセットをオープンソース化する予定です。このデータセットには、サウンドレベル、信号対雑音比、背景ノイズの種類、さらにはコールセンターに関連する電話オーディオ形式のバリエーションが含まれます。その目標は、コミュニティに高品質で多様なデータを提供し、モデルが幅広い現実世界のシナリオで優れたパフォーマンスを発揮できるようにすることです。
今後の方向性:より小さなモデル、多言語サポート、リアルタイムストリーミング
NVIDIAの将来のビジョンには、多言語サポートのさらなる進歩、さらに小さなエッジ最適化モデル、音声認識のリアルタイムストリーミングの改善が含まれます。
多言語機能
複数の言語をサポートすることは、大企業にとって不可欠です。NVIDIAは、いくつかの主要な言語に焦点を当て、それらの言語内での推論、ツール呼び出し、およびチャットに対する世界クラスの精度を確保することを目指しています。これはおそらく次の主要な拡張領域です。
エッジ最適化モデル
NVIDIAは、ノイズの多い環境でロボットのリアルタイムオーディオ処理を可能にするなど、より小さなフットプリントが必要なエッジでのユースケースに対応するために、約5000万のパラメータまでのモデルを検討しています。
Parakeet TDTのリアルタイムストリーミング
技術的には、NVIDIAはTDTのストリーミング機能に取り組み、リアルタイムのライブ転写を可能にする予定です。
本番環境対応AI:現実世界の展開向けの設計
Llama Nemotron UltraとParakeet TDTはどちらも、現実世界の展開における課題を念頭に置いて設計されており、精度、効率、費用対効果に重点を置いています。
スケーラビリティとコスト効率のための推論オン/オフ
過度の推論は、本番環境でのスケーラビリティの問題とレイテンシの増加につながる可能性があります。Llama Nemotron Ultraに導入された推論オン/オフ機能は、クエリごとに推論を制御する柔軟性を提供し、多数の本番環境でのユースケースを可能にします。
精度と効率のバランス
精度と効率のバランスを取ることは常に課題です。NVIDIAのアプローチでは、トレーニング中に各スキルのエポック数を慎重に検討し、精度を継続的に測定します。その目標は、すべての主要分野でパフォーマンスを向上させることです。
オープンソースエコシステムにおけるNVIDIAモデルの役割
NVIDIAは、より広範なオープンソースおよびLLMエコシステムにおけるLlama Nemotron UltraおよびParakeet TDTの役割を、既存の基盤に基づいて構築し、特定の分野に狭く焦点を当てて大きな価値を追加するものと考えています。同社は、貢献できる特定の分野を引き続き特定することを目指しており、他の企業はエンタープライズ本番環境に適した優れた汎用モデルを構築し続けています。
主なポイント:オープンソース、高速、高スループット、費用対効果
NVIDIAのLlama Nemotron UltraとParakeet TDTに関する作業から得られる主なポイントは、すべてをオープンソース化し、最先端の精度を達成し、レイテンシとスループットの点で効率的なGPU利用のためにフットプリントを最適化し、コミュニティを強化するというコミットメントです。
すべてのモデルとデータセットはHugging Faceで利用できます。それらを実行するためのソフトウェアスタックはNVIDIAから提供され、そのコンテンツリポジトリであるNGCで利用できます。基盤となるソフトウェアの多くもオープンソースであり、GitHubにあります。Nemoフレームワークは、このソフトウェアスタックの多くの中央ハブです。