Microsoft Researchは、生成AIのアクセス性と効率を再定義する画期的な開発を発表しました。彼らの最新論文では、’1-bit’の重み、より正確には1-tritの重みでネイティブトレーニングされた、先駆的な大規模言語モデル(LLM)であるBitNet b1.58 2B4Tを紹介しています。この革新的なアプローチは、最初にフル精度でトレーニングされたモデルを量子化する従来の方法からの脱却を示しています。
従来のLLMの限界の克服
従来のLLMは、その優れた性能にもかかわらず、その普及を妨げる大きな障壁に直面しています。これらの制限は主に、大規模なメモリフットプリント、かなりのエネルギー消費、および顕著な推論レイテンシに起因します。その結果、これらのモデルをエッジデバイス、リソースが制約された環境、およびリアルタイムアプリケーションに展開することは非現実的になります。
これらの課題を軽減するために、AIコミュニティは量子化モデルの探求にますます焦点を当てています。これらのモデルは、その重みをより低いビット形式に変換することにより、フル精度対応物から派生します。量子化は、モデルサイズと計算需要を削減する方法を提供しますが、多くの場合、精度の損失を伴い、モデルの精度と全体的なパフォーマンスを損なう可能性があります。
BitNet b1.58 2B4Tアーキテクチャ
BitNet b1.58 2B4Tは、1-bitの重みを使用してモデルをゼロからトレーニングすることにより、量子化に関連する精度の損失を回避するLLM設計のパラダイムシフトを表しています。このアプローチにより、モデルは、メモリフットプリントの削減や計算コストの削減など、より小さな重みの利点を保持できます。
Microsoftの研究者は、4兆トークンという膨大なコーパスでBitNet b1.58 2B4Tをトレーニングすることにより、この野心的な取り組みに着手しました。この広範なトレーニングデータセットは、モデルが複雑な言語パターンを効果的に学習し、人間のコミュニケーションのニュアンスを包括的に理解できることを保証しました。
パフォーマンス評価とベンチマーク
BitNet b1.58 2B4Tの有効性を評価するために、Microsoftは厳密なベンチマークを実施し、同様のサイズの主要なオープンウェイト、フル精度モデルと比較しました。その結果、新しいモデルは、言語理解と推論、世界知識、読解、数学とコード、指示の遵守と会話を含む、幅広いタスクで同等のパフォーマンスを発揮することが明らかになりました。
これらの発見は、1-bit LLMが効率とリソース使用率の点で大きな利点を提供しながら、フル精度対応物と同等のパフォーマンスを達成する可能性を強調しています。
主要なアーキテクチャの革新
BitNet b1.58 2B4Tの中核となるのは、標準のフル精度線形レイヤーをカスタムの_BitLinear_レイヤーに置き換える革新的なアーキテクチャです。これらのレイヤーは、順方向パス中に重みを三項値(trits)としてエンコードするために、1.58-bitの表現を使用します。
{-1, 0, +1}で表される三項値を使用すると、モデルサイズを大幅に削減し、効率的な数学演算を容易にすることができます。これは、重みをこれらの三項値にマッピングする絶対平均(absmean
)量子化スキームを通じて実現されます。
BitLinearレイヤーに加えて、BitNet b1.58 2B4Tは、二乗ReLU活性化関数、ロータリー位置埋め込み、バイアス項削除など、いくつかの確立されたLLM技術を組み込んでいます。これらの技術は、モデルのサイズをさらに削減し、トレーニングの安定性を向上させるのに役立ちます。
トレーニングの安定性と効率の向上
BitLinearレイヤーで使用される追加の2つの手法(活性化量子化と正規化)は、モデルのサイズを削減し、トレーニングの安定性を高める上で重要な役割を果たします。活性化量子化は活性化の精度を低下させ、正規化手法は活性化が大きすぎたり小さすぎたりするのを防ぐのに役立ちます。
これらの手法は、1-bitの重みの使用と組み合わせて、BitNet b1.58 2B4Tを大規模なデータセットでもより効率的かつ効果的にトレーニングできるようにします。
トレーニング方法
トレーニングでは、BitNet b1.58 2B4Tは、大規模な事前トレーニング、教師ありファインチューニング、および直接選好最適化という3つの主要な手法を利用します。
大規模な事前トレーニング
この初期フェーズでは、モデルをテキストとコードの膨大なデータセットでトレーニングし、一般的な言語パターンを学習し、世界を幅広く理解できるようにします。
教師ありファインチューニング
このフェーズでは、モデルは、特定のタスクまたはドメインに合わせて調整された、より小さく、より具体的なデータセットで微調整されます。これにより、モデルはその知識とスキルをタスクの特定の要件に適応させることができます。
直接選好最適化
この手法では、フィードバックまたは評価を通じて表現される人間の選好を直接最適化するようにモデルをトレーニングします。これは、モデルの出力が人間の価値観と期待に沿うようにするのに役立ちます。
研究者らは、数学的機能と連鎖的思考の推論を強化するために、プロキシマルポリシー最適化やグループ相対ポリシー最適化などのより高度な手法を将来的に検討すると述べています。
Bitnet.cpp推論ライブラリ
BitNet b1.58 2B4Tのユニークな量子化スキームを考えると、モデルはllama.cppのような標準的な深層学習ライブラリでは使用できず、専用のカーネルが必要です。この課題に対処するために、Microsoftはオープンソースの専用推論ライブラリであるbitnet.cppを開発しました。
bitnet.cppは、BitNet b1.58のような1-bit LLMの公式推論フレームワークとして機能します。CPU上で1.58-bitモデルの高速でロスレスな推論をサポートする最適化されたカーネルスイートを提供しており、将来的にはNPUおよびGPUへのサポートを拡張する予定です。
この推論ライブラリは、BitNet b1.58 2B4Tをより広範なデバイスとプラットフォームに展開できるようにし、開発者と研究者がよりアクセスしやすくするために不可欠です。
今後の研究方向
研究者らは、現在のGPUハードウェアが1-bitモデルに最適化されておらず、低ビット演算専用のロジックを組み込むことでさらなるパフォーマンス向上が達成できる可能性があることを認めています。これは、将来のハードウェアアーキテクチャが1-bit LLMをサポートするように特別に設計され、さらに優れた効率とパフォーマンスにつながる可能性があることを示唆しています。
ハードウェアの最適化に加えて、今後の研究方向には、より大規模なモデルのトレーニング、多言語機能とマルチモーダル統合の追加、およびコンテキストウィンドウ長の拡張が含まれます。これらの進歩は、BitNet b1.58 2B4Tおよびその他の1-bit LLMの機能と汎用性をさらに向上させます。
意味と潜在的な影響
BitNet b1.58 2B4Tの開発は、AIの将来、特に生成AIの分野に大きな影響を与えます。Microsoftは、1-bitの重みのみを使用して高性能LLMをトレーニングできることを示すことにより、より効率的でアクセス可能なAIシステムを作成するための新たな可能性を開きました。
この画期的な進歩により、スマートフォン、IoTデバイス、その他のリソースが制約されたプラットフォームなど、より広範なデバイスでのAIモデルの展開につながる可能性があります。また、エネルギー効率の高いAIシステムの開発を可能にし、環境への影響を軽減する可能性があります。
さらに、1-bitの重みでLLMをトレーニングできるため、特定のアプリケーション向けにAIモデルをカスタマイズおよびパーソナライズすることが容易になる可能性があります。これにより、個々のユーザーや組織の固有のニーズに合わせて調整された、より効果的でユーザーフレンドリーなAIシステムの開発につながる可能性があります。
結論
MicrosoftのBitNet b1.58 2B4Tは、より効率的でアクセス可能なAIを求める探求における重要な一歩を表しています。Microsoftは、1-bitの重みのみを使用して高性能LLMをトレーニングできることを示すことにより、従来の知恵に挑戦し、AIの将来への新たな可能性を開きました。
この分野の研究が進むにつれて、1-bit LLMのさらに革新的なアプリケーションが登場し、AIがより普及し、効率的になり、社会全体に有益になる未来が期待できます。