Reka AI、21BのReka Flash 3をオープンソース化

今日のAIの現状における実際的な課題

人工知能の急速な進化は多くの機会をもたらしましたが、同時に開発者や組織に大きなハードルも突きつけています。最も差し迫った問題の1つは、多くの最新AIモデルに伴う高い計算要求です。これらのモデルのトレーニングとデプロイには、多くの場合、かなりの処理能力が必要となるため、小規模な組織やリソースが限られている組織がAIの利点を十分に活用することが困難になっています。

さらに、レイテンシの問題は、特にリアルタイムアプリケーションにおいて、ユーザーエクスペリエンスに大きな影響を与える可能性があります。応答時間の遅延は、たとえAIシステムが優れた能力を持っていたとしても、実用的でなくなる可能性があります。これは、チャットボットやインタラクティブツールなど、即時のフィードバックを必要とするアプリケーションに特に当てはまります。

もう1つの課題は、真に適応可能なオープンソースモデルの利用可能性が限られていることです。多くのオープンソースの選択肢が存在しますが、特定のユースケースに対処したり、進化する要件に適応したりするために必要な柔軟性を常に提供できるとは限りません。これにより、イノベーションが制限され、開発者は独自の制限やコストを伴う可能性のあるプロプライエタリなソリューションに頼らざるを得なくなる可能性があります。

現在の多くのAIソリューションは、高価なクラウドインフラストラクチャに大きく依存しています。クラウドコンピューティングはスケーラビリティと利便性を提供しますが、特に小規模な組織や個人の開発者にとっては、大きな経済的負担となる可能性もあります。強力なコンピューティングリソースへのアクセスコストは参入障壁となり、多くの人がAIソリューションの探索と実装を妨げる可能性があります。

さらに、オンデバイスアプリケーションに十分な効率性と柔軟性を備えたモデルの市場には、顕著なギャップがあります。既存のモデルの多くは、スマートフォンや組み込みシステムなど、処理能力とメモリが限られているデバイスにデプロイするには、単純に大きすぎてリソースを消費しすぎます。これにより、AIがより広範な日常のデバイスやアプリケーションに統合される可能性が制限されます。

これらの課題に対処することは、AIをよりアクセスしやすく、カスタマイズ可能にするために非常に重要です。過剰なリソースを必要とせずに、多様なアプリケーションに合わせて調整できるソリューションに対するニーズが高まっています。これにより、より多くの開発者や組織がAIの力を活用し、特定のニーズを満たす革新的なソリューションを作成できるようになります。

Reka Flash 3の紹介:AIモデリングへの新しいアプローチ

Reka AIのReka Flash 3は、上記の課題に対処するための重要な一歩を表しています。この210億パラメータの推論モデルは、実用性と汎用性を重視して、ゼロから細心の注意を払って作成されました。以下を含む幅広いアプリケーションの基盤となるツールとして設計されています。

  • 一般的な会話: 自然で一貫性のある対話を行う。
  • コーディングサポート: コード生成とデバッグで開発者を支援する。
  • 指示に従う: ユーザーの指示を正確に解釈して実行する。
  • 関数呼び出し: 外部ツールやAPIとシームレスに統合する。

Reka Flash 3の開発には、慎重にキュレーションされたトレーニングプロセスが含まれていました。このプロセスでは、以下の組み合わせが活用されました。

  • 公的にアクセス可能なデータセット: 容易に入手可能なデータを利用して、幅広い知識ベースを提供する。
  • 合成データセット: 特定の機能を強化し、データのギャップに対処するために人工データを生成する。

このブレンドされたアプローチにより、モデルはバランスが取れており、多様なタスクを処理できるようになります。さらに、以下によって改良が加えられました。

  • 慎重な指示チューニング: 指示を理解し、応答するモデルの能力を最適化する。
  • REINFORCE Leave One-Out (RLOO) メソッドを使用した強化学習: 反復的なフィードバックと改善を通じてモデルのパフォーマンスを向上させる。

この意図的で多面的なトレーニングレジメンは、能力と効率の最適なバランスをとることを目指しています。目標は、Reka Flash 3を利用可能なAIモデルの状況の中で実用的で賢明な選択肢として位置づけることです。

Reka Flash 3の技術的特徴と効率性

技術的な観点から見ると、Reka Flash 3は、その汎用性とリソース効率に貢献するいくつかの機能を誇っています。これらの機能は、モデルを強力かつ実用的なものにし、幅広いデプロイシナリオに対応できるように設計されています。

際立った機能の1つは、最大32,000トークンのコンテキスト長を処理できることです。これは、モデルが圧倒されることなく長いドキュメントや複雑なタスクを処理および理解できるため、大きな利点です。この機能は、以下のようなアプリケーションに特に役立ちます。

  • 大規模なテキストコーパスの分析: 広範なデータセットから洞察を抽出する。
  • 包括的な要約の生成: 長い情報を簡潔な要約に凝縮する。
  • 長時間の対話への参加: 長い会話を通じてコンテキストと一貫性を維持する。

もう1つの革新的な機能は、‘budget forcing’ メカニズムの組み込みです。このメカニズムは、指定された <reasoning> タグを介して実装され、ユーザーがモデルの推論プロセスを明示的に制御できるようにします。具体的には、ユーザーは次のことができます。

  • 推論ステップの数を制限する: モデルの計算量を制限する。
  • 一貫したパフォーマンスを確保する: 過剰なリソース消費を防ぐ。
  • 応答時間を最適化する: 推論の深さを制限することで、より高速な結果を実現する。

この機能は、モデルの動作に対する貴重なレベルの制御を提供し、リソースの制約やリアルタイムのパフォーマンスが重要なアプリケーションに特に適しています。

さらに、Reka Flash 3はオンデバイスデプロイメントを念頭に置いて設計されています。これは、モデルの潜在的なアプリケーションをクラウドベースの環境を超えて拡張するため、重要な考慮事項です。モデルのサイズと効率性により、処理能力とメモリが限られているデバイスでの実行が可能になります。

  • 完全精度サイズ (fp16): 39GB
  • 4ビット量子化サイズ: 11GB

このコンパクトなサイズ、特に量子化を使用すると、より大きく、よりリソースを消費するモデルと比較して、よりスムーズで応答性の高いローカルデプロイが可能になります。これにより、AIを以下に統合する可能性が開かれます。

  • モバイルアプリケーション: スマートフォンやタブレットでのユーザーエクスペリエンスを向上させる。
  • 組み込みシステム: リソースに制約のあるデバイスでインテリジェントな機能を有効にする。
  • オフラインアプリケーション: インターネット接続がなくてもAI機能を提供する。

評価とパフォーマンス:実用的な視点

Reka Flash 3の実用性は、その評価指標とパフォーマンスデータによってさらに強調されています。このモデルは、すべてのベンチマークで記録的なスコアを目指しているわけではありませんが、さまざまなタスクで確かなレベルの能力を示しています。

たとえば、このモデルはMMLU-Proスコア65.0を達成しています。これは、この分野で最高のスコアではないかもしれませんが、コンテキストを考慮することが重要です。Reka Flash 3は汎用的な使用を目的として設計されており、このスコアは幅広い主題にわたってかなりのレベルの理解を示しています。さらに、モデルのパフォーマンスは、Web検索などの補足的な知識ソースと組み合わせると大幅に向上する可能性があります。これは、外部情報を活用して精度と推論能力を向上させる能力を強調しています。

モデルの多言語機能も注目に値します。機械翻訳の広く使用されているベンチマークであるWMT’23で、COMETスコア83.2を達成しています。これは、モデルが主に英語に焦点を当てているにもかかわらず、英語以外の入力を処理する上で妥当なレベルの習熟度を示しています。この機能により、モデルの潜在的な適用範囲が世界中のユーザーと多様な言語コンテキストに広がります。

Reka Flash 3をQwen-32Bなどの同等のモデルと比較すると、その効率的なパラメータ数が明らかになります。大幅に小さいモデルサイズで、競争力のあるパフォーマンスを実現しています。この効率性は、以下につながります。

  • 計算要件の削減: 開発者や組織の参入障壁を下げる。
  • 推論速度の向上: リアルタイムアプリケーションでの応答時間の短縮を可能にする。
  • エネルギー消費量の削減: より環境に優しいオプションにする。

これらの要因は、誇張された主張や持続不可能なリソース要求に頼ることなく、幅広い実際のアプリケーションに対するモデルの可能性を強調しています。

Reka Flash 3:バランスの取れたアクセスしやすいAIソリューション

Reka Flash 3は、AIモデル開発に対する思慮深く実用的なアプローチを表しています。パフォーマンスと効率のバランスを優先し、堅牢でありながら適応可能なモデルを実現しています。一般的なチャット、コーディング、および指示タスクにおけるその機能は、コンパクトな設計と革新的な機能と相まって、さまざまなデプロイシナリオにとって実用的なオプションとなっています。

32,000トークンのコンテキストウィンドウは、モデルが複雑で長い入力を処理できるようにし、budget forcingメカニズムは、ユーザーに推論プロセスに対するきめ細かい制御を提供します。これらの機能は、オンデバイスデプロイメントや低レイテンシアプリケーションへの適合性とともに、Reka Flash 3を有能で管理しやすいAIソリューションを求める研究者や開発者にとって貴重なツールとして位置づけています。不必要な複雑さや過剰なリソース要求なしに、実際的なニーズに沿った有望な基盤を提供します。