Tencent、Mamba搭載のAI推論新境地Hunyuan-T1を発表

大規模言語モデル最適化の進化する状況

人工知能の分野は、特に大規模言語モデル (LLMs) の初期トレーニング後の洗練段階において、パラダイムシフトを目の当たりにしています。モデルが報酬に導かれながら試行錯誤を通じて学習する洗練された技術である強化学習 (RL) は、パフォーマンスの大幅な向上を推進する強力な力として浮上しています。このアプローチは、学術的な好奇心から、主要なAI開発者にとっての基盤戦略へと移行しました。OpenAIのO-seriesや注目すべきDeepSeek R1のようなモデルによって示された印象的な能力は、モデルの出力を磨き、問題解決スキルを向上させ、AIの振る舞いを人間の期待や好みに近づける上で、強化学習が極めて重要な機能を果たしていることを示す説得力のある証拠となっています。このポストトレーニング段階は、もはや単なる微調整ではなく、モデルの認知能力を根本的に強化することに関するものです。

Hunyuan-T1の紹介:深層思考能力における飛躍

この急速な進歩を背景に、TencentのHunyuanチームは重要なマイルストーンを達成しました。今年初めの2月中旬、チームはHunyuan T1-Preview (Hunyuan-Thinker-1-Preview) の進捗状況を垣間見せました。Tencent Yuanbaoアプリケーションに統合されたこの初期の推論モデルは、中規模のHunyuanベース上に構築され、ユーザーに迅速かつ深遠な分析能力の一端を提供しました。

その基盤の上に、私たちは今、Hunyuan大規模モデルファミリー内の深層思考モデルの完全版であるHunyuan-T1の正式ローンチを発表できることを誇りに思います。これは単なる段階的なアップデートではありません。それは実質的な進化を表しています。Hunyuan-T1は、Tencentが3月初旬に導入した画期的なアーキテクチャであるTurboS高速思考ベースを活用しています。TurboSを特に注目すべきものにしているのは、世界初の超大規模Hybrid-Transformer-Mamba Mixture of Experts (MoE) 大規模モデルとしての特徴です。この革新的なハイブリッド構造は、確立されたTransformerアーキテクチャの強みと、新しいMamba状態空間モデルの効率性およびシーケンス処理能力を組み合わせています。広範かつ綿密に設計されたポストトレーニング体制を通じて、Hunyuan-T1の推論能力は劇的に増幅され、微妙な人間の好みとの整合性が大幅に洗練されました。プレビュー版の前身と比較して、公式のHunyuan-T1は全面的に著しい改善を示しており、業界の最先端、高推論大規模モデルの中で手ごわい競争相手として位置づけられています。

アーキテクチャの利点:TurboSとMambaの力

Hunyuan-T1の基盤としてTurboSを選択したことは、特に深く、多段階の推論を必要とするタスクに取り組む際に、明確な利点を提供します。多くの大規模言語モデルにおける重要なボトルネックは、広範なドキュメントや長い会話を扱う際に発生します。モデルが後続のテキストを処理するにつれて、早期に提示された情報が希薄になったり、完全に失われたりする可能性があり、これはコンテキストロスとして知られています。さらに、テキストの広大な範囲によって隔てられた点間の接続を確立すること、つまり長距離情報依存性は、重大な計算上の課題をもたらします。

TurboSから継承されたHunyuan-T1を支えるアーキテクチャは、これらの制限に直接立ち向かいます。その固有の設計は、堅牢な長文キャプチャを優先し、モデルが入力全体をよりしっかりと把握し続けることを保証し、それによってコンテキストロスを軽減し、拡張されたシーケンス全体にわたる重要な関係をより確実に特定します。この能力は、しばしば大規模なテキストコーパス全体に散在する情報を統合する必要がある複雑な推論タスクにとって不可欠です。

この強化された能力の中心にあるのがMambaアーキテクチャコンポーネントです。Mambaは、多くのTransformerモデルで支配的な純粋なアテンションベースのメカニズムからの脱却を表しています。これは、特に長いシーケンスを驚くべき効率で処理するために最適化された状態空間モデル (SSM) アプローチを利用しています。主な利点は次のとおりです。

  • 線形時間計算量: シーケンス長に関する標準的なアテンションメカニズムの二次計算量とは異なり、Mambaは線形にスケールします。これにより、法外なリソース要求なしに、非常に長いテキストの処理が計算上可能になります。
  • 効率的な計算: Mambaの設計は、トレーニング中の並列化可能な計算と、推論中の効率的な再帰的操作を可能にします。これは、より高速な処理速度に直接つながります。
  • 選択的状態管理: Mambaモデルは、シーケンスを処理する際に情報を選択的に保持または忘却することができ、コンテキスト管理へのより焦点を絞ったアプローチを模倣します。これは、長距離にわたって関連情報を維持するために不可欠です。

その結果、TurboS、ひいてはHunyuan-T1は、同等規模の従来のTransformerモデルと比較して、大幅に少ない計算リソースを消費しながら、長い入力を効果的に分析できます。内部ベンチマークによると、同一のデプロイメント条件下で、Hunyuan-T1はMamba最適化を欠く同等のモデルよりも2倍速いデコード速度を達成しており、これはタイムリーな応答を必要とする実世界のアプリケーションにとって重要な要素です。

ポストトレーニングの試練:強化学習による推論能力の鍛錬

ベースのTurboSモデルから高性能なHunyuan-T1への移行には、大規模かつ戦略的に焦点を当てたポストトレーニングフェーズが含まれていました。高度な学習技術の重要な役割を認識し、Tencentはこのフェーズに割り当てられた計算リソースの驚異的な96.7% を特に強化学習トレーニングに捧げました。この莫大な投資は、明確な戦略的優先事項を強調しています。それは、モデルの純粋な推論能力を高め、その出力を複雑な人間の判断や好みに細心の注意を払って整合させることです。

これは単にモデルにより多くのデータを与えることではありませんでした。それは、より効果的に考える方法を教えることでした。このRL集約型フェーズの核心的な目的は2つありました。

  1. 純粋な推論の強化: 多様なドメインにわたる論理的推論、数学的計算、因果推論、および複雑な問題解決を実行するモデルの能力の限界を押し広げること。
  2. 人間との整合性の最適化: モデルの応答が正確であるだけでなく、人間のユーザーに響くような方法で、有用で、無害で、正直で、ニュアンスがあることを保証すること。これには、暗黙の意図を理解し、一貫性があり文脈的に適切な出力を生成し、安全ガイドラインを遵守することが含まれます。

この要求の厳しいトレーニングプロセスを推進するために、広範で多様なデータセットが綿密にキュレーションされました。このコレクションは、幅広い分野にわたる世界の科学と推論の問題で構成されていました。

  • 数学: 基本的な算術と代数から、微積分、数論、および高度な競技レベルの問題まで。
  • 論理的推論: パズル、演繹的推論タスク、批判的思考の課題、および形式論理の問題。
  • 科学: 物理学、化学、生物学、その他の科学分野をカバーする質問と問題。しばしば多段階の推論と原理の適用を必要とします。
  • コーディング: アルゴリズム設計、コード生成、デバッグ、およびさまざまな言語にわたる複雑なプログラミングロジックの理解。

重要なことに、このデータはグラウンドトゥルースの実フィードバックと組み合わされました。このフィードバックループは強化学習にとって不可欠であり、どの推論経路が正しいまたは好ましい結果につながるかをモデルが理解するために必要なシグナルを提供します。この厳密な基礎付けにより、Hunyuan-T1は、実世界のシナリオで遭遇する幅広い困難な推論タスクに直面したときに、実証可能な熟練度を開発することが保証されます。

高度なトレーニング方法論

計算投資とデータ収集の膨大な規模は、学習効率とモデルの安定性を最大化するように設計された高度なトレーニング戦略と組み合わされました。

  • カリキュラム学習: モデルを最も複雑な問題で即座に圧倒するのではなく、カリキュラム学習アプローチが採用されました。トレーニングはより単純なタスクから始まり、徐々により難しい問題が導入されました。同時に、モデルの有効なコンテキスト長が段階的に拡張されました。この段階的なアプローチにより、モデルはより高度な課題に取り組む前に基礎的な推論スキルを構築でき、より安定した効率的な学習が促進されます。また、効果的な推論のためにトークン容量を賢明に利用するようにモデルをトレーニングし、思考プロセスにおける計算効率の一形態を開発します。
  • 高度な強化学習技術: 長期にわたるRLトレーニング中に堅牢で一貫した進歩を保証するために、古典的でありながら強力な戦略が採用されました。データリプレイ(学習を強化するために過去の経験を再利用する)や定期的なポリシーリセット(発散を防ぐために時折、以前の安定したモデル状態に戻る)などの技術が統合されました。これらの方法は非常に効果的であり、大規模なRLの取り組みを悩ませる可能性のある壊滅的な忘却やポリシー崩壊などの問題を軽減することにより、モデルトレーニングプロセスの長期的な安定性を50%以上大幅に向上させました。
  • 統一された報酬システム: モデルを人間の好みに合わせることは複雑なタスクです。Hunyuan-T1は、新しい統一された報酬システムを利用しました。このシステムは、2つのソースからのフィードバックを統合しました。
    • 自己報酬 (Self-Rewarding): T1-previewモデルの以前のバージョンが、トレーニング中のモデルの出力を包括的に評価およびスコアリングするための自動審査員として採用されました。これにより、事前に定義された基準に基づいて、迅速かつ大規模なフィードバック生成が可能になります。
    • 報酬モデル (Reward Model): 人間の好みを予測するために特別にトレーニングされた別のモデルが、品質、有用性、安全性といったより微妙な側面を捉える追加のガイダンスレイヤーを提供しました。
      この組み合わせたフィードバックメカニズムは、自己改善のプロセスを通じてモデルを導き、より豊富なコンテンツの詳細、より効率的な情報配信、および望ましい応答特性との全体的な整合性の向上を特徴とする出力を奨励しました。

パフォーマンスベンチマーク:エリートの中での際立った存在

大規模言語モデルの究極の尺度は、そのパフォーマンスにあります。Hunyuan-T1は、公開ベンチマークと内部データセットのバッテリーに対して厳密に評価され、現代のAIモデルのトップティアにしっかりと位置づける能力を示しています。

もう1つの高く評価されている推論重視のモデルであるDeepSeek R1と比較した場合、Hunyuan-T1は、異なる言語とドメインにわたる知識と推論を評価するいくつかの主要な公開ベンチマークで同等またはわずかに優れた結果を達成しています。

  • MMLU-pro: 多様な専門的および学術的主題にわたる包括的な知識と推論を評価するために設計された挑戦的なベンチマーク。
  • CEval: 多分野にわたる中国語評価スイート。
  • AIME: 洗練された推論を要求する競技レベルの数学問題に焦点を当てています。
  • Zebra Logic: 複雑な論理演繹パズルを特にターゲットとするベンチマーク。

これらの特定のテストを超えて、内部の人間評価データセットはさらなる洞察を提供します。多くの分野でR1と同等のパフォーマンスを発揮しながら、Hunyuan-T1は以下に関連するタスクでわずかな利点を示しています。

  • 文化的および創造的な指示の追従: 創造的なテキスト形式を生成し、文化的なニュアンスを伴う特定の文体要求に適応する。
  • テキスト要約: 主要な情報を保持しながら、長いドキュメントの簡潔で正確な要約を作成する。
  • エージェント能力: 計画、ツール使用、および外部システムとの対話を必要とするタスクで熟練度を示す。

全体的な能力を測定するために設計された包括的な評価メトリクスを見ると、Hunyuan-T1はエリート推論モデルの中での地位を固めています。

  • MMLU-PROでは、T1は評価時点でOpenAIのO1モデルに次ぐ87.2という驚くべきスコアを達成しました。このベンチマークは、人文科学、社会科学、STEM科目を含む14分野に及び、広範な知識の想起と理解の両方をテストします。
  • GPQA-diamondでのパフォーマンスも注目に値します。このベンチマークは、専門家レベルの知識と複雑な科学的推論に集中しており、主に物理学、化学、生物学の博士レベルの問題を特徴としています。Hunyuan-T1は69.3のスコアを達成し、高度に専門化された複雑な科学的問題を処理する強力な能力を示しています。

科学、工学、アライメントにおける卓越性

さらなる評価では、堅牢な推論能力を要求する特定の分野に掘り下げました。

  • コーディング: 実用的なコーディング問題解決をテストするLiveCodeBenchコード評価では、T1は64.9のスコアに達し、堅実なプログラミングロジックとコード生成スキルを示しました。
  • 数学: モデルは数学において卓越した強さを示しています。挑戦的な数学問題のデータセットであるMATH-500でのパフォーマンスは、96.2という傑出したスコアをもたらしました。この結果はDeepSeek R1と互角であり、Hunyuan-T1が複雑な数学的推論に取り組む深い能力を強調しています。
  • アライメントと指示追従: 純粋な問題解決を超えて、T1はさまざまなアライメントタスクにわたって堅牢な適応性を示します。指示追従シナリオで優れており、必要に応じてツールを利用する熟練度を示します。たとえば、挑戦的なユーザー生成プロンプトでのパフォーマンスを評価するために設計されたArenaHardタスクでは、T1は91.9という高いスコアを達成しました。

これらの結果は、全体として、非常に有能で、用途が広く、よく整合された大規模言語モデルの像を描き出しています。Hybrid-Transformer-Mambaアーキテクチャの戦略的統合は、集中的なRL重視のポストトレーニング体制と相まって、Hunyuan-T1を生み出しました。これは、特に複雑な長文コンテキストシナリオや要求の厳しい科学的および数学的ドメインにおいて、卓越した推論能力を示すモデルです。