Baidu、ERNIE 4.5とX1を公開、無料アクセス提供

ERNIE 4.5: 新世代のマルチモーダル基盤モデル

Baidu, Inc. は、人工知能における最新の進歩を発表し、ネイティブなマルチモーダル基盤モデルである ERNIE 4.5 と、深層思考推論モデルである ERNIE X1 を発表しました。これらのモデルは、AI 機能の大幅な飛躍を表しており、これらの最先端技術へのアクセスを民主化する動きとして、Baidu は両方のモデルを ERNIE Bot 公式ウェブサイトを通じて個人ユーザーが無料で利用できるようにしました。当初予定されていた 4 月 1 日よりも前にこのステップが取られたことは、AI 研究の限界を押し広げるだけでなく、これらの強力なツールをより幅広いユーザーが利用できるようにするという Baidu のコミットメントを強調しています。

ERNIE 4.5 は、Baidu が独自に開発した最新のネイティブ マルチモーダル基盤モデルです。このモデルは、複数のモダリティを共同でモデル化することにより、協調的な最適化を実現するように設計されています。この革新的なアプローチにより、卓越したマルチモーダル理解能力が実現します。ERNIE 4.5 の特徴は、洗練された言語スキルと、理解、生成、推論、記憶における全体的な強化が組み合わされていることです。さらに、幻覚防止、論理的推論、コーディング能力など、AI モデルにとってしばしば困難な領域で大幅な改善を示しています。

ERNIE 4.5 のマルチモーダルな性質は、以下を含むさまざまな種類のコンテンツをシームレスに統合し、理解する能力に表れています。

  • テキスト: 書かれた情報を処理し、理解する。
  • 画像: 視覚的なコンテンツを解釈し、分析する。
  • 音声: 話し言葉を理解し、応答する。
  • ビデオ: 動的な視覚情報と聴覚情報を分析し、理解する。

この包括的なマルチモーダル機能により、ERNIE 4.5 は、複雑な質問への回答からクリエイティブなコンテンツの生成まで、幅広いタスクを処理できます。

コアとなるマルチモーダル機能に加えて、ERNIE 4.5 は、驚くべきレベルの知性と状況認識を示します。ミームや風刺漫画など、現代のインターネット文化を難なく理解し、進化する言語やコミュニケーション スタイルに適応する能力を示しています。

Baidu の主力基盤モデルであり、ネイティブなマルチモーダル製品である ERNIE 4.5 は、さまざまなベンチマーク テストで GPT-4.5 を上回るように位置付けられています。注目すべきは、GPT-4.5 のわずかなコスト (約 1%) でこの優れたパフォーマンスを達成していることです。この費用対効果と高度な機能により、ERNIE 4.5 は AI 分野において非常に競争力があり、アクセスしやすいオプションとなっています。

ERNIE 4.5 の機能の大幅な強化は、いくつかの主要な技術的ブレークスルーの直接的な結果です。

  • ‘FlashMask’ 動的アテンション マスキング: この技術により、モデルは入力データの最も関連性の高い部分に動的に焦点を当てることができ、効率と精度が向上すると考えられます。
  • 異種マルチモーダル Mixture-of-Experts: これは、ERNIE 4.5 が、それぞれ異なるモダリティまたはタスクに最適化された、多様な専門サブモデルのセットを利用し、それらを組み合わせて全体的なパフォーマンスを向上させることを示唆しています。
  • 時空間表現圧縮: これは、モデルが高度な技術を採用して、ビデオ コンテンツなど、時間と空間で変化するデータを圧縮し、効率的に表現することを示唆しています。
  • 知識中心のトレーニング データ構築: これは、ERNIE 4.5 のトレーニング データが、知識の獲得と表現を強調するように慎重にキュレーションおよび構造化され、推論能力の向上につながることを示しています。
  • 自己フィードバック強化型事後トレーニング: これは、モデルが初期トレーニング後に、自身の出力から学習し、パフォーマンスを反復的に改善する改良プロセスを経ることを示唆しています。

これらの技術的進歩は、ERNIE 4.5 の優れたパフォーマンスと汎用性に総合的に貢献しています。

ERNIE X1: AI 機能強化のための深層思考推論モデル

ERNIE X1 は、AI に対する異なるアプローチを表しており、深層思考と推論能力に焦点を当てています。このモデルは、以下のような高度な認知機能を必要とするタスクで優れているように設計されています。

  • 理解: 複雑な情報と概念を理解する。
  • 計画: 目標を達成するための戦略と一連の行動を開発する。
  • 反省: 自身の推論プロセスを評価し、改善の余地がある領域を特定する。
  • 進化: 新しい情報や経験から適応し、学習する。

ツール使用機能を備えた Baidu 初のマルチモーダル深層思考推論モデルとして、ERNIE X1 は、いくつかの主要分野で特に強みを発揮します。

  • 中国語知識 Q&A: 中国語と文化の膨大な知識ベースに基づいて質問に回答する。
  • 文学創作: 詩、脚本、記事などのクリエイティブなテキスト形式を生成する。
  • 原稿執筆: 長文の文章コンテンツの下書きと構成を支援する。
  • 対話: 自然で一貫性のある会話を行う。
  • 論理的推論: 演繹的および帰納的推論を必要とする問題を解決する。
  • 複雑な計算: 複雑な数学的計算を実行する。

ERNIE X1 のツールを使用する能力は、重要な差別化要因です。さまざまなツールを活用してパフォーマンスを向上させ、より包括的なソリューションを提供できます。これらのツールには以下が含まれます。

  • 高度な検索: 検索エンジンから情報にアクセスして取得する。
  • 指定されたドキュメントに関する Q&A: 特定のドキュメントの内容に基づいて質問に回答する。
  • 画像理解: 視覚情報を分析し、解釈する。
  • AI 画像生成: テキストの説明に基づいて新しい画像を生成する。
  • コード解釈: コンピューター コードを理解し、実行する。
  • Web ページ読み取り: Web ページから情報を抽出する。
  • TreeMind マッピング: マインド マップを作成および操作する。
  • Baidu 学術検索: Baidu の学術検索エンジンから情報にアクセスして取得する。
  • 企業情報検索: 企業や組織に関する情報を収集する。
  • フランチャイズ情報検索: フランチャイズの機会に関する情報を取得する。

このツール使用の統合により、ERNIE X1 は、複数のソースから情報にアクセスして処理する必要がある複雑な現実世界の問題に取り組むことができます。

ERNIE X1 の強化された機能は、いくつかの主要な技術的進歩によって支えられています。

  • 漸進的強化学習法: このアプローチは、一連のますます困難になるタスクを通じてモデルをトレーニングし、徐々にパフォーマンスを向上させることを含むと考えられます。
  • 思考と行動の連鎖を統合したエンドツーエンドのトレーニング アプローチ: これは、モデルが出力を生成するだけでなく、それらの出力に到達するまでのステップについて推論するようにトレーニングされ、より解釈可能で信頼性の高い結果につながることを示唆しています。
  • 統一された多面的な報酬システム: これは、モデルがさまざまな目標を達成することで報酬を得ることを意味し、幅広いスキルと能力を開発することを奨励します。

これらの技術は、ERNIE X1 が複雑な推論タスクを実行し、環境と効果的に対話する能力に貢献しています。

アクセスと統合: ERNIE 4.5 と X1 をユーザーに提供

Baidu のアクセシビリティへのコミットメントは、ERNIE 4.5 と ERNIE X1 の両方を ERNIE Bot ウェブサイトを通じて個人ユーザーに無料で利用できるようにするという決定に表れています。この動きにより、幅広いユーザーがこれらの高度な AI モデルのパワーを直接体験できるようになります。

企業ユーザーと開発者向けには、ERNIE 4.5 は Baidu AI Cloud の MaaS プラットフォームである Qianfan 上の API を通じてアクセスできます。このプラットフォームは、ERNIE 4.5 の機能を幅広いアプリケーションに統合するための堅牢でスケーラブルなインフラストラクチャを提供します。Qianfan での ERNIE 4.5 の価格は非常に競争力があり、入力価格は 1,000 トークンあたり 0.004 人民元から、出力価格は 1,000 トークンあたり 0.016 人民元からです。ERNIE X1 はまもなく Qianfan プラットフォームで利用可能になる予定であり、企業ユーザー向けのオプションがさらに拡大します。

Baidu はまた、ERNIE 4.5 と X1 の両方を、より広範な製品エコシステムに段階的に統合する予定です。この統合には、以下を含むさまざまな Baidu 製品が含まれます。

  • Baidu 検索: 高度な AI 機能で検索エクスペリエンスを強化する。
  • Wenxiaoyan アプリ: Baidu の人気のある文章作成アシスタント アプリにモデルを統合する。
  • その他の製品: ERNIE 4.5 と X1 のリーチを他の Baidu 製品およびサービスに拡大する。

この広範な統合により、これらの高度な AI モデルのメリットが幅広いユーザー エクスペリエンスで実感できるようになります。

これらの進歩は、人工知能の分野における重要な一歩を表しています。マルチモーダルな理解と深層思考推論の両方に焦点を当てることで、Baidu は AI 能力の異なる側面に対応する 2 つの強力なモデルを作成しました。無料のパブリック アクセスと企業ユーザー向けの競争力のある価格設定によるアクセシビリティへのコミットメントは、これらの進歩が広範な影響を与えることを保証します。これらのモデルを Baidu の製品エコシステムに統合することで、同社の AI 戦略の主要コンポーネントとしての地位がさらに強固になります。人工知能、データセンター、クラウド インフラストラクチャへの継続的な投資は、AI 機能を向上させ、将来さらにスマートで強力な次世代モデルを開発するという Baidu の献身を強調しています。