Pixtral 12B-2409、Amazon Bedrock Marketplaceでアクセス可能に
Amazon Bedrock Marketplaceで、Mistral AIが開発した最先端の120億パラメータの視覚言語モデル(VLM)であるPixtral 12B(pixtral-12b-2409)が提供されるようになりました。この強力なモデルは、テキストベースのタスクとマルチモーダルタスクの両方に優れています。Amazon Bedrock Marketplaceは、Amazon Bedrock内の新機能であり、利用可能な基盤モデル(FM)の選択肢を拡張し、開発者が100を超える人気のある、新しい、特殊なモデルを発見、テスト、および利用できるようにし、既存の業界をリードするモデルの範囲を補完します。この記事では、Pixtral 12Bモデルを発見、デプロイ、および活用して、さまざまな実用的な視覚関連アプリケーションを実現するプロセスについて説明します。
Pixtral 12Bの詳細
Pixtral 12Bは、MistralがVLMに初めて取り組んだものであり、さまざまなベンチマークで優れたパフォーマンスを示しています。Mistralの内部評価によると、他のオープンモデルよりも優れており、はるかに大きなモデルとも競合します。Pixtralは、画像とドキュメントの両方を理解するように設計されており、視覚中心のタスクで高度な機能を発揮します。これらには、チャートや図の解釈、ドキュメントの内容に関する質問への回答、マルチモーダル推論への関与、および指示への細心の注意を払った追従が含まれます。このモデルの重要な機能は、画像をネイティブ解像度とアスペクト比で処理できることであり、高忠実度の入力処理を保証します。さらに、多くのオープンソースの代替手段とは異なり、Pixtral 12Bは、マルチモーダルタスクのパフォーマンスを損なうことなく、テキストベースのベンチマークで優れた結果を達成します。これは、命令追従、コーディング、および数学的推論の習熟度を示しています。
Pixtral 12Bの背後にある革新は、計算効率と高性能の両方のために細心の注意を払って設計されたMistralの斬新なアーキテクチャにあります。このモデルは、2つのコアコンポーネントで構成されています。画像をトークン化するタスクを担う4億パラメータの視覚エンコーダと、120億パラメータのマルチモーダルトランスフォーマーデコーダです。このデコーダは、テキストと画像のシーケンスに基づいて、後続のテキストトークンを予測します。視覚エンコーダは、さまざまな画像サイズをネイティブに処理するように特別にトレーニングされています。これにより、Pixtralは、高解像度の図、チャート、ドキュメントを正確に解釈しながら、アイコン、クリップアート、数式などの小さな画像の高速な推論速度を維持できます。この慎重に作成されたアーキテクチャは、128,000トークンのかなりのコンテキストウィンドウ内で、さまざまなサイズの任意の数の画像の処理をサポートします。
オープンウェイトモデルを採用する場合、ライセンス契約は最も重要な考慮事項です。Mistral 7B、Mixtral 8x7B、Mixtral 8x22B、Mistral Nemo 12Bなどの他のMistralモデルのライセンスアプローチを反映して、Pixtral 12Bは、商業的に許容されるApache 2.0ライセンスの下でリリースされます。これにより、企業とスタートアップの顧客の両方に高性能なVLMオプションが提供され、洗練されたマルチモーダルアプリケーションを構築できるようになります。
パフォーマンス指標とベンチマーク:詳細な検討
Pixtral 12Bは、自然画像とドキュメントの両方を理解するように細心の注意を払ってトレーニングされています。Mistralの報告によると、Massive Multitask Language Understanding(MMLU)推論ベンチマークで52.5%のスコアを達成し、いくつかのより大きなモデルを上回りました。MMLUベンチマークは、厳密なテストとして機能し、さまざまな主題にわたる言語モデルの言語理解および利用能力を評価します。MMLUは、数学、哲学、法律、医学など、さまざまな学問分野にまたがる10,000を超える多肢選択問題で構成されています。
Pixtral 12Bは、チャートや図の理解、ドキュメントの内容に基づいた質問への回答、マルチモーダル推論への関与、指示への準拠などのタスクで堅牢な機能を示しています。モデルが自然な解像度とアスペクト比で画像を取り込む機能により、ユーザーは画像処理に使用されるトークンの数に柔軟性を持たせることができます。さらに、Pixtralは、128,000トークンの広範なコンテキストウィンドウ内で複数の画像を処理できます。Mistralの調査結果によると、以前のオープンソースモデルとは対照的に、Pixtralはマルチモーダルタスクで優れているためにテキストベンチマークのパフォーマンスを犠牲にしていません。
Amazon Bedrock MarketplaceでのPixtral 12Bのデプロイ:ステップバイステップガイド
Amazon Bedrockコンソールは、特定のユースケースまたは言語に合わせたモデルの検索を容易にします。検索結果には、サーバーレスモデルとAmazon Bedrock Marketplaceを通じて利用可能なモデルの両方が含まれます。ユーザーは、プロバイダー、モダリティ(テキスト、画像、オーディオなど)、またはタスク(分類やテキスト要約など)に基づいて結果をフィルタリングすることにより、検索を絞り込むことができます。
Amazon Bedrock Marketplace内でPixtral 12Bにアクセスするには、次の詳細な手順に従います。
モデルカタログに移動: Amazon Bedrockコンソール内で、ナビゲーションペインの’Foundation models’セクションの下にある’Model catalog’を見つけて選択します。
Pixtral 12Bのフィルタリングと選択: プロバイダーとして’Hugging Face’を選択し、Pixtral 12Bモデルを選択して、モデルリストを絞り込みます。または、’Filter for a model’入力ボックスで’Pixtral’を直接検索することもできます。
モデルの詳細の確認: モデルの詳細ページには、モデルの機能、価格体系、および実装ガイドラインに関する重要な情報が記載されています。このページには、統合を容易にするためのサンプルAPI呼び出しやコードスニペットなど、包括的な使用方法が記載されています。また、Pixtral 12Bをアプリケーションに組み込むプロセスを合理化するためのデプロイオプションとライセンス情報も提示します。
デプロイの開始: Pixtral 12Bの利用を開始するには、’Deploy’ボタンをクリックします。
デプロイ設定の構成: Pixtral 12Bのデプロイの詳細を構成するように求められます。モデルIDは、便宜上、事前に入力されています。
エンドユーザーライセンス契約(EULA)の承諾: エンドユーザーライセンス契約(EULA)を注意深く読み、承諾します。
エンドポイント名: ‘Endpoint Name’は自動的に入力されます。ただし、顧客はエンドポイントの名前を変更するオプションがあります。
インスタンス数: 1から100までの範囲で、必要なインスタンス数を指定します。
インスタンスタイプ: 希望するインスタンスタイプを選択します。Pixtral 12Bで最適なパフォーマンスを得るには、ml.g6.12xlargeなどのGPUベースのインスタンスタイプをお勧めします。
詳細設定(オプション): オプションで、高度なセキュリティおよびインフラストラクチャ設定を構成できます。これらには、virtual private cloud(VPC)ネットワーク、サービスロールのアクセス許可、および暗号化設定が含まれます。デフォルト設定はほとんどのユースケースに適していますが、本番環境のデプロイメントでは、これらの設定を確認して、組織のセキュリティおよびコンプライアンス要件との整合性を確保することをお勧めします。
モデルのデプロイ: ‘Deploy’をクリックして、モデルのデプロイプロセスを開始します。
デプロイステータスの監視: デプロイが完了すると、’Endpoint status’が’In Service’に移行するはずです。エンドポイントがアクティブになったら、Amazon Bedrockプレイグラウンド内でPixtral 12Bの機能を直接テストできます。
プレイグラウンドへのアクセス: ‘Open in playground’を選択して、インタラクティブなインターフェースにアクセスします。このインターフェースでは、さまざまなプロンプトを試したり、温度や最大長などのモデルパラメータを調整したりできます。
プレイグラウンドは、モデルをアプリケーションに統合する前に、モデルの推論およびテキスト生成機能を探索するための優れた環境を提供します。即座にフィードバックを提供し、モデルがさまざまな入力にどのように応答するかを理解し、最適な結果を得るためにプロンプトを微調整できるようにします。
プレイグラウンドではUIを介した迅速なテストが可能ですが、Amazon Bedrock APIを使用してデプロイされたモデルをプログラムで呼び出すには、Amazon Bedrock SDKでmodel-id
としてエンドポイントARNを使用する必要があります。
Pixtral 12Bのユースケースの探索
このセクションでは、Pixtral 12Bの機能の実用的な例を掘り下げ、サンプルプロンプトを通じてその多様性を示します。
視覚的論理推論:強力なアプリケーション
視覚モデルの最も魅力的なアプリケーションの1つは、論理推論問題または視覚パズルを解決する能力です。Pixtral 12B視覚モデルは、論理推論の質問に取り組む際に卓越した能力を発揮します。この機能を説明するために、具体的な例を見てみましょう。核となる強みは、画像を見るだけでなく、パターンを抽出し、論理を適用する能力です。大規模言語モデルの機能は、応答を提供するために使用されます。
例:
図形のシーケンスが提示され、タスクが隠されたパターンに基づいてシーケンス内の次の図形を決定する視覚パズルを想像してください。
プロンプト: ‘次の図形のシーケンスを分析し、シリーズの次の図形を予測してください。あなたの推論を説明してください。’
入力ペイロード: (図形のシーケンスを示す画像)
期待される出力: Pixtral 12Bは理想的には:
- パターンの特定: 図形のシーケンスを支配する根本的なパターンを正しく識別します。これには、形状、色、向き、またはこれらの要因の組み合わせの変化を認識することが含まれる場合があります。
- 次の図形の予測: 特定されたパターンに基づいて、シーケンス内の次の図形の特性を正確に予測します。
- 推論の説明: 予測に到達するために取られた論理的な手順を明確に説明し、特定されたパターンが次の図形を決定するためにどのように適用されたかを説明します。
この例は、Pixtral 12Bが視覚情報を処理するだけでなく、論理推論を適用して情報を解釈し、予測を行う能力を強調しています。この機能は、単純なパターン認識を超えて、空間推論、ルールベースの推論、さらには抽象概念の理解を含む、より複雑なシナリオを包含します。
さらなるユースケースと拡張
視覚パズルを超えて、Pixtral 12Bの視覚的論理推論機能は、幅広い現実世界のシナリオに適用できます。
- データ分析と解釈: チャート、グラフ、図を分析して、主要な洞察と傾向を抽出します。たとえば、複雑な視覚化で提示された異なるデータセット間の相関関係を特定します。
- 医療画像分析: X線、CTスキャン、MRIなどの医療画像の解釈を支援し、特定の状態を示す異常またはパターンを特定します。
- ロボット工学と自律システム: ロボットが視覚的な手がかりを解釈し、シーンの理解に基づいて意思決定を行うことにより、複雑な環境をナビゲートできるようにします。
- セキュリティと監視: ビデオ映像を分析して、疑わしい活動を検出したり、関心のあるオブジェクトを特定したりします。
- 教育とトレーニング: 視覚的なプロンプトに対するユーザーの応答に基づいて、ユーザーの理解に適応するインタラクティブな学習教材を作成します。
- ドキュメント理解: 複雑なドキュメントから構造化データを抽出します。
Pixtral 12Bの多様性とAmazon Bedrockのアクセシビリティの組み合わせにより、視覚言語モデルの力を活用しようとしている開発者や企業に、さまざまな可能性が開かれます。画像を処理し、統一された方法でテキストを処理する機能は、強力な推論機能と相まって、Pixtral 12Bを多数のアプリケーションにとって貴重なツールにします。展開の容易さと商業的に許容されるライセンスは、その魅力をさらに高め、研究と商業の両方の取り組みにとって魅力的なオプションになります。