Pixtral-12B-2409 現已登陸 Amazon Bedrock Marketplace

深入了解 Pixtral 12B

Pixtral 12B 是 Mistral 首次涉足 VLM 的產品,在多項基準測試中展現了令人印象深刻的性能。根據 Mistral 的內部評估,它優於其他開放模型,甚至可以與更大的模型相媲美。Pixtral 專為圖像和文件理解而設計,在以視覺為中心的任務中表現出卓越的能力。這些任務包括解釋圖表和圖形、回答有關文件內容的問題、進行多模態推理以及嚴格遵循指令。此模型的一個關鍵特性是它能夠以原始解析度和長寬比處理圖像,確保高保真度的輸入處理。此外,與許多開源替代方案不同,Pixtral 12B 在基於文本的基準測試中取得了優異的成績 – 證明了其在指令遵循、編碼和數學推理方面的熟練程度 – 同時不影響其多模態任務性能。

Pixtral 12B 背後的創新在於 Mistral 的新穎架構,該架構經過精心設計,兼顧計算效率和高性能。該模型包含兩個核心組件:一個 4 億參數的視覺編碼器,負責對圖像進行標記化;以及一個 120 億參數的多模態 Transformer 解碼器。此解碼器根據給定的文本和圖像序列預測後續的文本標記。視覺編碼器經過專門訓練,可以原生處理可變大小的圖像。這使得 Pixtral 能夠準確地解釋高解析度的圖表和文件,同時保持較小圖像(例如圖標、剪貼畫和方程式)的快速推理速度。這種精心設計的架構支持處理任意數量、不同大小的圖像,所有這些都在 128,000 個標記的龐大上下文窗口內完成。

在使用開放權重模型時,許可協議是一個至關重要的考慮因素。與 Mistral 7B、Mixtral 8x7B、Mixtral 8x22B 和 Mistral Nemo 12B 等其他 Mistral 模型一樣,Pixtral 12B 採用商業上寬鬆的 Apache 2.0 許可證發布。這為企業和初創公司客戶提供了一個高性能的 VLM 選項,使他們能夠構建複雜的多模態應用程序。

性能指標和基準測試:更深入的觀察

Pixtral 12B 經過精心訓練,可以理解自然圖像和文件。正如 Mistral 報告的那樣,它在 Massive Multitask Language Understanding (MMLU) 推理基準測試中獲得了 52.5% 的分數,優於其他幾個較大的模型。MMLU 基準測試是一個嚴格的測試,評估語言模型在各種主題中理解和使用語言的能力。MMLU 包含 10,000 多個多項選擇題,涵蓋各種學科,包括數學、哲學、法律和醫學。

Pixtral 12B 在理解圖表和圖形、根據文件內容回答問題、進行多模態推理以及遵守指令等任務中表現出強大的能力。該模型能夠以其自然解析度和長寬比攝取圖像,為用戶提供了用於圖像處理的標記數量的靈活性。此外,Pixtral 可以在其廣泛的 128,000 個標記上下文窗口中處理多個圖像。值得注意的是,根據 Mistral 的研究結果,與以前的開源模型相比,Pixtral 並沒有為了在多模態任務中表現出色而犧牲文本基準測試的性能。

在 Amazon Bedrock Marketplace 上部署 Pixtral 12B:逐步指南

Amazon Bedrock 控制台有助於搜尋針對特定用例或語言量身定制的模型。搜尋結果包括無伺服器模型和通過 Amazon Bedrock Marketplace 提供的模型。用戶可以通過基於提供者、模態(例如文本、圖像或音頻)或任務(例如分類或文本摘要)過濾結果來優化搜尋。

若要在 Amazon Bedrock Marketplace 中訪問 Pixtral 12B,請按照以下詳細步驟操作:

  1. 導航到模型目錄: 在 Amazon Bedrock 控制台中,在導航窗格的 ‘Foundation models’ 部分下找到並選擇 ‘Model catalog’。

  2. 過濾並選擇 Pixtral 12B: 通過選擇 ‘Hugging Face’ 作為提供者,然後選擇 Pixtral 12B 模型來優化模型列表。或者,您可以在 ‘Filter for a model’ 輸入框中直接搜尋 ‘Pixtral’。

  3. 查看模型詳細信息: 模型詳細信息頁面提供了有關模型功能、定價結構和實施指南的關鍵信息。此頁面提供了全面的使用說明,包括示例 API 調用和代碼片段,以促進集成。它還提供了部署選項和許可信息,以簡化將 Pixtral 12B 整合到您的應用程序中的過程。

  4. 啟動部署: 要開始使用 Pixtral 12B,請單擊 ‘Deploy’ 按鈕。

  5. 配置部署設置: 系統將提示您配置 Pixtral 12B 的部署詳細信息。模型 ID 將為您預先填寫。

  6. 接受最終用戶許可協議 (EULA): 仔細閱讀並接受最終用戶許可協議 (EULA)。

  7. 端點名稱: ‘Endpoint Name’ 會自動填寫;但是,客戶可以選擇重命名端點。

  8. 實例數: 指定所需的實例數,範圍從 1 到 100。

  9. 實例類型: 選擇您喜歡的實例類型。為了獲得 Pixtral 12B 的最佳性能,建議使用基於 GPU 的實例類型,例如 ml.g6.12xlarge。

  10. 高級設置(可選): 您可以選擇配置高級安全和基礎設施設置。這些設置包括虛擬私有雲 (VPC) 網絡、服務角色權限和加密設置。雖然默認設置適用於大多數用例,但對於生產部署,建議查看這些設置以確保與您組織的安全和合規性要求保持一致。

  11. 部署模型: 單擊 ‘Deploy’ 以啟動模型部署過程。

  12. 監控部署狀態: 部署完成後,’Endpoint status’ 應轉換為 ‘In Service’。端點激活後,您可以直接在 Amazon Bedrock playground 中測試 Pixtral 12B 的功能。

  13. 訪問 Playground: 選擇 ‘Open in playground’ 以訪問交互式界面。此界面允許您試驗各種提示並調整模型參數,例如溫度和最大長度。

Playground 提供了一個極好的環境,可以在將模型集成到您的應用程序之前探索模型的推理和文本生成能力。它提供即時反饋,使您能夠了解模型如何響應不同的輸入並微調您的提示以獲得最佳結果。

雖然 Playground 允許通過 UI 進行快速測試,但使用 Amazon Bedrock API 以編程方式調用已部署的模型需要使用端點 ARN 作為 Amazon Bedrock SDK 中的 model-id

探索 Pixtral 12B 用例

本節深入探討 Pixtral 12B 功能的實際示例,通過示例提示展示其多功能性。

視覺邏輯推理:強大的應用

視覺模型最引人注目的應用之一是它們解決邏輯推理問題或視覺謎題的能力。Pixtral 12B 視覺模型在處理邏輯推理問題方面表現出卓越的能力。讓我們研究一個具體的例子來說明這種能力。其核心優勢不僅在於能夠看到圖像,還在於能夠提取模式並應用邏輯。大型語言模型功能用於提供響應。

範例:
想像一個視覺謎題,其中呈現一系列形狀,任務是根據隱藏的模式確定序列中的下一個形狀。

提示: ‘分析以下形狀序列並預測系列中的下一個形狀。解釋你的推理。’

輸入負載: (描繪形狀序列的圖像)

預期輸出: Pixtral 12B 理想情況下會:

  1. 識別模式: 正確識別控制形狀序列的底層模式。這可能涉及識別形狀、顏色、方向或這些因素的組合的變化。
  2. 預測下一個形狀: 根據識別的模式,準確預測序列中下一個形狀的特徵。
  3. 解釋推理: 清楚地闡明得出預測所採取的邏輯步驟,解釋如何應用識別的模式來確定下一個形狀。

此示例突出了 Pixtral 12B 不僅能夠處理視覺信息,還能夠應用邏輯推理來解釋信息並做出預測的能力。這種能力不僅限於簡單的模式識別,還包括涉及空間推理、基於規則的演繹,甚至抽象概念理解的更複雜的場景。

更多用例和擴展

除了視覺謎題,Pixtral 12B 的視覺邏輯推理能力還可以應用於廣泛的現實場景:

  • 數據分析和解釋: 分析圖表和圖形以提取關鍵見解和趨勢。例如,識別複雜可視化中呈現的不同數據集之間的相關性。
  • 醫學圖像分析: 通過識別指示特定狀況的異常或模式,協助解釋醫學圖像,例如 X 射線、CT 掃描和 MRI。
  • 機器人和自主系統: 通過解釋視覺線索並根據他們對場景的理解做出決策,使機器人能夠在複雜的環境中導航。
  • 安全和監控: 分析視頻片段以檢測可疑活動或識別感興趣的對象。
  • 教育和培訓: 創建交互式學習材料,根據用戶對視覺提示的響應來適應用戶的理解。
  • 文件理解: 從複雜文件中提取結構化數據。

Pixtral 12B 的多功能性,加上 Amazon Bedrock 的可訪問性,為尋求利用視覺語言模型力量的開發人員和企業開闢了廣闊的可能性。以統一方式處理圖像和文本的能力,加上強大的推理能力,使 Pixtral 12B 成為眾多應用程序的寶貴工具。易於部署和商業上寬鬆的許可進一步增強了其吸引力,使其成為研究和商業活動的有吸引力的選擇。