Pixtral-12B-2409现已登陆亚马逊Bedrock

深入了解 Pixtral 12B

Pixtral 12B 是 Mistral 首次涉足视觉语言模型 (VLM) 领域,并在多个基准测试中展现出令人印象深刻的性能。根据 Mistral 的内部评估,它优于其他开源模型,甚至可以与更大的模型相媲美。Pixtral 专为图像和文档理解而设计,在以视觉为中心的任务中表现出先进的能力。这些任务包括解释图表和图形、回答有关文档内容的问题、进行多模态推理以及严格遵循指令。该模型的一个关键特性是它能够以原始分辨率和纵横比处理图像,确保高保真输入处理。此外,与许多开源替代方案不同,Pixtral 12B 在基于文本的基准测试中取得了优异的成绩——在指令遵循、编码和数学推理方面表现出色——同时又不影响其多模态任务性能。

Pixtral 12B 背后的创新在于 Mistral 的新颖架构,该架构经过精心设计,兼顾计算效率和高性能。该模型包含两个核心组件:一个 4 亿参数的视觉编码器,负责对图像进行标记化;以及一个 120 亿参数的多模态 Transformer 解码器。该解码器根据给定的文本和图像序列预测后续的文本标记。视觉编码器经过专门训练,可以原生处理可变大小的图像。这使得 Pixtral 能够准确解释高分辨率图表和文档,同时保持较小图像(如图标、剪贴画和方程式)的快速推理速度。这种精心设计的架构支持处理任意数量的不同大小的图像,所有这些都在 128,000 个标记的大型上下文窗口内完成。

在使用开源权重模型时,许可协议是一个至关重要的考虑因素。与其他 Mistral 模型(如 Mistral 7B、Mixtral 8x7B、Mixtral 8x22B 和 Mistral Nemo 12B)的许可方法一样,Pixtral 12B 在商业上宽松的 Apache 2.0 许可下发布。这为企业和初创公司客户提供了一个高性能的 VLM 选项,使他们能够构建复杂的多模态应用程序。

性能指标和基准测试:更深入的观察

Pixtral 12B 经过精心训练,可以理解自然图像和文档。据 Mistral 报告,它在海量多任务语言理解 (MMLU) 推理基准测试中获得了 52.5% 的分数,优于几个更大的模型。MMLU 基准测试是一项严格的测试,评估语言模型在各种主题中理解和利用语言的能力。MMLU 包含 10,000 多个多项选择题,涵盖各种学科,包括数学、哲学、法律和医学。

Pixtral 12B 在理解图表和图形、根据文档内容回答问题、进行多模态推理以及遵守指令等任务中表现出强大的能力。该模型能够以自然分辨率和纵横比摄取图像,为用户提供了用于图像处理的标记数量的灵活性。此外,Pixtral 可以在其广泛的 128,000 个标记的上下文窗口中处理多个图像。值得注意的是,根据 Mistral 的研究结果,与以前的开源模型相比,Pixtral 并没有牺牲文本基准测试的性能来在多模态任务中脱颖而出。

在 Amazon Bedrock Marketplace 上部署 Pixtral 12B:分步指南

Amazon Bedrock 控制台有助于搜索针对特定用例或语言定制的模型。搜索结果包括无服务器模型和通过 Amazon Bedrock Marketplace 提供的模型。用户可以通过根据提供商、模态(例如,文本、图像或音频)或任务(例如,分类或文本摘要)筛选结果来优化搜索。

要访问 Amazon Bedrock Marketplace 中的 Pixtral 12B,请按照以下详细步骤操作:

  1. 导航到模型目录: 在 Amazon Bedrock 控制台中,找到并选择导航窗格中“Foundation models”下的“Model catalog”。

  2. 筛选并选择 Pixtral 12B: 通过选择“Hugging Face”作为提供商,然后选择 Pixtral 12B 模型来优化模型列表。或者,您可以在“Filter for a model”输入框中直接搜索“Pixtral”。

  3. 查看模型详细信息: 模型详细信息页面提供了有关模型功能、定价结构和实施指南的关键信息。此页面提供全面的使用说明,包括示例 API 调用和代码片段,以促进集成。它还提供部署选项和许可信息,以简化将 Pixtral 12B 整合到您的应用程序中的过程。

  4. 启动部署: 要开始使用 Pixtral 12B,请单击“Deploy”按钮。

  5. 配置部署设置: 系统将提示您配置 Pixtral 12B 的部署详细信息。模型 ID 将为您预先填充。

  6. 接受最终用户许可协议 (EULA): 仔细阅读并接受最终用户许可协议 (EULA)。

  7. Endpoint Name: “Endpoint Name”会自动填充;但是,客户可以选择重命名端点。

  8. Number of Instances: 指定所需的实例数,范围从 1 到 100。

  9. Instance Type: 选择您喜欢的实例类型。为了获得 Pixtral 12B 的最佳性能,建议使用基于 GPU 的实例类型,例如 ml.g6.12xlarge。

  10. Advanced Settings (可选): (可选)您可以配置高级安全和基础设施设置。这些设置包括虚拟私有云 (VPC) 网络、服务角色权限和加密设置。虽然默认设置适用于大多数用例,但对于生产部署,建议查看这些设置以确保与您组织的安全和合规性要求保持一致。

  11. Deploy the Model: 单击“Deploy”以启动模型部署过程。

  12. Monitor Deployment Status: 部署完成后,“Endpoint status”应转换为“In Service”。端点激活后,您可以直接在 Amazon Bedrock 试验场中测试 Pixtral 12B 的功能。

  13. Access the Playground: 选择“Open in playground”以访问交互式界面。此界面允许您试验各种提示并调整模型参数,例如温度和最大长度。

在将模型集成到您的应用程序之前,试验场提供了一个极好的环境来探索模型的推理和文本生成能力。它提供即时反馈,使您能够了解模型如何响应不同的输入并微调您的提示以获得最佳结果。

虽然试验场允许通过 UI 进行快速测试,但使用 Amazon Bedrock API 以编程方式调用已部署的模型需要使用端点 ARN 作为 Amazon Bedrock SDK 中的 model-id

探索 Pixtral 12B 用例

本节深入探讨 Pixtral 12B 功能的实际示例,通过示例提示展示其多功能性。

视觉逻辑推理:强大的应用

视觉模型最引人注目的应用之一是它们解决逻辑推理问题或视觉谜题的能力。Pixtral 12B 视觉模型在处理逻辑推理问题方面表现出卓越的能力。让我们研究一个具体的例子来说明这种能力。其核心优势不仅在于能够看到图像,还在于能够提取模式并应用逻辑。大语言模型的能力被用来提供响应。

示例:
想象一个视觉谜题,其中呈现了一系列形状,任务是根据隐藏的模式确定序列中的下一个形状。

提示: “分析以下形状序列并预测系列中的下一个形状。解释你的推理。”

输入有效负载: (描绘形状序列的图像)

预期输出: Pixtral 12B 理想情况下会:

  1. 识别模式: 正确识别控制形状序列的底层模式。这可能涉及识别形状、颜色、方向或这些因素的组合的变化。
  2. 预测下一个形状: 根据识别的模式,准确预测序列中下一个形状的特征。
  3. 解释推理: 清楚地阐明得出预测所采取的逻辑步骤,解释如何应用识别的模式来确定下一个形状。

此示例突出了 Pixtral 12B 不仅能够处理视觉信息,还能够应用逻辑推理来解释信息并做出预测的能力。这种能力超越了简单的模式识别,包括涉及空间推理、基于规则的演绎,甚至抽象概念理解的更复杂的场景。

进一步的用例和扩展

除了视觉谜题之外,Pixtral 12B 的视觉逻辑推理能力还可以应用于广泛的现实场景:

  • 数据分析和解释: 分析图表和图形以提取关键见解和趋势。例如,识别复杂可视化中呈现的不同数据集之间的相关性。
  • 医学图像分析: 通过识别指示特定状况的异常或模式,协助解释医学图像,例如 X 射线、CT 扫描和 MRI。
  • 机器人和自主系统: 通过解释视觉线索并根据他们对场景的理解做出决策,使机器人能够在复杂的环境中导航。
  • 安全和监控: 分析视频片段以检测可疑活动或识别感兴趣的对象。
  • 教育和培训: 创建交互式学习材料,根据用户对视觉提示的响应来适应用户的理解。
  • 文档理解: 从复杂文档中提取结构化数据。

Pixtral 12B 的多功能性,加上 Amazon Bedrock 的可访问性,为寻求利用视觉语言模型力量的开发人员和企业开辟了广泛的可能性。以统一方式处理图像和文本的能力,加上强大的推理能力,使 Pixtral 12B 成为众多应用程序的宝贵工具。易于部署和商业上宽松的许可进一步增强了其吸引力,使其成为研究和商业活动的有吸引力的选择。