Pixtral-12B-2409 ya en Amazon Bedrock

Una Inmersión Profunda en Pixtral 12B

Pixtral 12B, la primera incursión de Mistral en los VLM, muestra un rendimiento impresionante en una amplia gama de benchmarks. Según las evaluaciones internas de Mistral, supera a otros modelos abiertos e incluso compite con modelos mucho más grandes. Pixtral está diseñado tanto para la comprensión de imágenes como de documentos, exhibiendo capacidades avanzadas en tareas centradas en la visión. Estas incluyen la interpretación de gráficos y figuras, la respuesta a preguntas sobre el contenido de documentos, el razonamiento multimodal y el seguimiento meticuloso de instrucciones. Una característica clave de este modelo es su capacidad para procesar imágenes en su resolución y relación de aspecto nativas, lo que garantiza un manejo de entrada de alta fidelidad. Además, y a diferencia de muchas alternativas de código abierto, Pixtral 12B logra excelentes resultados en benchmarks basados en texto, demostrando competencia en el seguimiento de instrucciones, la codificación y el razonamiento matemático, sin comprometer su rendimiento en tareas multimodales.

La innovación detrás de Pixtral 12B radica en la novedosa arquitectura de Mistral, meticulosamente diseñada tanto para la eficiencia computacional como para el alto rendimiento. El modelo consta de dos componentes principales: un codificador de visión de 400 millones de parámetros, encargado de tokenizar imágenes, y un decodificador transformador multimodal de 12 mil millones de parámetros. Este decodificador predice el siguiente token de texto basándose en una secuencia dada de texto e imágenes. El codificador de visión está específicamente entrenado para manejar tamaños de imagen variables de forma nativa. Esto permite a Pixtral interpretar con precisión diagramas, gráficos y documentos de alta resolución, manteniendo al mismo tiempo velocidades de inferencia rápidas para imágenes más pequeñas, como iconos, imágenes prediseñadas y ecuaciones. Esta arquitectura cuidadosamente elaborada admite el procesamiento de un número arbitrario de imágenes de diferentes tamaños, todo dentro de una ventana de contexto sustancial de 128,000 tokens.

Al emplear modelos de peso abierto, los acuerdos de licencia son una consideración primordial. Reflejando el enfoque de licencia de otros modelos de Mistral como Mistral 7B, Mixtral 8x7B, Mixtral 8x22B y Mistral Nemo 12B, Pixtral 12B se lanza bajo la licencia Apache 2.0, comercialmente permisiva. Esto proporciona tanto a las empresas como a los clientes de startups una opción de VLM de alto rendimiento, lo que les permite construir aplicaciones multimodales sofisticadas.

Métricas de Rendimiento y Benchmarks: Una Mirada Más Cercana

Pixtral 12B está meticulosamente entrenado para comprender tanto imágenes naturales como documentos. Alcanzó una puntuación del 52.5% en el benchmark de razonamiento Massive Multitask Language Understanding (MMLU), superando a varios modelos más grandes, según lo informado por Mistral. El benchmark MMLU sirve como una prueba rigurosa, evaluando la capacidad de un modelo de lenguaje para comprender y utilizar el lenguaje en una amplia gama de temas. El MMLU comprende más de 10,000 preguntas de opción múltiple que abarcan diversas disciplinas académicas, incluyendo matemáticas, filosofía, derecho y medicina.

Pixtral 12B demuestra capacidades sólidas en tareas como la comprensión de gráficos y figuras, la respuesta a preguntas basadas en el contenido de documentos, la participación en el razonamiento multimodal y la adhesión a las instrucciones. La capacidad del modelo para ingerir imágenes en su resolución natural y relación de aspecto proporciona a los usuarios flexibilidad en el número de tokens utilizados para el procesamiento de imágenes. Además, Pixtral puede procesar múltiples imágenes dentro de su extensa ventana de contexto de 128,000 tokens. Notablemente, y en contraste con los modelos anteriores de código abierto, Pixtral no sacrifica el rendimiento en los benchmarks de texto para sobresalir en las tareas multimodales, según los hallazgos de Mistral.

Implementación de Pixtral 12B en Amazon Bedrock Marketplace: Una Guía Paso a Paso

La consola de Amazon Bedrock facilita la búsqueda de modelos adaptados a casos de uso o idiomas específicos. Los resultados de la búsqueda abarcan tanto modelos sin servidor como modelos disponibles a través de Amazon Bedrock Marketplace. Los usuarios pueden refinar su búsqueda filtrando los resultados según el proveedor, la modalidad (por ejemplo, texto, imagen o audio) o la tarea (por ejemplo, clasificación o resumen de texto).

Para acceder a Pixtral 12B dentro de Amazon Bedrock Marketplace, siga estos pasos detallados:

  1. Navegue al Catálogo de Modelos: Dentro de la consola de Amazon Bedrock, localice y seleccione ‘Model catalog’ (Catálogo de modelos) en la sección ‘Foundation models’ (Modelos fundacionales) en el panel de navegación.

  2. Filtre y Seleccione Pixtral 12B: Refine la lista de modelos seleccionando ‘Hugging Face’ como proveedor y luego eligiendo el modelo Pixtral 12B. Alternativamente, puede buscar directamente ‘Pixtral’ en el cuadro de entrada ‘Filter for a model’ (Filtrar por un modelo).

  3. Revise los Detalles del Modelo: La página de detalles del modelo proporciona información crucial sobre las capacidades del modelo, la estructura de precios y las pautas de implementación. Esta página ofrece instrucciones de uso completas, incluyendo llamadas de API de ejemplo y fragmentos de código para facilitar la integración. También presenta opciones de implementación e información de licencia para agilizar el proceso de incorporación de Pixtral 12B en sus aplicaciones.

  4. Inicie la Implementación: Para comenzar a utilizar Pixtral 12B, haga clic en el botón ‘Deploy’ (Implementar).

  5. Configure los Ajustes de Implementación: Se le pedirá que configure los detalles de la implementación de Pixtral 12B. El ID del modelo se rellenará previamente para su comodidad.

  6. Acepte el Acuerdo de Licencia de Usuario Final (EULA): Lea atentamente y acepte el Acuerdo de Licencia de Usuario Final (EULA).

  7. Nombre del Endpoint: El ‘Endpoint Name’ (Nombre del punto final) se rellena automáticamente; sin embargo, los clientes tienen la opción de cambiar el nombre del punto final.

  8. Número de Instancias: Especifique el número deseado de instancias, que va de 1 a 100.

  9. Tipo de Instancia: Elija su tipo de instancia preferido. Para un rendimiento óptimo con Pixtral 12B, se recomienda un tipo de instancia basado en GPU, como ml.g6.12xlarge.

  10. Configuración Avanzada (Opcional): Opcionalmente, puede configurar los ajustes avanzados de seguridad e infraestructura. Estos incluyen la red de la nube privada virtual (VPC), los permisos de rol de servicio y la configuración de cifrado. Si bien la configuración predeterminada es adecuada para la mayoría de los casos de uso, para las implementaciones de producción, es aconsejable revisar esta configuración para garantizar la alineación con los requisitos de seguridad y cumplimiento de su organización.

  11. Implemente el Modelo: Haga clic en ‘Deploy’ (Implementar) para iniciar el proceso de implementación del modelo.

  12. Supervise el Estado de la Implementación: Una vez que se complete la implementación, el ‘Endpoint status’ (Estado del punto final) debería cambiar a ‘In Service’ (En servicio). Después de que el punto final esté activo, puede probar directamente las capacidades de Pixtral 12B dentro del playground de Amazon Bedrock.

  13. Acceda al Playground: Seleccione ‘Open in playground’ (Abrir en el playground) para acceder a una interfaz interactiva. Esta interfaz le permite experimentar con varios prompts y ajustar los parámetros del modelo, como la temperatura y la longitud máxima.

El playground proporciona un excelente entorno para explorar las capacidades de razonamiento y generación de texto del modelo antes de integrarlo en sus aplicaciones. Ofrece retroalimentación inmediata, lo que le permite comprender cómo responde el modelo a diferentes entradas y afinar sus prompts para obtener resultados óptimos.

Si bien el playground permite realizar pruebas rápidas a través de la interfaz de usuario, la invocación programática del modelo implementado utilizando las API de Amazon Bedrock requiere el uso del ARN del punto final como el model-id en el SDK de Amazon Bedrock.

Explorando los Casos de Uso de Pixtral 12B

Esta sección profundiza en ejemplos prácticos de las capacidades de Pixtral 12B, mostrando su versatilidad a través de prompts de muestra.

Razonamiento Lógico Visual: Una Aplicación Poderosa

Una de las aplicaciones más convincentes de los modelos de visión es su capacidad para resolver problemas de razonamiento lógico o rompecabezas visuales. Los modelos de visión Pixtral 12B demuestran una competencia excepcional en la resolución de preguntas de razonamiento lógico. Examinemos un ejemplo específico para ilustrar esta capacidad. La fortaleza central es la capacidad no solo de ver la imagen, sino de extraer los patrones y aplicar la lógica. Las capacidades del modelo de lenguaje grande se utilizan para proporcionar una respuesta.

Ejemplo:
Imagine un rompecabezas visual donde se presenta una secuencia de formas, y la tarea es determinar la siguiente forma en la secuencia basándose en un patrón oculto.

Prompt: “Analice la siguiente secuencia de formas y prediga la siguiente forma en la serie. Explique su razonamiento.”

Carga útil de entrada: (Una imagen que representa la secuencia de formas)

Salida esperada: Pixtral 12B idealmente:

  1. Identificaría el Patrón: Discerniría correctamente el patrón subyacente que rige la secuencia de formas. Esto podría implicar reconocer cambios en la forma, el color, la orientación o una combinación de estos factores.
  2. Predeciría la Siguiente Forma: Basándose en el patrón identificado, predeciría con precisión las características de la siguiente forma en la secuencia.
  3. Explicaría el Razonamiento: Articularía claramente los pasos lógicos tomados para llegar a la predicción, explicando cómo se aplicó el patrón identificado para determinar la siguiente forma.

Este ejemplo destaca la capacidad de Pixtral 12B no solo para procesar información visual, sino también para aplicar el razonamiento lógico para interpretar la información y hacer predicciones. Esta capacidad se extiende más allá del simple reconocimiento de patrones, abarcando escenarios más complejos que involucran el razonamiento espacial, las deducciones basadas en reglas e incluso la comprensión de conceptos abstractos.

Más Casos de Uso y Expansiones

Más allá de los rompecabezas visuales, las capacidades de razonamiento lógico visual de Pixtral 12B se pueden aplicar a una amplia gama de escenarios del mundo real:

  • Análisis e Interpretación de Datos: Analizar gráficos, diagramas y figuras para extraer ideas y tendencias clave. Por ejemplo, identificar correlaciones entre diferentes conjuntos de datos presentados en una visualización compleja.
  • Análisis de Imágenes Médicas: Ayudar en la interpretación de imágenes médicas, como radiografías, tomografías computarizadas y resonancias magnéticas, identificando anomalías o patrones indicativos de condiciones específicas.
  • Robótica y Sistemas Autónomos: Permitir que los robots naveguen por entornos complejos interpretando señales visuales y tomando decisiones basadas en su comprensión de la escena.
  • Seguridad y Vigilancia: Analizar imágenes de video para detectar actividades sospechosas o identificar objetos de interés.
  • Educación y Capacitación: Crear materiales de aprendizaje interactivos que se adapten a la comprensión del usuario en función de sus respuestas a las indicaciones visuales.
  • Comprensión de documentos: Extracción de datos estructurados de documentos complejos.

La versatilidad de Pixtral 12B, combinada con la accesibilidad de Amazon Bedrock, abre una amplia gama de posibilidades para los desarrolladores y las empresas que buscan aprovechar el poder de los modelos de lenguaje visual. La capacidad de procesar imágenes y texto de manera unificada, junto con sólidas capacidades de razonamiento, convierte a Pixtral 12B en una herramienta valiosa para una multitud de aplicaciones. La facilidad de implementación y la licencia comercialmente permisiva mejoran aún más su atractivo, convirtiéndolo en una opción atractiva tanto para la investigación como para los esfuerzos comerciales.