Pixtral-12B sur Amazon Bedrock

Accès à Pixtral-12B-2409 via Amazon Bedrock Marketplace

Amazon Bedrock Marketplace propose désormais Pixtral 12B (pixtral-12b-2409), un modèle de langage visuel (VLM) de pointe de 12 milliards de paramètres développé par Mistral AI. Ce modèle puissant excelle à la fois dans les tâches textuelles et multimodales. Amazon Bedrock Marketplace, une nouvelle fonctionnalité d’Amazon Bedrock, élargit la sélection de modèles de fondation (FM) disponibles, permettant aux développeurs de découvrir, tester et utiliser plus de 100 modèles populaires, émergents et spécialisés, complétant ainsi la gamme existante de modèles leaders du secteur. Cet article vous guide à travers le processus de découverte, de déploiement et d’exploitation du modèle Pixtral 12B pour une variété d’applications pratiques liées à la vision.

Exploration approfondie de Pixtral 12B

Pixtral 12B, la première incursion de Mistral dans les VLM, affiche des performances impressionnantes sur un large éventail de benchmarks. Selon les évaluations internes de Mistral, il surpasse d’autres modèles ouverts et rivalise même avec des modèles beaucoup plus grands. Pixtral est conçu pour la compréhension des images et des documents, présentant des capacités avancées dans les tâches centrées sur la vision. Celles-ci incluent l’interprétation de graphiques et de figures, la réponse à des questions sur le contenu des documents, le raisonnement multimodal et le suivi méticuleux des instructions. Une caractéristique clé de ce modèle est sa capacité à traiter les images à leur résolution et à leur format d’origine, garantissant une gestion des entrées haute fidélité. De plus, et contrairement à de nombreuses alternatives open-source, Pixtral 12B obtient d’excellents résultats dans les benchmarks textuels – démontrant une maîtrise du suivi des instructions, du codage et du raisonnement mathématique – sans compromettre ses performances dans les tâches multimodales.

L’innovation derrière Pixtral 12B réside dans la nouvelle architecture de Mistral, méticuleusement conçue pour l’efficacité computationnelle et la haute performance. Le modèle comprend deux composants principaux : un encodeur de vision de 400 millions de paramètres, chargé de tokeniser les images, et un décodeur de transformateur multimodal de 12 milliards de paramètres. Ce décodeur prédit le jeton de texte suivant en fonction d’une séquence donnée de texte et d’images. L’encodeur de vision est spécifiquement entraîné pour gérer nativement des tailles d’image variables. Cela permet à Pixtral d’interpréter avec précision des diagrammes, des graphiques et des documents haute résolution tout en maintenant des vitesses d’inférence rapides pour les images plus petites, telles que les icônes, les cliparts et les équations. Cette architecture soigneusement conçue prend en charge le traitement d’un nombre arbitraire d’images de tailles variables, le tout dans une fenêtre contextuelle substantielle de 128 000 jetons.

Lors de l’utilisation de modèles à poids ouverts, les accords de licence sont une considération primordiale. Reflétant l’approche de licence d’autres modèles Mistral comme Mistral 7B, Mixtral 8x7B, Mixtral 8x22B et Mistral Nemo 12B, Pixtral 12B est publié sous la licence Apache 2.0, commercialement permissive. Cela offre aux entreprises et aux startups une option VLM haute performance, leur permettant de construire des applications multimodales sophistiquées.

Métriques de performance et benchmarks : un examen plus approfondi

Pixtral 12B est méticuleusement entraîné pour comprendre à la fois les images naturelles et les documents. Il a obtenu un score de 52,5 % sur le benchmark de raisonnement Massive Multitask Language Understanding (MMLU), surpassant plusieurs modèles plus grands, comme l’a rapporté Mistral. Le benchmark MMLU sert de test rigoureux, évaluant la capacité d’un modèle de langage à comprendre et à utiliser le langage dans un large éventail de sujets. Le MMLU comprend plus de 10 000 questions à choix multiples qui couvrent diverses disciplines académiques, notamment les mathématiques, la philosophie, le droit et la médecine.

Pixtral 12B démontre des capacités robustes dans des tâches telles que la compréhension de graphiques et de figures, la réponse à des questions basées sur le contenu des documents, le raisonnement multimodal et le respect des instructions. La capacité du modèle à ingérer des images à leur résolution et à leur format naturels offre aux utilisateurs une flexibilité dans le nombre de jetons utilisés pour le traitement des images. De plus, Pixtral peut traiter plusieurs images dans sa fenêtre contextuelle étendue de 128 000 jetons. Notamment, et contrairement aux modèles open-source précédents, Pixtral ne sacrifie pas les performances sur les benchmarks textuels pour exceller dans les tâches multimodales, selon les conclusions de Mistral.

Déploiement de Pixtral 12B sur Amazon Bedrock Marketplace : un guide étape par étape

La console Amazon Bedrock facilite la recherche de modèles adaptés à des cas d’utilisation ou à des langues spécifiques. Les résultats de la recherche englobent à la fois les modèles sans serveur et les modèles disponibles via Amazon Bedrock Marketplace. Les utilisateurs peuvent affiner leur recherche en filtrant les résultats en fonction du fournisseur, de la modalité (par exemple, texte, image ou audio) ou de la tâche (par exemple, classification ou résumé de texte).

Pour accéder à Pixtral 12B dans Amazon Bedrock Marketplace, suivez ces étapes détaillées :

  1. Accédez au catalogue de modèles : Dans la console Amazon Bedrock, recherchez et sélectionnez ‘Model catalog’ sous la section ‘Foundation models’ dans le volet de navigation.

  2. Filtrez et sélectionnez Pixtral 12B : Affinez la liste des modèles en sélectionnant ‘Hugging Face’ comme fournisseur, puis en choisissant le modèle Pixtral 12B. Vous pouvez également rechercher directement ‘Pixtral’ dans la zone de saisie ‘Filter for a model’.

  3. Examinez les détails du modèle : La page de détails du modèle fournit des informations cruciales concernant les capacités du modèle, la structure de prix et les directives de mise en œuvre. Cette page offre des instructions d’utilisation complètes, y compris des exemples d’appels d’API et des extraits de code pour faciliter l’intégration. Elle présente également les options de déploiement et les informations de licence pour rationaliser le processus d’intégration de Pixtral 12B dans vos applications.

  4. Lancez le déploiement : Pour commencer à utiliser Pixtral 12B, cliquez sur le bouton ‘Deploy’.

  5. Configurez les paramètres de déploiement : Vous serez invité à configurer les détails du déploiement pour Pixtral 12B. L’ID du modèle sera pré-rempli pour votre commodité.

  6. Acceptez le contrat de licence utilisateur final (CLUF) : Lisez attentivement et acceptez le contrat de licence utilisateur final (CLUF).

  7. Nom du point de terminaison : Le ‘Endpoint Name’ est automatiquement renseigné ; cependant, les clients ont la possibilité de renommer le point de terminaison.

  8. Nombre d’instances : Spécifiez le nombre d’instances souhaité, allant de 1 à 100.

  9. Type d’instance : Choisissez votre type d’instance préféré. Pour des performances optimales avec Pixtral 12B, un type d’instance basé sur GPU, tel que ml.g6.12xlarge, est recommandé.

  10. Paramètres avancés (facultatif) : Vous pouvez éventuellement configurer des paramètres de sécurité et d’infrastructure avancés. Ceux-ci incluent la mise en réseau du cloud privé virtuel (VPC), les autorisations de rôle de service et les paramètres de chiffrement. Bien que les paramètres par défaut conviennent à la plupart des cas d’utilisation, pour les déploiements de production, il est conseillé de revoir ces paramètres pour garantir l’alignement avec les exigences de sécurité et de conformité de votre organisation.

  11. Déployez le modèle : Cliquez sur ‘Deploy’ pour lancer le processus de déploiement du modèle.

  12. Surveillez l’état du déploiement : Une fois le déploiement terminé, le ‘Endpoint status’ doit passer à ‘In Service’. Une fois le point de terminaison actif, vous pouvez directement tester les capacités de Pixtral 12B dans le terrain de jeu Amazon Bedrock.

  13. Accédez au terrain de jeu : Sélectionnez ‘Open in playground’ pour accéder à une interface interactive. Cette interface vous permet d’expérimenter avec diverses invites et d’ajuster les paramètres du modèle, tels que la température et la longueur maximale.

Le terrain de jeu offre un excellent environnement pour explorer les capacités de raisonnement et de génération de texte du modèle avant de l’intégrer dans vos applications. Il offre un retour immédiat, vous permettant de comprendre comment le modèle répond à différentes entrées et d’affiner vos invites pour des résultats optimaux.

Bien que le terrain de jeu permette des tests rapides via l’interface utilisateur, l’invocation programmatique du modèle déployé à l’aide des API Amazon Bedrock nécessite l’utilisation de l’ARN du point de terminaison comme model-id dans le SDK Amazon Bedrock.

Exploration des cas d’utilisation de Pixtral 12B

Cette section explore des exemples pratiques des capacités de Pixtral 12B, mettant en valeur sa polyvalence à travers des exemples d’invites.

Raisonnement logique visuel : une application puissante

L’une des applications les plus intéressantes des modèles de vision est leur capacité à résoudre des problèmes de raisonnement logique ou des énigmes visuelles. Les modèles de vision Pixtral 12B démontrent une compétence exceptionnelle pour résoudre des questions de raisonnement logique. Examinons un exemple spécifique pour illustrer cette capacité. La force principale est la capacité non seulement de voir l’image, mais aussi d’extraire les motifs et d’appliquer la logique. Les capacités du grand modèle de langage sont utilisées pour fournir une réponse.

Exemple :
Imaginez une énigme visuelle où une séquence de formes est présentée, et la tâche consiste à déterminer la forme suivante dans la séquence en fonction d’un motif caché.

Invite : “Analysez la séquence de formes suivante et prédisez la forme suivante dans la série. Expliquez votre raisonnement.”

Charge utile d’entrée : (Une image représentant la séquence de formes)

Sortie attendue : Idéalement, Pixtral 12B devrait :

  1. Identifier le motif : Discerner correctement le motif sous-jacent régissant la séquence de formes. Cela pourrait impliquer de reconnaître des changements de forme, de couleur, d’orientation ou une combinaison de ces facteurs.
  2. Prédire la forme suivante : Sur la base du motif identifié, prédire avec précision les caractéristiques de la forme suivante dans la séquence.
  3. Expliquer le raisonnement : Articuler clairement les étapes logiques suivies pour arriver à la prédiction, en expliquant comment le motif identifié a été appliqué pour déterminer la forme suivante.

Cet exemple met en évidence la capacité de Pixtral 12B non seulement à traiter les informations visuelles, mais aussi à appliquer un raisonnement logique pour interpréter les informations et faire des prédictions. Cette capacité s’étend au-delà de la simple reconnaissance de motifs, englobant des scénarios plus complexes impliquant un raisonnement spatial, des déductions basées sur des règles et même la compréhension de concepts abstraits.

Autres cas d’utilisation et extensions

Au-delà des énigmes visuelles, les capacités de raisonnement logique visuel de Pixtral 12B peuvent être appliquées à un large éventail de scénarios réels :

  • Analyse et interprétation des données : Analyser des graphiques, des diagrammes et des figures pour extraire des informations et des tendances clés. Par exemple, identifier les corrélations entre différents ensembles de données présentés dans une visualisation complexe.
  • Analyse d’images médicales : Aider à l’interprétation d’images médicales, telles que les radiographies, les tomodensitogrammes et les IRM, en identifiant les anomalies ou les schémas indicatifs de conditions spécifiques.
  • Robotique et systèmes autonomes : Permettre aux robots de naviguer dans des environnements complexes en interprétant les indices visuels et en prenant des décisions basées sur leur compréhension de la scène.
  • Sécurité et surveillance : Analyser des séquences vidéo pour détecter des activités suspectes ou identifier des objets d’intérêt.
  • Éducation et formation : Créer des supports d’apprentissage interactifs qui s’adaptent à la compréhension de l’utilisateur en fonction de ses réponses aux invites visuelles.
  • Compréhension de documents: Extraction de données structurées à partir de documents complexes.

La polyvalence de Pixtral 12B, combinée à l’accessibilité d’Amazon Bedrock, ouvre un large éventail de possibilités pour les développeurs et les entreprises qui cherchent à exploiter la puissance des modèles de langage visuel. La capacité de traiter des images et du texte de manière unifiée, associée à de solides capacités de raisonnement, fait de Pixtral 12B un outil précieux pour une multitude d’applications. La facilité de déploiement et la licence commercialement permissive renforcent encore son attrait, ce qui en fait une option intéressante pour la recherche et les entreprises commerciales.