Pixtral-12B jetzt auf Amazon Bedrock

Pixtral-12B-2409 jetzt über Amazon Bedrock Marketplace zugänglich

Amazon Bedrock Marketplace bietet jetzt Pixtral 12B (pixtral-12b-2409) an, ein hochmodernes 12-Milliarden-Parameter-Vision-Language-Modell (VLM), das von Mistral AI entwickelt wurde. Dieses leistungsstarke Modell zeichnet sich sowohl durch textbasierte als auch durch multimodale Aufgaben aus. Amazon Bedrock Marketplace, eine neue Funktion innerhalb von Amazon Bedrock, erweitert die Auswahl an verfügbaren Foundation Models (FMs) und ermöglicht Entwicklern, über 100 populäre, aufstrebende und spezialisierte Modelle zu entdecken, zu testen und zu nutzen, die die bestehende Palette branchenführender Modelle ergänzen. Dieser Beitrag führt Sie durch den Prozess der Entdeckung, Bereitstellung und Nutzung des Pixtral 12B-Modells für eine Vielzahl praktischer bildbezogener Anwendungen.

Ein tiefer Einblick in Pixtral 12B

Pixtral 12B, Mistrals erster Vorstoß in VLMs, zeigt eine beeindruckende Leistung in einer Reihe von Benchmarks. Laut internen Evaluierungen von Mistral übertrifft es andere offene Modelle und konkurriert sogar mit viel größeren Modellen. Pixtral wurde sowohl für das Bild- als auch für das Dokumentverständnis entwickelt und zeigt fortschrittliche Fähigkeiten bei visionszentrierten Aufgaben. Dazu gehören das Interpretieren von Diagrammen und Abbildungen, das Beantworten von Fragen zum Dokumentinhalt, das multimodale Denken und das sorgfältige Befolgen von Anweisungen. Ein Hauptmerkmal dieses Modells ist seine Fähigkeit, Bilder in ihrer nativen Auflösung und ihrem nativen Seitenverhältnis zu verarbeiten, wodurch eine High-Fidelity-Eingabeverarbeitung gewährleistet wird. Darüber hinaus erzielt Pixtral 12B im Gegensatz zu vielen Open-Source-Alternativen hervorragende Ergebnisse in textbasierten Benchmarks – und demonstriert Kompetenz in der Befolgung von Anweisungen, im Programmieren und im mathematischen Denken –, ohne seine Leistung bei multimodalen Aufgaben zu beeinträchtigen.

Die Innovation hinter Pixtral 12B liegt in Mistrals neuartiger Architektur, die sorgfältig sowohl auf Recheneffizienz als auch auf hohe Leistung ausgelegt ist. Das Modell besteht aus zwei Kernkomponenten: einem 400-Millionen-Parameter-Vision-Encoder, der für die Tokenisierung von Bildern zuständig ist, und einem 12-Milliarden-Parameter-Multimodal-Transformer-Decoder. Dieser Decoder sagt das nachfolgende Text-Token basierend auf einer gegebenen Sequenz von Text und Bildern voraus. Der Vision-Encoder ist speziell darauf trainiert, variable Bildgrößen nativ zu verarbeiten. Dies ermöglicht Pixtral, hochauflösende Diagramme, Grafiken und Dokumente genau zu interpretieren und gleichzeitig schnelle Inferenzgeschwindigkeiten für kleinere Bilder wie Symbole, Cliparts und Gleichungen aufrechtzuerhalten. Diese sorgfältig ausgearbeitete Architektur unterstützt die Verarbeitung einer beliebigen Anzahl von Bildern unterschiedlicher Größe, alle innerhalb eines beträchtlichen Kontextfensters von 128.000 Token.

Beim Einsatz von Open-Weight-Modellen sind Lizenzvereinbarungen von größter Bedeutung. In Anlehnung an den Lizenzierungsansatz anderer Mistral-Modelle wie Mistral 7B, Mixtral 8x7B, Mixtral 8x22B und Mistral Nemo 12B wird Pixtral 12B unter der kommerziell freizügigen Apache 2.0-Lizenz veröffentlicht. Dies bietet sowohl Unternehmens- als auch Startup-Kunden eine leistungsstarke VLM-Option, die sie in die Lage versetzt, anspruchsvolle multimodale Anwendungen zu erstellen.

Leistungsmetriken und Benchmarks: Ein genauerer Blick

Pixtral 12B wurde sorgfältig trainiert, um sowohl natürliche Bilder als auch Dokumente zu verstehen. Es erreichte einen Wert von 52,5 % beim Massive Multitask Language Understanding (MMLU)-Reasoning-Benchmark und übertraf damit mehrere größere Modelle, wie von Mistral berichtet. Der MMLU-Benchmark dient als rigoroser Test, der die Fähigkeit eines Sprachmodells bewertet, Sprache über ein breites Spektrum von Themen hinweg zu verstehen und zu nutzen. Der MMLU umfasst über 10.000 Multiple-Choice-Fragen, die verschiedene akademische Disziplinen abdecken, darunter Mathematik, Philosophie, Recht und Medizin.

Pixtral 12B demonstriert robuste Fähigkeiten bei Aufgaben wie dem Verstehen von Diagrammen und Abbildungen, dem Beantworten von Fragen basierend auf dem Dokumentinhalt, dem multimodalen Denken und dem Befolgen von Anweisungen. Die Fähigkeit des Modells, Bilder in ihrer natürlichen Auflösung und ihrem natürlichen Seitenverhältnis aufzunehmen, bietet Benutzern Flexibilität bei der Anzahl der Token, die für die Bildverarbeitung verwendet werden. Darüber hinaus kann Pixtral mehrere Bilder innerhalb seines umfangreichen 128.000-Token-Kontextfensters verarbeiten. Bemerkenswerterweise und im Gegensatz zu früheren Open-Source-Modellen opfert Pixtral laut Mistrals Ergebnissen nicht die Leistung bei Text-Benchmarks, um bei multimodalen Aufgaben zu glänzen.

Bereitstellung von Pixtral 12B auf dem Amazon Bedrock Marketplace: Eine Schritt-für-Schritt-Anleitung

Die Amazon Bedrock-Konsole erleichtert die Suche nach Modellen, die auf bestimmte Anwendungsfälle oder Sprachen zugeschnitten sind. Die Suchergebnisse umfassen sowohl serverlose Modelle als auch Modelle, die über den Amazon Bedrock Marketplace verfügbar sind. Benutzer können ihre Suche verfeinern, indem sie die Ergebnisse nach Anbieter, Modalität (z. B. Text, Bild oder Audio) oder Aufgabe (z. B. Klassifizierung oder Textzusammenfassung) filtern.

Um auf Pixtral 12B innerhalb des Amazon Bedrock Marketplace zuzugreifen, befolgen Sie diese detaillierten Schritte:

  1. Navigieren Sie zum Modellkatalog: Suchen Sie in der Amazon Bedrock-Konsole im Navigationsbereich unter dem Abschnitt ‘Foundation models’ nach ‘Model catalog’ und wählen Sie es aus.

  2. Filtern und wählen Sie Pixtral 12B: Verfeinern Sie die Modellliste, indem Sie ‘Hugging Face’ als Anbieter auswählen und dann das Pixtral 12B-Modell auswählen. Alternativ können Sie direkt im Eingabefeld ‘Filter for a model’ nach ‘Pixtral’ suchen.

  3. Überprüfen Sie die Modelldetails: Die Modelldetailseite enthält wichtige Informationen zu den Fähigkeiten des Modells, der Preisstruktur und den Implementierungsrichtlinien. Diese Seite bietet umfassende Anweisungen zur Verwendung, einschließlich Beispiel-API-Aufrufen und Code-Snippets, um die Integration zu erleichtern. Sie präsentiert auch Bereitstellungsoptionen und Lizenzinformationen, um den Prozess der Integration von Pixtral 12B in Ihre Anwendungen zu optimieren.

  4. Initiieren Sie die Bereitstellung: Um mit der Nutzung von Pixtral 12B zu beginnen, klicken Sie auf die Schaltfläche ‘Deploy’.

  5. Konfigurieren Sie die Bereitstellungseinstellungen: Sie werden aufgefordert, die Bereitstellungsdetails für Pixtral 12B zu konfigurieren. Die Modell-ID wird zu Ihrer Bequemlichkeit vorausgefüllt.

  6. Akzeptieren Sie die Endbenutzer-Lizenzvereinbarung (EULA): Lesen Sie die Endbenutzer-Lizenzvereinbarung (EULA) sorgfältig durch und akzeptieren Sie sie.

  7. Endpunktname: Der ‘Endpoint Name’ wird automatisch ausgefüllt; Kunden haben jedoch die Möglichkeit, den Endpunkt umzubenennen.

  8. Anzahl der Instanzen: Geben Sie die gewünschte Anzahl der Instanzen an, die zwischen 1 und 100 liegen kann.

  9. Instanztyp: Wählen Sie Ihren bevorzugten Instanztyp. Für eine optimale Leistung mit Pixtral 12B wird ein GPU-basierter Instanztyp wie ml.g6.12xlarge empfohlen.

  10. Erweiterte Einstellungen (optional): Optional können Sie erweiterte Sicherheits- und Infrastruktureinstellungen konfigurieren. Dazu gehören Virtual Private Cloud (VPC)-Netzwerke, Dienstrollenberechtigungen und Verschlüsselungseinstellungen. Während die Standardeinstellungen für die meisten Anwendungsfälle geeignet sind, ist es für Produktionsbereitstellungen ratsam, diese Einstellungen zu überprüfen, um die Übereinstimmung mit den Sicherheits- und Compliance-Anforderungen Ihrer Organisation sicherzustellen.

  11. Stellen Sie das Modell bereit: Klicken Sie auf ‘Deploy’, um den Modellbereitstellungsprozess zu starten.

  12. Überwachen Sie den Bereitstellungsstatus: Sobald die Bereitstellung abgeschlossen ist, sollte der ‘Endpoint status’ in ‘In Service’ übergehen. Nachdem der Endpunkt aktiv ist, können Sie die Fähigkeiten von Pixtral 12B direkt im Amazon Bedrock Playground testen.

  13. Zugriff auf den Playground: Wählen Sie ‘Open in playground’, um auf eine interaktive Oberfläche zuzugreifen. Diese Oberfläche ermöglicht es Ihnen, mit verschiedenen Prompts zu experimentieren und Modellparameter wie Temperatur und maximale Länge anzupassen.

Der Playground bietet eine hervorragende Umgebung, um die Argumentations- und Textgenerierungsfähigkeiten des Modells zu erkunden, bevor Sie es in Ihre Anwendungen integrieren. Er bietet sofortiges Feedback, sodass Sie verstehen können, wie das Modell auf verschiedene Eingaben reagiert, und Ihre Prompts für optimale Ergebnisse optimieren können.

Während der Playground ein schnelles Testen über die Benutzeroberfläche ermöglicht, erfordert der programmgesteuerte Aufruf des bereitgestellten Modells mithilfe von Amazon Bedrock-APIs die Verwendung des Endpunkt-ARN als model-id im Amazon Bedrock SDK.

Erkundung der Anwendungsfälle von Pixtral 12B

Dieser Abschnitt befasst sich mit praktischen Beispielen für die Fähigkeiten von Pixtral 12B und zeigt seine Vielseitigkeit anhand von Beispiel-Prompts.

Visuelles logisches Denken: Eine leistungsstarke Anwendung

Eine der überzeugendsten Anwendungen von Visionsmodellen ist ihre Fähigkeit, logische Denkaufgaben oder visuelle Rätsel zu lösen. Pixtral 12B-Visionsmodelle zeigen außergewöhnliche Fähigkeiten bei der Bewältigung logischer Denkfragen. Betrachten wir ein konkretes Beispiel, um diese Fähigkeit zu veranschaulichen. Die Kernstärke ist die Fähigkeit, das Bild nicht nur zu sehen, sondern die Muster zu extrahieren und Logik anzuwenden. Die Fähigkeiten des großen Sprachmodells werden verwendet, um eine Antwort zu geben.

Beispiel:
Stellen Sie sich ein visuelles Rätsel vor, bei dem eine Folge von Formen präsentiert wird und die Aufgabe darin besteht, die nächste Form in der Folge basierend auf einem verborgenen Muster zu bestimmen.

Prompt: ‘Analysieren Sie die folgende Folge von Formen und sagen Sie die nächste Form in der Reihe voraus. Erklären Sie Ihre Argumentation.’

Eingabenutzlast: (Ein Bild, das die Folge von Formen darstellt)

Erwartete Ausgabe: Pixtral 12B würde idealerweise:

  1. Das Muster identifizieren: Das zugrunde liegende Muster, das die Folge von Formen bestimmt, korrekt erkennen. Dies könnte das Erkennen von Änderungen in Form, Farbe, Ausrichtung oder einer Kombination dieser Faktoren beinhalten.
  2. Die nächste Form vorhersagen: Basierend auf dem identifizierten Muster die Eigenschaften der nächsten Form in der Folge genau vorhersagen.
  3. Die Argumentation erklären: Die logischen Schritte, die zur Vorhersage geführt haben, klar artikulieren und erklären, wie das identifizierte Muster angewendet wurde, um die nächste Form zu bestimmen.

Dieses Beispiel unterstreicht die Fähigkeit von Pixtral 12B, nicht nur visuelle Informationen zu verarbeiten, sondern auch logisches Denken anzuwenden, um die Informationen zu interpretieren und Vorhersagen zu treffen. Diese Fähigkeit geht über die einfache Mustererkennung hinaus und umfasst komplexere Szenarien mit räumlichem Denken, regelbasierten Schlussfolgerungen und sogar dem Verständnis abstrakter Konzepte.

Weitere Anwendungsfälle und Erweiterungen

Über visuelle Rätsel hinaus können die visuellen logischen Denkfähigkeiten von Pixtral 12B auf eine breite Palette von realen Szenarien angewendet werden:

  • Datenanalyse und -interpretation: Analysieren von Diagrammen, Grafiken und Schaubildern, um wichtige Erkenntnisse und Trends zu extrahieren. Zum Beispiel das Identifizieren von Korrelationen zwischen verschiedenen Datensätzen, die in einer komplexen Visualisierung dargestellt werden.
  • Medizinische Bildanalyse: Unterstützung bei der Interpretation medizinischer Bilder wie Röntgenaufnahmen, CT-Scans und MRTs durch Identifizierung von Anomalien oder Mustern, die auf bestimmte Erkrankungen hinweisen.
  • Robotik und autonome Systeme: Ermöglichen von Robotern, in komplexen Umgebungen zu navigieren, indem sie visuelle Hinweise interpretieren und Entscheidungen auf der Grundlage ihres Verständnisses der Szene treffen.
  • Sicherheit und Überwachung: Analysieren von Videomaterial, um verdächtige Aktivitäten zu erkennen oder Objekte von Interesse zu identifizieren.
  • Bildung und Ausbildung: Erstellen interaktiver Lernmaterialien, die sich an das Verständnis des Benutzers anpassen, basierend auf seinen Antworten auf visuelle Aufforderungen.
  • Dokumentenverständnis: Extrahieren strukturierter Daten aus komplexen Dokumenten.

Die Vielseitigkeit von Pixtral 12B, kombiniert mit der Zugänglichkeit von Amazon Bedrock, eröffnet Entwicklern und Unternehmen, die die Leistungsfähigkeit von Vision-Language-Modellen nutzen möchten, eine Vielzahl von Möglichkeiten. Die Fähigkeit, Bilder und Text auf einheitliche Weise zu verarbeiten, gepaart mit starken Denkfähigkeiten, macht Pixtral 12B zu einem wertvollen Werkzeug für eine Vielzahl von Anwendungen. Die einfache Bereitstellung und die kommerziell freizügige Lizenzierung erhöhen die Attraktivität weiter und machen es zu einer attraktiven Option sowohl für Forschungs- als auch für kommerzielle Zwecke.