Pixtral-12B su Amazon Bedrock

Un’analisi approfondita di Pixtral 12B

Pixtral 12B, la prima incursione di Mistral nei VLM, mostra prestazioni impressionanti in una serie di benchmark. Secondo le valutazioni interne di Mistral, supera altri modelli aperti e compete persino con modelli molto più grandi. Pixtral è progettato sia per la comprensione di immagini che di documenti, mostrando capacità avanzate in attività incentrate sulla visione. Queste includono l’interpretazione di grafici e figure, la risposta a domande sul contenuto del documento, il ragionamento multimodale e il rispetto meticoloso delle istruzioni. Una caratteristica chiave di questo modello è la sua capacità di elaborare le immagini alla loro risoluzione e proporzioni native, garantendo una gestione dell’input ad alta fedeltà. Inoltre, e a differenza di molte alternative open-source, Pixtral 12B ottiene risultati eccellenti nei benchmark basati sul testo, dimostrando competenza nel seguire le istruzioni, nella codifica e nel ragionamento matematico, senza compromettere le sue prestazioni nelle attività multimodali.

L’innovazione alla base di Pixtral 12B risiede nella nuova architettura di Mistral, meticolosamente progettata sia per l’efficienza computazionale che per le alte prestazioni. Il modello comprende due componenti principali: un codificatore di visione da 400 milioni di parametri, incaricato di tokenizzare le immagini, e un decodificatore trasformatore multimodale da 12 miliardi di parametri. Questo decodificatore prevede il token di testo successivo in base a una data sequenza di testo e immagini. Il codificatore di visione è specificamente addestrato per gestire nativamente immagini di dimensioni variabili. Ciò consente a Pixtral di interpretare accuratamente diagrammi, grafici e documenti ad alta risoluzione, mantenendo al contempo velocità di inferenza elevate per immagini più piccole, come icone, clipart ed equazioni. Questa architettura accuratamente realizzata supporta l’elaborazione di un numero arbitrario di immagini di varie dimensioni, il tutto all’interno di una finestra di contesto sostanziale di 128.000 token.

Quando si utilizzano modelli a peso aperto, gli accordi di licenza sono una considerazione fondamentale. Rispecchiando l’approccio di licenza di altri modelli Mistral come Mistral 7B, Mixtral 8x7B, Mixtral 8x22B e Mistral Nemo 12B, Pixtral 12B è rilasciato sotto la licenza Apache 2.0, commercialmente permissiva. Ciò fornisce sia ai clienti aziendali che alle startup un’opzione VLM ad alte prestazioni, consentendo loro di costruire sofisticate applicazioni multimodali.

Metriche di prestazione e benchmark: uno sguardo più da vicino

Pixtral 12B è meticolosamente addestrato per comprendere sia le immagini naturali che i documenti. Ha ottenuto un punteggio del 52,5% nel benchmark di ragionamento Massive Multitask Language Understanding (MMLU), superando diversi modelli più grandi, come riportato da Mistral. Il benchmark MMLU funge da test rigoroso, valutando la capacità di un modello linguistico di comprendere e utilizzare il linguaggio in una vasta gamma di argomenti. L’MMLU comprende oltre 10.000 domande a scelta multipla che abbracciano varie discipline accademiche, tra cui matematica, filosofia, diritto e medicina.

Pixtral 12B dimostra solide capacità in attività come la comprensione di grafici e figure, la risposta a domande basate sul contenuto del documento, il coinvolgimento nel ragionamento multimodale e l’adesione alle istruzioni. La capacità del modello di acquisire immagini alla loro risoluzione e proporzioni naturali offre agli utenti flessibilità nel numero di token utilizzati per l’elaborazione delle immagini. Inoltre, Pixtral può elaborare più immagini all’interno della sua ampia finestra di contesto di 128.000 token. In particolare, e in contrasto con i precedenti modelli open-source, Pixtral non sacrifica le prestazioni sui benchmark di testo per eccellere nelle attività multimodali, secondo i risultati di Mistral.

Distribuzione di Pixtral 12B su Amazon Bedrock Marketplace: una guida passo passo

La console Amazon Bedrock facilita la ricerca di modelli su misura per casi d’uso o lingue specifici. I risultati della ricerca comprendono sia modelli serverless che modelli disponibili tramite Amazon Bedrock Marketplace. Gli utenti possono perfezionare la ricerca filtrando i risultati in base al provider, alla modalità (ad esempio, testo, immagine o audio) o all’attività (ad esempio, classificazione o riepilogo del testo).

Per accedere a Pixtral 12B all’interno di Amazon Bedrock Marketplace, segui questi passaggi dettagliati:

  1. Passare al catalogo dei modelli: All’interno della console Amazon Bedrock, individuare e selezionare ‘Model catalog’ sotto la sezione ‘Foundation models’ nel riquadro di navigazione.

  2. Filtrare e selezionare Pixtral 12B: Perfezionare l’elenco dei modelli selezionando ‘Hugging Face’ come provider e quindi scegliendo il modello Pixtral 12B. In alternativa, è possibile cercare direttamente ‘Pixtral’ nella casella di input ‘Filter for a model’.

  3. Rivedere i dettagli del modello: La pagina dei dettagli del modello fornisce informazioni cruciali sulle capacità del modello, sulla struttura dei prezzi e sulle linee guida per l’implementazione. Questa pagina offre istruzioni complete per l’uso, inclusi esempi di chiamate API e frammenti di codice per facilitare l’integrazione. Presenta inoltre opzioni di distribuzione e informazioni sulle licenze per semplificare il processo di integrazione di Pixtral 12B nelle tue applicazioni.

  4. Avviare la distribuzione: Per iniziare a utilizzare Pixtral 12B, fare clic sul pulsante ‘Deploy’.

  5. Configurare le impostazioni di distribuzione: Verrà richiesto di configurare i dettagli di distribuzione per Pixtral 12B. L’ID del modello sarà precompilato per comodità.

  6. Accettare il contratto di licenza con l’utente finale (EULA): Leggere attentamente e accettare il contratto di licenza con l’utente finale (EULA).

  7. Nome dell’endpoint: Il ‘Endpoint Name’ viene popolato automaticamente; tuttavia, i clienti hanno la possibilità di rinominare l’endpoint.

  8. Numero di istanze: Specificare il numero desiderato di istanze, da 1 a 100.

  9. Tipo di istanza: Scegliere il tipo di istanza preferito. Per prestazioni ottimali con Pixtral 12B, si consiglia un tipo di istanza basato su GPU, come ml.g6.12xlarge.

  10. Impostazioni avanzate (opzionale): Facoltativamente, è possibile configurare impostazioni avanzate di sicurezza e infrastruttura. Queste includono il networking del cloud privato virtuale (VPC), le autorizzazioni del ruolo del servizio e le impostazioni di crittografia. Sebbene le impostazioni predefinite siano adatte per la maggior parte dei casi d’uso, per le distribuzioni di produzione, è consigliabile rivedere queste impostazioni per garantire l’allineamento con i requisiti di sicurezza e conformità della propria organizzazione.

  11. Distribuire il modello: Fare clic su ‘Deploy’ per avviare il processo di distribuzione del modello.

  12. Monitorare lo stato della distribuzione: Una volta completata la distribuzione, lo ‘Endpoint status’ dovrebbe passare a ‘In Service’. Dopo che l’endpoint è attivo, è possibile testare direttamente le capacità di Pixtral 12B all’interno del playground di Amazon Bedrock.

  13. Accedere al playground: Selezionare ‘Open in playground’ per accedere a un’interfaccia interattiva. Questa interfaccia consente di sperimentare vari prompt e regolare i parametri del modello, come la temperatura e la lunghezza massima.

Il playground offre un ambiente eccellente per esplorare le capacità di ragionamento e di generazione del testo del modello prima di integrarlo nelle tue applicazioni. Offre un feedback immediato, consentendo di capire come il modello risponde a diversi input e di perfezionare i prompt per ottenere risultati ottimali.

Mentre il playground consente test rapidi tramite l’interfaccia utente, la chiamata programmatica del modello distribuito utilizzando le API di Amazon Bedrock richiede l’uso dell’ARN dell’endpoint come model-id nell’SDK di Amazon Bedrock.

Esplorazione dei casi d’uso di Pixtral 12B

Questa sezione approfondisce esempi pratici delle capacità di Pixtral 12B, mostrando la sua versatilità attraverso prompt di esempio.

Ragionamento logico visivo: un’applicazione potente

Una delle applicazioni più interessanti dei modelli di visione è la loro capacità di risolvere problemi di ragionamento logico o puzzle visivi. I modelli di visione Pixtral 12B dimostrano un’eccezionale competenza nell’affrontare domande di ragionamento logico. Esaminiamo un esempio specifico per illustrare questa capacità. Il punto di forza principale è la capacità non solo di vedere l’immagine, ma di estrarre i modelli e applicare la logica. Le capacità del modello linguistico di grandi dimensioni vengono utilizzate per fornire una risposta.

Esempio:
Immagina un puzzle visivo in cui viene presentata una sequenza di forme e il compito è determinare la forma successiva nella sequenza in base a un modello nascosto.

Prompt: ‘Analizza la seguente sequenza di forme e prevedi la forma successiva nella serie. Spiega il tuo ragionamento.’

Input Payload: (Un’immagine che raffigura la sequenza di forme)

Output previsto: Pixtral 12B idealmente:

  1. Identificherebbe il modello: Discernerebbe correttamente il modello sottostante che governa la sequenza di forme. Ciò potrebbe comportare il riconoscimento di cambiamenti di forma, colore, orientamento o una combinazione di questi fattori.
  2. Prevederebbe la forma successiva: In base al modello identificato, prevederebbe accuratamente le caratteristiche della forma successiva nella sequenza.
  3. Spiegherebbe il ragionamento: Articolerebbe chiaramente i passaggi logici intrapresi per arrivare alla previsione, spiegando come il modello identificato è stato applicato per determinare la forma successiva.

Questo esempio evidenzia la capacità di Pixtral 12B non solo di elaborare informazioni visive, ma anche di applicare il ragionamento logico per interpretare le informazioni e fare previsioni. Questa capacità si estende oltre il semplice riconoscimento di modelli, comprendendo scenari più complessi che coinvolgono il ragionamento spaziale, le deduzioni basate su regole e persino la comprensione di concetti astratti.

Ulteriori casi d’uso ed espansioni

Oltre ai puzzle visivi, le capacità di ragionamento logico visivo di Pixtral 12B possono essere applicate a una vasta gamma di scenari del mondo reale:

  • Analisi e interpretazione dei dati: Analisi di grafici, diagrammi e figure per estrarre informazioni e tendenze chiave. Ad esempio, identificare le correlazioni tra diversi set di dati presentati in una visualizzazione complessa.
  • Analisi di immagini mediche: Assistenza nell’interpretazione di immagini mediche, come radiografie, TAC e risonanze magnetiche, identificando anomalie o modelli indicativi di condizioni specifiche.
  • Robotica e sistemi autonomi: Consentire ai robot di navigare in ambienti complessi interpretando segnali visivi e prendendo decisioni in base alla loro comprensione della scena.
  • Sicurezza e sorveglianza: Analisi di filmati video per rilevare attività sospette o identificare oggetti di interesse.
  • Istruzione e formazione: Creazione di materiali didattici interattivi che si adattano alla comprensione dell’utente in base alle sue risposte a prompt visivi.
  • Comprensione dei documenti: Estrazione di dati strutturati da documenti complessi.

La versatilità di Pixtral 12B, combinata con l’accessibilità di Amazon Bedrock, apre una vasta gamma di possibilità per sviluppatori e aziende che cercano di sfruttare la potenza dei modelli di linguaggio visivo. La capacità di elaborare immagini e testo in modo unificato, unita a forti capacità di ragionamento, rende Pixtral 12B uno strumento prezioso per una moltitudine di applicazioni. La facilità di implementazione e le licenze commercialmente permissive ne aumentano ulteriormente l’attrattiva, rendendolo un’opzione interessante sia per la ricerca che per le attività commerciali.