Il servizio Oracle Cloud Infrastructure (OCI) Generative AI accoglie un nuovo entusiasmante membro: la famiglia di modelli Meta Llama 4, che comprende Scout e Maverick. Questi modelli integrano un’esclusiva architettura Mixture of Experts (MoE), migliorando significativamente la potenza di elaborazione e l’efficienza. Sono specificamente ottimizzati per eccellere in varie aree, tra cui la comprensione multimodale, le attività multilingue, la generazione di codice e la chiamata di strumenti, e sono in grado di guidare sistemi di agenti avanzati.
Attualmente, questi modelli sono disponibili nelle versioni generalmente disponibili (GA) nelle seguenti regioni:
- On-demand: ORD (Chicago)
- Dedicated AI Cluster: ORD (Chicago), GRU (Guarulhos), LHR (Londra), KIK (Kikuyu)
Punti salienti della famiglia Llama 4
Capacità multimodale: abbattere i confini dei tipi di dati
Llama 4 Scout e Maverick non sono semplicemente modelli linguistici, sono veri maestri multimodali. Sono in grado di elaborare e integrare in modo nativo vari tipi di dati, inclusi testo e immagini, consentendo applicazioni AI più ricche e complete. Immagina un sistema AI in grado di comprendere contemporaneamente una descrizione testuale e un’immagine correlata, cogliendo meglio il contesto e prendendo decisioni più informate. Questa capacità multimodale apre nuove possibilità per attività come la generazione di didascalie di immagini, la risposta a domande visive e altro ancora.
Supporto multilingue: comunicazione senza confini
Un altro punto forte della famiglia Llama 4 è la sua potente capacità di supporto multilingue. Questi modelli sono stati addestrati su un set di dati contenente 200 lingue e sono stati perfezionati per 12 lingue principali (arabo, inglese, francese, tedesco, hindi, indonesiano, italiano, portoghese, spagnolo, tagalog, tailandese e vietnamita). Ciò significa che sono in grado di comprendere e generare testo in più lingue, aprendo le porte ad applicazioni in tutto il mondo. È importante notare che la funzionalità di comprensione delle immagini al momento supporta solo l’inglese.
Sviluppo efficiente: ingombro GPU inferiore
Per gli sviluppatori, Llama 4 Scout è stato progettato fin dall’inizio per ottenere una maggiore accessibilità. Può essere eseguito in modo efficiente con un ingombro GPU inferiore, il che lo rende una scelta ideale per ambienti con risorse limitate. Ciò significa che anche senza potenti dispositivi hardware, gli sviluppatori possono sfruttare le potenti funzionalità di Llama 4 Scout per accelerare lo sviluppo e l’implementazione di applicazioni AI.
Modelli open source: potenziamento della comunità
Meta ha scelto un approccio aperto, rilasciando entrambi i modelli con la licenza della comunità Llama 4. Ciò significa che gli sviluppatori possono regolarli e implementarli liberamente, a condizione che rispettino termini di licenza specifici. Questo modello aperto promuove l’innovazione e la collaborazione nella comunità AI, consentendo a più persone di partecipare allo sviluppo e all’applicazione delle tecnologie AI.
Data limite della conoscenza
È importante notare che la data limite della conoscenza per i modelli Llama 4 è agosto 2024. Ciò significa che potrebbero non essere in grado di fornire le informazioni più recenti sugli eventi o le informazioni che si verificano dopo tale data.
Nota importante: i criteri di utilizzo accettabile di Llama limitano il suo utilizzo all’interno dell’Unione Europea (UE).
Llama 4 Scout: campione leggero
Architettura: design ingegnoso dei parametri
Llama 4 Scout utilizza un design architettonico ingegnoso che attiva solo 17 miliardi di parametri su un totale di circa 1,09 trilioni di parametri. Questo design utilizza un mix di 16 esperti, raggiungendo un buon equilibrio tra prestazioni ed efficienza. Attivando solo una parte dei parametri, Scout è in grado di ridurre significativamente i requisiti di calcolo, consentendogli di funzionare in ambienti con risorse limitate.
Finestra di contesto: capacità di elaborare testi lunghi
Llama 4 Scout supporta una lunghezza del contesto fino a 10 milioni di token (richiede più GPU). Tuttavia, al momento della disponibilità generale (GA), il servizio OCI Generative AI supporterà una lunghezza del contesto di 192k token. Anche una finestra di contesto di 192k è sufficiente per elaborare testi abbastanza lunghi, come capitoli di libri o rapporti dettagliati.
Distribuzione: piccolo ma potente
Uno degli obiettivi di progettazione di Llama 4 Scout è quello di funzionare in modo efficiente con un ingombro GPU inferiore. Ciò lo rende una scelta ideale per una varietà di scenari di implementazione, inclusi dispositivi edge e ambienti cloud con risorse limitate.
Prestazioni: supera i concorrenti
Llama 4 Scout ha ottenuto ottimi risultati in diversi benchmark, superando modelli come Gemma 3 di Google e Mistral 3.1. Ciò dimostra le eccezionali capacità di Scout in termini di prestazioni, rendendolo un potente strumento per una varietà di attività di intelligenza artificiale.
Llama 4 Maverick: peso massimo
Architettura: maggiore scala, maggiore potenza
Rispetto a Scout, Llama 4 Maverick utilizza un’architettura più ampia. Attiva anche 17 miliardi di parametri, ma lo fa all’interno di una struttura più grande di circa 4 trilioni di parametri e utilizza 128 esperti. Questa maggiore scala conferisce a Maverick capacità più potenti, consentendogli di eccellere in attività di intelligenza artificiale più complesse.
Finestra di contesto: memoria a lunghissimo termine
Llama 4 Maverick supporta una lunghezza del contesto fino a 1 milione di token. Al momento della disponibilità generale (GA), l’implementazione OCI supporterà una lunghezza del contesto di 512k token. Una finestra di contesto così lunga consente a Maverick di elaborare testi estremamente complessi, come interi libri o raccolte di più documenti.
Distribuzione: richiede più spazio
A causa delle sue dimensioni maggiori, Llama 4 Maverick richiede più spazio di implementazione rispetto a Scout. In GA, l’implementazione di Maverick su OCI richiederà circa il doppio dello spazio di Scout.
Prestazioni: paragonabile ai modelli di fascia alta
Nelle attività di generazione e inferenza del codice, le prestazioni di Llama 4 Maverick sono paragonabili ai modelli di fascia alta come GPT-4o di OpenAI e DeepSeek-V3. Ciò dimostra la posizione di leadership di Maverick nel campo dell’IA.
In sintesi, la famiglia Llama 4 rappresenta un progresso significativo nello sviluppo di modelli di intelligenza artificiale. Hanno ottenuto miglioramenti significativi in termini di prestazioni, versatilità e accessibilità, fornendo un potente supporto per una varietà di scenari applicativi.
I clienti OCI possono ora sfruttare facilmente questi potenti modelli senza preoccuparsi della complessità della gestione dell’infrastruttura. Possono accedere a questi modelli tramite un'interfaccia di chat, API o endpoint dedicati, semplificando lo sviluppo e l'implementazione di applicazioni AI.
Il rilascio dei modelli Llama 4 segna l'inizio di una nuova era per il servizio OCI Generative AI. Offrendo questi modelli avanzati, OCI sta aiutando i clienti a sbloccare tutto il potenziale dell'IA e a promuovere l'innovazione in tutti i settori.