Meta Llama, inizialmente noto come LLaMA (Large Language Model Meta AI), ha fatto irruzione sulla scena nel febbraio 2023, segnando l’ingresso di Meta nel competitivo mondo dei large language model (LLMs). Il rilascio di Llama 2 nel luglio 2023 ha rappresentato una svolta, poiché Meta ha adottato una licenza aperta permissiva, democratizzando l’accesso e favorendo un’ampia adozione. Attraverso continui perfezionamenti e molteplici iterazioni, Llama ha costantemente migliorato le sue capacità, consolidando la sua posizione tra i giganti del settore come OpenAI, Anthropic e Google.
La famiglia Llama si è ulteriormente ampliata il 5 aprile 2025, con l’introduzione della famiglia di modelli Llama 4, nota anche come la mandria Llama 4, annunciando una nuova era di LLM multimodali.
Che cos’è Meta Llama 4?
Meta Llama 4 rappresenta un significativo passo avanti nella tecnologia LLM, vantando capacità multimodali che gli consentono di elaborare e interpretare dati di testo, immagini e video. Questo modello di quarta generazione trascende le barriere linguistiche supportando numerose lingue provenienti da tutto il mondo.
Un’innovazione chiave nei modelli Llama 4 è l’adozione di un’architettura mixture-of-experts, una novità per la famiglia Llama. Questa architettura attiva dinamicamente solo un sottoinsieme dei parametri totali per ogni token di input, ottenendo un equilibrio armonioso tra potenza ed efficienza.
Sebbene la licenza comunitaria Llama 4 non sia ufficialmente riconosciuta come una licenza approvata dall’Open Source Initiative, Meta caratterizza i suoi modelli Llama 4 come open source. La licenza concede diritti di utilizzo e modifica gratuiti ai modelli Llama 4, soggetti a determinate limitazioni. Ad aprile 2025, il limite era fissato a 700 milioni di utenti mensili, oltre i quali è richiesta una licenza commerciale.
La gamma Llama 4 comprende tre versioni principali: Scout, Maverick e Behemoth. Scout e Maverick sono stati lanciati contemporaneamente, mentre Behemoth è ancora in fase di sviluppo. Questi modelli differiscono in modo significativo nelle loro specifiche:
- Llama 4 Scout: Dispone di 17 miliardi di parametri attivi, 16 esperti, 109 miliardi di parametri totali, una finestra di contesto di 10 milioni di token e un cutoff di conoscenza di agosto 2024.
- Llama 4 Maverick: Dispone inoltre di 17 miliardi di parametri attivi, ma vanta 128 esperti, 400 miliardi di parametri totali, una finestra di contesto di 1 milione di token e lo stesso cutoff di conoscenza di Scout.
- Llama 4 Behemoth: Il più potente dei tre, con 288 miliardi di parametri attivi, 16 esperti, 2 trilioni di parametri totali e una finestra di contesto e un cutoff di conoscenza non specificati.
Capacità di Meta Llama 4
I modelli Meta Llama 4 sbloccano un ampio spettro di applicazioni, tra cui:
- Multimodalità nativa: La capacità di comprendere contemporaneamente testo, immagini e video. Ciò consente al modello di derivare contesto e significato da diverse fonti di informazione.
- Riassunto dei contenuti: I modelli Llama 4 possono condensare in modo efficiente le informazioni da vari tipi di contenuto, un aspetto cruciale della comprensione multimodale. Ad esempio, il modello potrebbe analizzare un video, estrarre le scene chiave e generare un riassunto conciso del contenuto.
- Elaborazione di contesti lunghi: Llama 4 Scout è specificamente progettato per elaborare notevoli volumi di informazioni, facilitato dalla sua ampia finestra di contesto di 10 milioni di token. Questa capacità è preziosa per attività quali l’analisi di ampi documenti di ricerca o l’elaborazione di documenti lunghi.
- Modalità multilingue: Tutti i modelli Llama 4 mostrano competenza multilingue, supportando un’ampia gamma di lingue per l’elaborazione del testo: arabo, inglese, francese, tedesco, hindi, indonesiano, italiano, portoghese, spagnolo, tagalog, tailandese e vietnamita. Tuttavia, la comprensione delle immagini è attualmente limitata all’inglese.
- Generazione di testo: I modelli Llama 4 eccellono nella generazione di testo coerente e contestualmente rilevante, inclusi gli sforzi di scrittura creativa. Il modello può adattarsi a vari stili di scrittura e generare testo di qualità umana.
- Ragionamento avanzato: Questi modelli possiedono la capacità di ragionare attraverso intricati problemi scientifici e matematici. Possono decifrare la logica complessa e giungere a conclusioni accurate.
- Generazione di codice: Llama 4 è in grado di comprendere e generare codice applicativo, assistendo gli sviluppatori nella semplificazione dei loro flussi di lavoro. Il modello può generare frammenti di codice, completare funzioni e persino sviluppare intere applicazioni.
- Funzionalità del modello di base: Come modello aperto, Llama 4 funge da elemento fondamentale per lo sviluppo di modelli derivati. Ricercatori e sviluppatori possono mettere a punto Llama 4 per attività specifiche, sfruttando le sue capacità esistenti per creare applicazioni specializzate.
Metodologia di training di Meta Llama 4
Meta ha impiegato una serie di tecniche avanzate per addestrare i suoi LLM della famiglia Llama di quarta generazione, con l’obiettivo di migliorare l’accuratezza e le prestazioni rispetto alle versioni precedenti. Queste tecniche includono:
- Dati di training: La pietra angolare di qualsiasi LLM sono i suoi dati di training e Meta ha riconosciuto che più dati si traducono in prestazioni migliori. A tal fine, Llama 4 è stato addestrato su oltre 30 trilioni di token, raddoppiando la quantità di dati utilizzati per addestrare Llama 3.
- Multimodalità a fusione precoce: La serie Llama 4 ha adottato l’approccio della “fusione precoce”, che integra token di testo e visione in un modello unificato. Questo approccio, secondo Meta, favorisce una comprensione più naturale tra informazioni visive e testuali, eliminando la necessità di codificatori e decodificatori separati.
- Ottimizzazione degli iperparametri: Questa tecnica prevede la messa a punto di iperparametri critici del modello, come i tassi di apprendimento per livello, per ottenere risultati di training più affidabili e coerenti. Ottimizzando questi parametri, Meta è stata in grado di migliorare la stabilità e le prestazioni complessive di Llama 4.
- Architettura iRoPE: L’architettura di livelli di attenzione interleaved senza incorporamenti posizionali, o architettura iRoPE, migliora la gestione di sequenze lunghe durante il training e facilita la finestra di contesto di 10 milioni di token in Llama 4 Scout. Questa architettura consente al modello di conservare le informazioni provenienti da parti distanti della sequenza di input, consentendogli di elaborare documenti più lunghi e complessi.
- MetaCLIP Vision Encoder: Il nuovo Meta vision encoder traduce le immagini in rappresentazioni di token, portando a una migliore comprensione multimodale. Questo encoder consente a Llama 4 di elaborare e interpretare efficacemente le informazioni visive.
- Training di sicurezza GOAT: Meta ha implementato il Generative Offensive Agent Tester (GOAT) durante il training per identificare le vulnerabilità LLM e migliorare la sicurezza del modello. Questa tecnica aiuta a mitigare il rischio che il modello generi contenuti dannosi o distorti.
Evoluzione dei modelli Llama
Dopo il lancio rivoluzionario di ChatGPT nel novembre 2022, le aziende di tutto il settore si sono affrettate a stabilire un punto d’appoggio nel mercato LLM. Meta è stato tra i primi a rispondere, introducendo i suoi modelli Llama iniziali all’inizio del 2023, anche se con accesso limitato. A partire dal rilascio di Llama 2 a metà 2023, tutti i modelli successivi sono stati resi disponibili con licenze aperte.
- Llama 1: Il modello Llama originale, lanciato nel febbraio 2023 con accesso limitato.
- Llama 2: Rilasciato nel luglio 2023 come primo modello Llama con licenza aperta, Llama 2 offriva accesso e utilizzo gratuiti. Questa iterazione includeva versioni con parametri 7B, 13B e 70B, per soddisfare diverse esigenze computazionali.
- Llama 3: I modelli Llama 3 hanno debuttato nell’aprile 2024, inizialmente con versioni con parametri 8B e 70B.
- Llama 3.1: Lanciato nel luglio 2024, Llama 3.1 ha aggiunto un modello con parametri 405B, spingendo i confini delle capacità LLM.
- Llama 3.2: Questo modello, il primo LLM completamente multimodale di Meta, è stato rilasciato nell’ottobre 2024, segnando una pietra miliare significativa nell’evoluzione della famiglia Llama.
- Llama 3.3: Meta ha affermato al suo rilascio di dicembre 2024 che la variante 70B di Llama 3.3 offriva le stesse prestazioni della variante 405B di 3.1, pur richiedendo meno risorse computazionali, dimostrando i continui sforzi di ottimizzazione.
Llama 4 a confronto con altri modelli
Il panorama dell’IA generativa sta diventando sempre più competitivo, con figure di spicco come GPT-4o di OpenAI, Google Gemini 2.0 e vari progetti open source tra cui DeepSeek.
Le prestazioni di Llama 4 possono essere valutate utilizzando diversi benchmark, tra cui:
- MMMU (Massive Multi-discipline Multimodal Understanding): Valuta le capacità di ragionamento delle immagini.
- LiveCodeBench: Valuta la competenza nella codifica.
- GPQA Diamond (Graduate-Level Google-Proof Q&A Diamond): Misura il ragionamento e la conoscenza.
Punteggi più alti in questi benchmark indicano prestazioni migliori.
Llama 4 Maverick | Gemini 2.0 Flash | GPT-4o | |
---|---|---|---|
Ragionamento delle immagini MMMU | 73.4 | 71.7 | 69.1 |
LiveCodeBench | 43.4 | 34.05 | 32.3 |
GPQA Diamond | 69.8 | 60.1 | 53.6 |
Questi benchmark evidenziano i punti di forza di Llama 4 Maverick nel ragionamento delle immagini, nella codifica e nella conoscenza generale, posizionandolo come un forte contendente nell’arena LLM.
Accesso a Llama 4
Meta Llama 4 Maverick e Scout sono facilmente disponibili attraverso vari canali:
- Llama.com: Scarica Scout e Maverick direttamente dal sito web llama.com gestito da Meta gratuitamente.
- Meta.ai: L’interfaccia web Meta.ai fornisce accesso basato su browser a Llama 4, consentendo agli utenti di interagire con il modello senza richiedere alcuna installazione locale.
- Hugging Face: Llama 4 è anche accessibile all’indirizzo https://huggingface.co/meta-llama, una piattaforma popolare per la condivisione e la scoperta di modelli di machine learning.
- Meta AI App: Llama 4 alimenta l’assistente virtuale AI di Meta, accessibile tramite voce o testo su varie piattaforme. Gli utenti possono sfruttare l’assistente per eseguire attività come riassumere testo, generare contenuti e rispondere a domande.