Llama di Meta: Da Avanguardia a Standard Enterprise?

Delusioni del LlamaCon e aspettative mutevoli

Al LlamaCon, la conferenza inaugurale di Meta dedicata ai suoi LLM open-source, si respirava un’atmosfera di aspettative disattese. Diversi sviluppatori presenti hanno confidato di aver previsto la presentazione di un modello di ragionamento sofisticato, o almeno di un modello tradizionale in grado di superare i concorrenti come V3 di DeepSeek e Qwen, quest’ultimo una suite di modelli sviluppata dalla divisione cloud computing di Alibaba.

L’assenza di tali annunci ha alimentato i timori che Llama stesse perdendo terreno nella corsa alla supremazia dell’IA. Solo un mese prima della conferenza, Meta aveva lanciato la quarta generazione della sua famiglia Llama, inclusi i modelli open-weight Llama 4 Scout e Llama 4 Maverick. Scout è stato progettato per prestazioni efficienti su una singola GPU, mentre Maverick è stato concepito come un modello più grande per rivaleggiare con altri modelli di base.

Oltre a Scout e Maverick, Meta ha fornito un’anteprima di Llama 4 Behemoth, un “modello insegnante” significativamente più grande ancora in fase di addestramento. Lo scopo di Behemoth è quello di facilitare la distillazione, una tecnica per creare modelli più piccoli e specializzati da uno più grande e generale.

Tuttavia, sono emerse segnalazioni che indicavano ritardi nel rilascio di Behemoth e difficoltà nel raggiungere prestazioni competitive con la suite Llama 4. Nonostante le affermazioni di Meta sulle capacità all’avanguardia, la percezione tra alcuni sviluppatori era che Llama non fosse più in testa al gruppo.

L’ascesa dei concorrenti: Qwen e DeepSeek

La delusione che circonda il LlamaCon e i modelli Llama 4 riflette un sentimento più ampio secondo cui gli LLM open-source di Meta stanno perdendo slancio sia in termini di prestazioni tecniche che di entusiasmo degli sviluppatori. Mentre Meta sottolinea il suo impegno per i principi open-source, la costruzione dell’ecosistema e l’innovazione, concorrenti come DeepSeek, Qwen e OpenAI stanno rapidamente avanzando in aree critiche come il ragionamento, l’uso degli strumenti e l’implementazione nel mondo reale.

Uno sviluppatore, Vineeth Sai Varikuntla, ha espresso la sua delusione, affermando di aver sperato che Llama superasse Qwen e DeepSeek nei casi d’uso generali e nel ragionamento, ma ha scoperto che Qwen era significativamente avanti.

Questo sentimento sottolinea le sfide che Meta deve affrontare per mantenere la posizione di Llama come LLM open-source leader. Mentre le versioni iniziali di Llama hanno suscitato notevole attenzione e lode, l’emergere di alternative sempre più capaci ha intensificato il panorama competitivo.

Un inizio promettente: l’impatto di Llama 2

Per apprezzare appieno la narrativa attuale che circonda Llama, è essenziale ricordare le sue origini e l’entusiasmo iniziale che ha generato. Nel 2023, il CEO di Nvidia Jensen Huang ha lodato il lancio di Llama 2 come “probabilmente l’evento più importante nell’IA” di quell’anno. Entro luglio 2024, il rilascio di Llama 3 è stato considerato una svolta, rappresentando il primo LLM aperto in grado di sfidare il dominio di OpenAI.

L’arrivo di Llama 3 ha innescato un’immediata impennata della domanda di potenza di calcolo, portando a un aumento dei prezzi di noleggio delle GPU, secondo Dylan Patel, analista capo di SemiAnalysis. Anche le ricerche su Google di “Meta” e “Llama” hanno raggiunto il picco durante questo periodo, indicando un diffuso interesse per il nuovo modello.

Llama 3 è stato celebrato come un LLM di fabbricazione americana, aperto e di alto livello. Sebbene non abbia costantemente superato i benchmark del settore, ha esercitato una notevole influenza e rilevanza all’interno della comunità dell’IA. Tuttavia, questa dinamica si è gradualmente spostata.

Cambiamenti architettonici e critiche

I modelli Llama 4 hanno introdotto un’architettura “mixture of experts”, un design reso popolare da DeepSeek. Questa architettura consente al modello di attivare solo la competenza più pertinente per un’attività specifica, migliorando così l’efficienza.

Tuttavia, il rilascio di Llama 4 ha incontrato critiche quando gli sviluppatori hanno scoperto che la versione utilizzata per il benchmarking pubblico differiva dalla versione disponibile per il download e l’implementazione. Questa discrepanza ha portato ad accuse di “gaming the leaderboard”, che Meta ha negato, affermando che la variante in questione era sperimentale e che valutare più versioni di un modello è una pratica standard.

Nonostante le spiegazioni di Meta, la controversia ha contribuito alla percezione che Llama stesse lottando per mantenere il suo vantaggio competitivo. Mentre i modelli concorrenti continuavano ad avanzare, Meta sembrava mancare di una direzione chiara.

Misurare l’adozione da parte degli sviluppatori: un compito complesso

Determinare quale famiglia LLM sia la più popolare tra gli sviluppatori è un compito impegnativo. Tuttavia, i dati disponibili suggeriscono che gli ultimi modelli di Llama non sono tra i leader.

Qwen, in particolare, si classifica costantemente in alto in varie classifiche su Internet. Secondo Artificial Analysis, un sito che classifica i modelli in base alle prestazioni, Llama 4 Maverick e Scout sono posizionati appena sopra il modello GPT-4 di OpenAI (rilasciato alla fine dell’anno precedente) e al di sotto di Grok di xAI e Claude di Anthropic in termini di intelligenza.

OpenRouter, una piattaforma che fornisce agli sviluppatori l’accesso a vari modelli e pubblica classifiche basate sull’utilizzo delle API, mostra Llama 3.3 tra i primi 20 modelli all’inizio di maggio, ma non Llama 4.

Questi dati, sebbene non definitivi, suggeriscono che le ultime iterazioni di Llama non hanno avuto una risonanza così forte tra gli sviluppatori come le loro predecessori.

Oltre i benchmark: uso degli strumenti e ragionamento

Mentre le valutazioni standard di Llama 4 potrebbero essere state deludenti, gli esperti sostengono che il tiepido entusiasmo deriva da fattori che vanno oltre i parametri di prestazione grezza.

AJ Kourabi, analista di SemiAnalysis, sottolinea l’importanza del "tool calling" e della capacità del modello di estendersi oltre la semplice funzionalità di chatbot. Il tool calling si riferisce alla capacità di un modello di accedere e istruire altre applicazioni su Internet o sul dispositivo di un utente, una funzionalità cruciale per l’IA agentica, che promette di automatizzare attività come la prenotazione di viaggi e la gestione delle spese.

Meta ha affermato che i modelli Llama supportano il tool calling tramite la sua API. Tuttavia, Theo Browne, sviluppatore e YouTuber, sostiene che il tool calling è diventato una necessità per la rilevanza all’avanguardia man mano che gli strumenti agentici guadagnano importanza.

Anthropic è emersa come uno dei primi leader nell’uso degli strumenti e i modelli proprietari come OpenAI stanno rapidamente recuperando terreno. La capacità di chiamare in modo affidabile lo strumento giusto per generare la risposta giusta è molto preziosa e OpenAI ha spostato la sua attenzione per dare priorità a questa capacità.

Kourabi sostiene che l’assenza di un modello di ragionamento forte è un indicatore significativo che Meta è rimasta indietro. Il ragionamento è considerato un elemento fondamentale nell’equazione dell’IA agentica, consentendo ai modelli di analizzare le attività e determinare la linea d’azione appropriata.

La nicchia di Llama: applicazioni pratiche e adozione aziendale

Nonostante le preoccupazioni sulla sua posizione all’avanguardia nella ricerca sull’IA, Llama rimane uno strumento prezioso per molti sviluppatori e organizzazioni.

Nate Jones, responsabile del prodotto presso RockerBox, consiglia agli sviluppatori di includere Llama nei loro curriculum, poiché la familiarità con il modello sarà probabilmente ricercata in futuro.

Paul Baier, CEO e analista principale di GAI Insights, ritiene che Llama continuerà a essere una componente chiave delle strategie di IA per molte aziende, in particolare quelle al di fuori del settore tecnologico.

Le aziende riconoscono l’importanza dei modelli open-source, con Llama che è un esempio importante, per la gestione di attività meno complesse e il controllo dei costi. Molte organizzazioni preferiscono una combinazione di modelli chiusi e aperti per soddisfare le loro diverse esigenze.

Baris Gultekin, responsabile dell’IA presso Snowflake, osserva che i clienti spesso valutano i modelli in base ai loro specifici casi d’uso piuttosto che affidarsi esclusivamente ai benchmark. Dato il suo basso costo, Llama spesso si rivela sufficiente per molte applicazioni.

In Snowflake, Llama viene utilizzato per attività come la sintesi delle trascrizioni delle chiamate di vendita e l’estrazione di informazioni strutturate dalle recensioni dei clienti. In Dremio, Llama genera codice SQL e scrive e-mail di marketing.

Tomer Shiran, co-fondatore e chief product officer di Dremio, suggerisce che il modello specifico potrebbe non essere fondamentale per l’80% delle applicazioni, poiché la maggior parte dei modelli sono ora "abbastanza buoni" per soddisfare le esigenze di base.

Un panorama in diversificazione: il ruolo in consolidamento di Llama

Mentre Llama potrebbe allontanarsi dalla concorrenza diretta con i modelli proprietari in determinate aree, il panorama generale dell’IA sta diventando più diversificato e il ruolo di Llama si sta consolidando all’interno di nicchie specifiche.

Shiran sottolinea che i benchmark non sono il motore principale della scelta del modello, poiché gli utenti danno la priorità al test dei modelli sui propri casi d’uso. Le prestazioni di un modello sui dati di un cliente sono fondamentali e queste prestazioni possono variare nel tempo.

Gultekin aggiunge che la selezione del modello è spesso una decisione specifica per il caso d’uso piuttosto che un evento una tantum.

Llama potrebbe perdere sviluppatori che sono costantemente alla ricerca degli ultimi progressi, ma conserva il supporto di molti sviluppatori focalizzati sulla creazione di strumenti pratici basati sull’IA.

Questa dinamica si allinea alla più ampia strategia open-source di Meta, esemplificata dal lancio di React nel 2013 e dalla creazione di PyTorch nel 2016. Promuovendo ecosistemi di successo, Meta beneficia dei contributi della comunità open-source.

Come osserva Nate Jones, Zuckerberg ottiene notevoli vantaggi dalle iniziative open-source di Meta.