Il panorama dei Large Language Models (LLM) ha assistito a una trasformazione significativa, con Google che è emersa come un attore di spicco mentre Meta e OpenAI affrontano notevoli sfide. Inizialmente, OpenAI ha dominato il campo con i suoi rivoluzionari modelli GPT, stabilendo nuovi parametri di riferimento per le prestazioni degli LLM. Anche Meta si è assicurata una posizione sostanziale offrendo modelli open-weight che vantavano impressionanti capacità e consentivano l’uso, la modifica e la distribuzione senza restrizioni del loro codice pubblicamente accessibile.
Tuttavia, questa prima dominanza ha lasciato altri colossi tecnologici, tra cui Google, a rincorrere. Nonostante il fondamentale documento di ricerca di Google del 2017 sull’architettura del transformer che è alla base degli LLM, gli sforzi iniziali dell’azienda sono stati oscurati dal lancio ampiamente criticato di Bard nel 2023.
Recentemente, le sorti si sono invertite con l’introduzione di nuovi potenti LLM da Google, unita alle battute d’arresto subite da Meta e OpenAI. Questo cambiamento ha alterato significativamente le dinamiche del panorama degli LLM.
Llama 4 di Meta: Un Falso Passo?
L’inatteso rilascio di Llama 4 da parte di Meta sabato 5 aprile ha sollevato interrogativi in tutto il settore.
La decisione di lanciare un modello importante durante un fine settimana è stata percepita come non convenzionale, portando a un’accoglienza sommessa e oscurando l’annuncio tra il flusso di notizie della settimana successiva.
Sebbene Llama 4 possieda alcuni punti di forza, tra cui le sue capacità multimodali (gestione di immagini, audio e altre modalità) e la sua disponibilità in tre versioni (Llama 4 Behemoth, Maverick e Scout) con dimensioni e punti di forza variabili, il suo lancio è stato accolto con critiche. La versione Llama 4 Scout, in particolare, presentava una finestra di contesto sostanziale fino a 10 milioni di token, consentendo al modello di elaborare e generare vaste quantità di testo in una singola sessione.
Tuttavia, l’accoglienza del modello si è inasprita quando sono emerse discrepanze riguardo all’approccio di classificazione di Meta su LMArena, una piattaforma che classifica gli LLM in base ai voti degli utenti. È stato scoperto che lo specifico modello Llama 4 utilizzato per le classifiche differiva da quello reso disponibile al pubblico. LMArena ha dichiarato che Meta ha fornito ‘un modello personalizzato per ottimizzare la preferenza umana’.
Inoltre, le affermazioni di Meta riguardo alla finestra di contesto di 10 milioni di token di Llama 4 Scout sono state accolte con scetticismo. Nonostante l’accuratezza tecnica di questa cifra, i benchmark hanno rivelato che Llama 4 era in ritardo rispetto ai modelli concorrenti nelle prestazioni di contesto lungo.
Aggiungendosi alle preoccupazioni, Meta si è astenuta dal rilasciare un modello ‘di ragionamento’ o ‘di pensiero’ di Llama 4 e ha trattenuto varianti più piccole, sebbene la società abbia indicato che un modello di ragionamento è imminente.
Ben Lorica, fondatore della società di consulenza AI Gradient Flow, ha osservato che Meta si è discostata dalla pratica standard di un rilascio più sistematico, in cui tutti i componenti sono completamente preparati. Ciò suggerisce che Meta potrebbe essere stata desiderosa di mostrare un nuovo modello, anche se mancava di elementi essenziali come un modello di ragionamento e versioni più piccole.
GPT-4.5 di OpenAI: Un Ritiro Prematuro
Anche OpenAI ha affrontato sfide negli ultimi mesi.
GPT-4.5, svelato come anteprima di ricerca il 27 febbraio, è stato pubblicizzato come il ‘modello più grande e migliore dell’azienda per la chat’. I benchmark di OpenAI hanno indicato che GPT-4.5 generalmente superava il suo predecessore, GPT-4o.
Tuttavia, la struttura dei prezzi del modello ha suscitato critiche. OpenAI ha fissato il prezzo di accesso all’API a US$ 150 per milione di token di output, un aumento sbalorditivo di 15 volte rispetto al prezzo di GPT-4o di $ 10 per milione di token. L’API consente agli sviluppatori di integrare i modelli OpenAI nelle loro applicazioni e servizi.
Alan D. Thompson, consulente e analista AI presso Life Architect, ha stimato che GPT-4.5 fosse probabilmente il più grande LLM tradizionale rilasciato durante il primo trimestre del 2025, con circa 5,4 trilioni di parametri. Ha sostenuto che una scala così immensa è difficile da giustificare date le attuali limitazioni hardware e pone sfide significative nel servire una vasta base di utenti.
Il 14 aprile, OpenAI ha annunciato la sua decisione di interrompere l’accesso a GPT-4.5 tramite l’API dopo meno di tre mesi. Mentre GPT-4.5 rimarrà accessibile, sarà limitato agli utenti di ChatGPT tramite l’interfaccia di ChatGPT.
Questo annuncio è coinciso con l’introduzione di GPT-4.1, un modello più economico al prezzo di $ 8 per milione di token. I benchmark di OpenAI indicano che GPT-4.1 non è altrettanto capace di GPT-4.5 nel complesso, sebbene mostri prestazioni superiori in alcuni benchmark di codifica.
OpenAI ha anche recentemente rilasciato nuovi modelli di ragionamento, o3 e o4-mini, con il modello o3 che dimostra prestazioni di benchmark particolarmente forti. Tuttavia, il costo rimane una preoccupazione, poiché l’accesso API a o3 ha un prezzo di $ 40 per milione di token di output.
Ascesa di Google: Cogliere l’Opportunità
L’accoglienza mista di Llama 4 e ChatGPT-4.5 ha creato un’opportunità per i concorrenti di capitalizzare e hanno colto l’occasione.
Il lancio travagliato di Llama 4 da parte di Meta difficilmente dissuaderà gli sviluppatori dall’adottare alternative come DeepSeek-V3, Gemma di Google e Qwen2.5 di Alibaba. Questi LLM, introdotti alla fine del 2024, sono diventati i modelli open-weight preferiti nelle classifiche di LMArena e HuggingFace. Rivaleggiano o superano Llama 4 nei benchmark popolari, offrono accesso API a prezzi accessibili e, in alcuni casi, sono disponibili per il download e l’uso su hardware di livello consumer.
Tuttavia, è l’LLM all’avanguardia di Google, Gemini 2.5 Pro, che ha veramente catturato l’attenzione.
Lanciato il 25 marzo, Google Gemini 2.5 Pro è un ‘modello di pensiero’ simile a GPT-o1 e DeepSeek-R1, che utilizza l’auto-prompting per ragionare attraverso le attività. Gemini 2.5 Pro è multimodale, presenta una finestra di contesto di un milione di token e supporta la ricerca approfondita.
Gemini 2.5 ha rapidamente ottenuto vittorie di benchmark, tra cui il primo posto in SimpleBench (sebbene abbia ceduto quella posizione a o3 di OpenAI il 16 aprile) e nell’AI Intelligence Index combinato di Artificial Analysis. Gemini 2.5 Pro detiene attualmente la prima posizione su LMArena. Al 14 aprile, i modelli di Google occupavano 5 dei primi 10 posti su LMArena, tra cui Gemini 2.5 Pro, tre varianti di Gemini 2.0 e Gemma 3-27B.
Oltre alle sue impressionanti prestazioni, Google è anche un leader dei prezzi. Google Gemini 2.5 è attualmente disponibile per l’uso gratuito tramite l’app Gemini di Google e il sito Web AI Studio di Google. Anche i prezzi API di Google sono competitivi, con Gemini 2.5 Pro al prezzo di $ 10 per milione di token di output e Gemini2.0 Flash al prezzo di soli 40 centesimi per milione di token.
Lorica osserva che per le attività di ragionamento ad alto volume, spesso opta per DeepSeek-R1 o Google Gemini, mentre l’utilizzo dei modelli OpenAI richiede una considerazione più attenta dei prezzi.
Mentre Meta e OpenAI non sono necessariamente sull’orlo del collasso, OpenAI beneficia della popolarità di ChatGPT, che secondo quanto riferito vanta un miliardo di utenti. Tuttavia, le forti classifiche e le prestazioni di benchmark di Gemini indicano un cambiamento nel panorama degli LLM, che attualmente favorisce Google.