GPT-4.5: Fallimento o Base?

La Scala e la Portata di GPT-4.5

GPT-4.5 rappresenta l’impresa più ambiziosa di OpenAI fino ad oggi in termini di dimensioni pure. Sebbene i dettagli precisi riguardanti la sua architettura e i dati di addestramento rimangano scarsi, è noto che il processo di addestramento è stato così intensivo dal punto di vista computazionale da richiedere la distribuzione su più data center. Questo da solo suggerisce le monumentali risorse impiegate nel suo sviluppo.

La struttura dei prezzi del modello sottolinea ulteriormente il suo posizionamento come offerta premium. I costi sono significativamente più alti di quelli dei suoi predecessori, superando GPT-4o di un fattore di 15-30X, o1 di 3-5X e Claude 3.7 Sonnet di 10-25X. L’accesso è attualmente limitato agli abbonati ChatGPT Pro (a un costo elevato di $200 al mese) e ai clienti API disposti a pagare in base al token.

Tuttavia, i miglioramenti delle prestazioni, almeno in alcune aree, non sono stati all’altezza del prezzo. I benchmark iniziali hanno rivelato solo modesti miglioramenti rispetto a GPT-4o e hanno persino mostrato GPT-4.5 in ritardo rispetto a modelli come o1 e o3-mini in compiti di ragionamento.

Comprendere lo Scopo Previsto di GPT-4.5

È fondamentale riconoscere che OpenAI non ha mai esplicitamente commercializzato GPT-4.5 come il suo modello di punta, per tutti gli usi. In effetti, le prime versioni del loro post sul blog chiarivano che non era inteso come un ‘modello di frontiera’ che spingesse i limiti assoluti della capacità. Inoltre, non è progettato principalmente come modello di ragionamento, rendendo i confronti diretti con modelli ottimizzati per tale scopo (come o3 e DeepSeek-R1) in qualche modo fuorvianti.

OpenAI ha indicato che GPT-4.5 sarà il suo ultimo modello non-chain-of-thought. Ciò significa che il suo addestramento si è concentrato fortemente sull’incorporazione di vaste quantità di conoscenza del mondo e sull’allineamento con le preferenze dell’utente, piuttosto che sullo sviluppo di complesse capacità di ragionamento.

Dove GPT-4.5 Potrebbe Brillare: Conoscenza e Sfumature

Il vantaggio principale dei modelli più grandi risiede spesso nella loro maggiore capacità di acquisizione di conoscenza. GPT-4.5, in linea con questo principio, dimostra una ridotta tendenza ad allucinare rispetto alle sue controparti più piccole. Questo lo rende potenzialmente prezioso in scenari in cui è fondamentale la rigorosa aderenza ai fatti e alle informazioni contestuali.

Inoltre, GPT-4.5 mostra una maggiore capacità di seguire le istruzioni e le preferenze dell’utente. Ciò è stato dimostrato in varie dimostrazioni di OpenAI e corroborato dalle esperienze degli utenti condivise online. Il modello sembra cogliere le sfumature dell’intento dell’utente in modo più efficace, portando a risultati più personalizzati e pertinenti.

Il Dibattito sulla Qualità della Prosa: Soggettività e Potenziale

È emersa una vivace discussione sulla capacità di GPT-4.5 di generare prosa superiore. Alcuni dirigenti di OpenAI hanno lodato la qualità dell’output del modello, con il CEO Sam Altman che ha persino suggerito che l’interazione con esso ha fornito uno scorcio di ‘AGI’ (Artificial General Intelligence) per alcuni tester esigenti.

Tuttavia, la reazione più ampia è stata decisamente mista. Il co-fondatore di OpenAI, Andrej Karpathy, ha anticipato miglioramenti in compiti meno dipendenti dal puro ragionamento, enfatizzando aree come ‘EQ’ (intelligenza emotiva), creatività, creazione di analogie e umorismo – aspetti spesso limitati dalla conoscenza del mondo e dalla comprensione generale.

È interessante notare che un successivo sondaggio condotto da Karpathy ha rivelato una preferenza generale dell’utente per le risposte di GPT-4o rispetto a quelle di GPT-4.5 in termini di qualità di scrittura. Ciò evidenzia la soggettività intrinseca nella valutazione della prosa e suggerisce che un’abile ingegneria dei prompt potrebbe ottenere una qualità comparabile da modelli più piccoli e più efficienti.

Karpathy stesso ha riconosciuto l’ambiguità dei risultati, suggerendo varie possibili spiegazioni: i tester ‘di alto gusto’ potrebbero percepire sottili miglioramenti strutturali persi da altri, gli esempi testati potrebbero non essere stati ideali, o le differenze potrebbero semplicemente essere troppo sottili per essere discernibili in un campione di piccole dimensioni.

I Limiti del Ridimensionamento e il Futuro dei LLM

Il rilascio di GPT-4.5, per certi versi, sottolinea i potenziali limiti del semplice ridimensionamento di modelli addestrati su enormi set di dati. Ilya Sutskever, un altro co-fondatore di OpenAI ed ex capo scienziato, ha notoriamente affermato al NeurIPS 2024 che ‘il pre-addestramento come lo conosciamo finirà senza dubbio… Abbiamo raggiunto il picco dei dati e non ce ne saranno più. Dobbiamo fare i conti con i dati che abbiamo. C’è solo una Internet’.

I rendimenti decrescenti osservati con GPT-4.5 testimoniano le sfide del ridimensionamento di modelli general-purpose addestrati principalmente su dati Internet e ottimizzati per l’allineamento attraverso il reinforcement learning from human feedback (RLHF).

La prossima frontiera per i modelli linguistici di grandi dimensioni sembra essere il test-time scaling (o inference-time scaling). Ciò comporta l’addestramento dei modelli a ‘pensare’ per una durata maggiore generando token chain-of-thought (CoT). Il test-time scaling migliora la capacità di un modello di affrontare problemi di ragionamento complessi ed è stato un fattore chiave nel successo di modelli come o1 e R1.

Non un Fallimento, ma una Fondazione

Sebbene GPT-4.5 potrebbe non essere la scelta ottimale per ogni attività, è fondamentale riconoscere il suo ruolo potenziale come elemento fondamentale per i futuri progressi. Una solida base di conoscenza è essenziale per lo sviluppo di modelli di ragionamento più sofisticati.

Anche se GPT-4.5 stesso non diventa il modello di riferimento per la maggior parte delle applicazioni, può fungere da elemento costitutivo cruciale per i successivi modelli di ragionamento. È persino plausibile che sia già utilizzato all’interno di modelli come o3.

Come ha spiegato Mark Chen, Chief Research Officer di OpenAI, ‘Hai bisogno di conoscenza per costruire il ragionamento su di essa. Un modello non può entrare alla cieca e imparare semplicemente il ragionamento da zero. Quindi troviamo che questi due paradigmi siano abbastanza complementari e pensiamo che abbiano cicli di feedback l’uno sull’altro’.

Lo sviluppo di GPT-4.5, quindi, non rappresenta un vicolo cieco, ma un passo strategico nella continua evoluzione dei modelli linguistici di grandi dimensioni. È una testimonianza della natura iterativa della ricerca sull’IA, in cui ogni passo, anche se apparentemente deludente isolatamente, contribuisce al progresso più ampio verso sistemi di IA più capaci e versatili. L’attenzione si sta ora spostando verso lo sfruttamento di questa solida base di conoscenza per costruire modelli che possono non solo richiamare informazioni, ma anche ragionare e risolvere problemi con un’efficacia senza precedenti. Il viaggio verso un’IA veramente intelligente continua e GPT-4.5, nonostante la sua accoglienza mista, gioca un ruolo significativo in quel viaggio.
L’attenzione ora non è solo su quanto un modello sa, ma su quanto bene può usare quella conoscenza. Questa è la sfida principale che la comunità dell’IA sta affrontando e GPT-4.5, pur non essendo una soluzione perfetta, fornisce preziose informazioni e una solida base per future scoperte. Il percorso da seguire prevede una combinazione di approcci: perfezionare le tecniche esistenti, esplorare nuove architetture e sviluppare metodi più sofisticati per l’addestramento e la valutazione. L’obiettivo finale rimane lo stesso: creare sistemi di IA che possano non solo comprendere e generare il linguaggio umano, ma anche ragionare, apprendere e adattarsi in modi che un tempo erano considerati dominio esclusivo dell’intelligenza umana.