Il Plateau Imminente: Limiti dei Modelli di Ragionamento

I modelli di ragionamento, salutati come il prossimo grande salto nell’evoluzione dei grandi modelli linguistici (LLM), hanno dimostrato notevoli progressi, in particolare in settori che richiedono una complessa capacità di problem-solving, come la matematica e la programmazione informatica. Questi sofisticati sistemi, che si distinguono per una fase aggiuntiva di “training sul ragionamento”, sfruttano l’apprendimento per rinforzo per affinare le proprie capacità nell’affrontare sfide complesse. o3 di OpenAI si distingue come un esempio pionieristico, mostrando significativi guadagni di performance rispetto al suo predecessore, o1, secondo le valutazioni di benchmark. La domanda centrale che ora incombe sul settore è la sostenibilità di questo progresso. Questi modelli possono continuare ad avanzare allo stesso ritmo semplicemente aumentando la potenza di calcolo?

Epoch AI, un’organizzazione di ricerca focalizzata sugli impatti sociali dell’intelligenza artificiale, si è assunta il compito di svelare questa domanda. Josh You, un analista di dati di Epoch AI, ha intrapreso un’analisi completa per determinare gli attuali livelli di investimento computazionale nel training sul ragionamento e per valutare il potenziale residuo di espansione.

L’Impennata Computazionale Dietro i Modelli di Ragionamento

OpenAI ha dichiarato pubblicamente che o3 è stato addestrato con risorse computazionali dieci volte superiori rispetto a o1 dedicate al ragionamento – un aumento sostanziale ottenuto in soli quattro mesi. Un grafico prodotto da OpenAI illustra vividamente la stretta correlazione tra la potenza di calcolo e le prestazioni sul benchmark matematico AIME. Epoch AI ipotizza che queste cifre si riferiscano specificamente alla seconda fase del training, il training sul ragionamento, piuttosto che al processo di training completo del modello.

Per mettere queste cifre in prospettiva, Epoch AI ha esaminato modelli comparabili. DeepSeek-R1, ad esempio, è stato riferito che è stato addestrato con circa 6e23 FLOP (floating point operations per second) a un costo stimato di 1 milione di dollari, ottenendo risultati di benchmark simili a o1.

I giganti della tecnologia Nvidia e Microsoft hanno anche contribuito allo sviluppo di modelli di ragionamento, fornendo dati di training accessibili pubblicamente. Llama-Nemotron Ultra 253B di Nvidia ha utilizzato circa 140.000 ore di GPU H100, equivalenti a circa 1e23 FLOP, per la sua fase di training sul ragionamento. Phi-4-reasoning di Microsoft ha impiegato ancora meno potenza di calcolo, inferiore a 1e20 FLOP. Un fattore critico che distingue questi modelli è la loro forte dipendenza da dati di training sintetici generati da altri sistemi di intelligenza artificiale. Epoch AI sottolinea che questa dipendenza rende più difficili i confronti diretti con modelli come o3 a causa delle differenze inerenti tra dati reali e sintetici e del loro impatto sull’apprendimento e sulla generalizzazione del modello.

Definire “Training sul Ragionamento”: Un’Area Nebbiosa

Un altro livello di complessità deriva dalla mancanza di una definizione universalmente accettata di “training sul ragionamento”. Oltre all’apprendimento per rinforzo, alcuni modelli incorporano tecniche come il supervised fine-tuning. L’ambiguità che circonda i componenti inclusi nelle stime di calcolo introduce incongruenze, rendendo difficile confrontare accuratamente le risorse tra diversi modelli.

Ad oggi, i modelli di ragionamento consumano ancora una potenza di calcolo significativamente inferiore rispetto alle esecuzioni di training di AI più estese, come Grok 3, che supera 1e26 FLOP. Le fasi contemporanee di training sul ragionamento operano in genere tra 1e23 e 1e24 FLOP, lasciando un notevole margine per una potenziale espansione – o almeno così sembra a prima vista.

Dario Amodei, CEO di Anthropic, condivide una prospettiva simile. Egli ipotizza che un investimento di 1 milione di dollari nel training sul ragionamento possa produrre progressi significativi. Tuttavia, le aziende stanno attivamente esplorando modi per aumentare il budget per questa fase di training secondaria a centinaia di milioni di dollari e oltre, il che suggerisce un futuro in cui l’economia del training cambia radicalmente.

Se l’attuale tendenza di aumenti di circa dieci volte superiori alla potenza di calcolo ogni tre-cinque mesi continua, il calcolo del training sul ragionamento potrebbe potenzialmente raggiungere il calcolo totale del training dei modelli principali già l’anno prossimo. Tuttavia, Josh You prevede che la crescita alla fine rallenterà a circa un aumento di 4 volte all’anno, in linea con le tendenze più ampie del settore. Questo rallentamento sarà probabilmente guidato da una combinazione di fattori, tra cui i rendimenti decrescenti dell’investimento nel training, il costo crescente delle risorse di calcolo e i limiti dei dati di training disponibili.

Oltre il Calcolo: I Colli di Bottiglia all’Orizzonte

Epoch AI sottolinea che la potenza di calcolo non è l’unico fattore limitante. Il training sul ragionamento richiede quantità considerevoli di attività impegnative e di alta qualità. Acquisire tali dati è difficile; generarli in modo sintetico lo è ancora di più. Il problema dei dati sintetici non è solo l’autenticità; molti sostengono che la qualità sia scarsa. Inoltre, l’efficacia di questo approccio al di fuori di domini altamente strutturati come la matematica e la programmazione informatica rimane incerta. Tuttavia, progetti come “Deep Research” in ChatGPT, che utilizza una versione personalizzata di o3, suggeriscono un potenziale per una più ampia applicabilità.

Anche le attività dispendiose in termini di manodopera dietro le quinte, come la selezione di attività appropriate, la progettazione di funzioni di ricompensa e lo sviluppo di strategie di training, pongono delle sfide. Questi costi di sviluppo, spesso esclusi dalle stime di calcolo, contribuiscono in modo significativo al costo complessivo del training sul ragionamento.

Nonostante queste sfide, OpenAI e altri sviluppatori rimangono ottimisti. Come osserva Epoch AI, le curve di scaling per il training sul ragionamento assomigliano attualmente al classico progresso log-lineare osservato nel pre-training. Inoltre, o3 dimostra notevoli guadagni non solo in matematica, ma anche in compiti software basati su agenti, indicando il potenziale versatile di questo nuovo approccio.

Il futuro di questo progresso dipende dalla scalabilità del training sul ragionamento – tecnicamente, economicamente e in termini di contenuto. I seguenti punti esplorano diversi fattori chiave che determineranno il futuro di questi modelli:

  • Scalabilità Tecnica: Si riferisce alla capacità di aumentare le risorse computazionali utilizzate nel training senza incontrare ostacoli tecnici insormontabili. Ciò include i progressi nell’hardware, nel software e negli algoritmi per utilizzare in modo efficiente set di dati più grandi e infrastrutture di calcolo più potenti. Man mano che i modelli crescono in dimensioni e complessità, la scalabilità tecnica diventa sempre più critica per il progresso continuo. L’architettura sottostante dovrà evolvere per stare al passo con la pura scala dei modelli.
  • Scalabilità Economica: Comporta la fattibilità di aumentare le risorse computazionali entro ragionevoli vincoli di budget. Se il costo del training aumenta linearmente o esponenzialmente con le dimensioni del modello, potrebbe diventare proibitivo perseguire ulteriori guadagni. Come tale, potrebbe essere necessario un training più economico ed efficiente. Le innovazioni nell’hardware e le tecniche di ottimizzazione che riducono il costo per FLOP sono cruciali per la scalabilità economica. La tendenza è stata quella di concentrarsi su modelli sempre più grandi, ma con un budget limitato, gli incentivi si sposteranno verso il training dei modelli più efficienti.
  • Scalabilità dei Contenuti: Evidenzia la disponibilità di dati di training di alta qualità che possono effettivamente guidare i guadagni nella capacità di ragionamento. Man mano che i modelli diventano più sofisticati, sono necessari set di dati più difficili e diversi per sfidarli e prevenire l’overfitting. La disponibilità di tali set di dati è limitata, soprattutto in domini che richiedono un ragionamento complesso. Le tecniche di generazione di dati sintetici possono aiutare ad alleviare questo collo di bottiglia, ma devono essere progettate con cura per evitare distorsioni o imprecisioni che potrebbero degradare le prestazioni del modello.

Il Futuro del Calcolo

È facile per noi profani pensare che siamo sulla strada del calcolo infinito. Tuttavia, in realtà, è limitato e, in futuro, tale limite potrebbe diventare più evidente. In questa sezione, esploreremo alcuni modi in cui il calcolo potrebbe evolvere in futuro e come tali cambiamenti influenzeranno l’industria dei LLM.

Quantum Computing

Il calcolo quantistico rappresenta un cambiamento di paradigma nel calcolo, sfruttando i principi della meccanica quantistica per risolvere problemi che sono intrattabili per i computer classici. Sebbene sia ancora nelle sue fasi nascenti, il calcolo quantistico ha un immenso potenziale per accelerare i carichi di lavoro AI, incluso il training del modello di ragionamento. Algoritmi quantistici come il quantum annealing e i variational quantum eigensolvers (VQEs) potrebbero potenzialmente ottimizzare i parametri del modello in modo più efficiente rispetto ai metodi di ottimizzazione classici, riducendo le risorse computazionali necessarie per il training. Ad esempio, gli algoritmi di machine learning quantistico potrebbero migliorare l’ottimizzazione di reti neurali complesse, portando a tempi di training più rapidi e potenzialmente a migliori prestazioni del modello.

Tuttavia, rimangono sfide significative nell’ampliamento dei computer quantistici e nello sviluppo di algoritmi quantistici robusti. La tecnologia è ancora in gran parte sperimentale e i computer quantistici pratici con qubit (quantum bit) sufficienti e tempi di coerenza non sono ancora facilmente disponibili. Inoltre, lo sviluppo di algoritmi quantistici su misura per compiti specifici di AI richiede competenze specialistiche ed è un’area di ricerca in corso. L’adozione diffusa del calcolo quantistico nell’AI rimane a diversi anni di distanza ed è probabile che sia pratica solo una volta che i computer saranno disponibili.

Neuromorphic Computing

Il calcolo neuromorfico imita la struttura e la funzione del cervello umano per eseguire il calcolo. A differenza dei computer tradizionali che si basano sulla logica binaria e sull’elaborazione sequenziale, i chip neuromorfici utilizzano neuroni e sinapsi artificiali per elaborare le informazioni in modo parallelo ed efficiente dal punto di vista energetico. Questa architettura è adatta per i compiti AI che coinvolgono il riconoscimento di pattern, l’apprendimento e l’adattamento, come il training del modello di ragionamento. I chip neuromorfici potrebbero potenzialmente ridurre il consumo di energia e la latenza associati al training di grandi modelli AI, rendendolo più economicamente praticabile e sostenibile dal punto di vista ambientale.

Loihi di Intel e TrueNorth di IBM sono esempi di chip neuromorfici che hanno dimostrato risultati promettenti nelle applicazioni AI. Questi chip sono in grado di eseguire complessi compiti AI con un consumo di energia significativamente inferiore rispetto alle CPU e alle GPU tradizionali. Tuttavia, il calcolo neuromorfico è ancora un campo relativamente nuovo e rimangono delle sfide nello sviluppo di strumenti di programmazione robusti e nell’ottimizzazione di algoritmi per architetture neuromorfiche. Inoltre, la disponibilità limitata di hardware neuromorfico e la mancanza di competenze diffuse nel calcolo neuromorfico hanno ostacolato l’adozione di questa tecnologia nelle applicazioni AI tradizionali.

Analog Computing

Il calcolo analogico utilizza quantità fisiche continue, come la tensione o la corrente, per rappresentare ed elaborare le informazioni, piuttosto che segnali digitali discreti. I computer analogici possono eseguire determinate operazioni matematiche, come equazioni differenziali e algebra lineare, molto più velocemente e in modo più efficiente rispetto ai computer digitali, soprattutto in compiti che possono essere utili per il ragionamento. Il calcolo analogico può essere utile per il training dei modelli o per l’esecuzione dell’inferenza quando necessario.

Tuttavia, il calcolo analogico affronta sfide in termini di precisione, scalabilità e programmabilità. I circuiti analogici sono suscettibili al rumore e alla deriva, il che può degradare l’accuratezza dei calcoli. L’ampliamento dei computer analogici per gestire modelli AI grandi e complessi è anche una sfida tecnica. Inoltre, la programmazione dei computer analogici richiede in genere competenze specialistiche ed è più difficile della programmazione dei computer digitali. Nonostante queste sfide, c’è un crescente interesse per il calcolo analogico come potenziale alternativa al calcolo digitale per applicazioni AI specifiche, in particolare quelle che richiedono alta velocità ed efficienza energetica.

Distributed Computing

Il distributed computing prevede la distribuzione dei carichi di lavoro AI su più macchine o dispositivi collegati da una rete. Questo approccio consente alle organizzazioni di sfruttare la potenza di calcolo collettiva di un gran numero di risorse per accelerare il training e l’inferenza AI. Il distributed computing è essenziale per il training di modelli linguistici di grandi dimensioni (LLM) e altri modelli AI complessi che richiedono enormi set di dati e risorse computazionali.

Framework come TensorFlow, PyTorch e Apache Spark forniscono strumenti e API per distribuire i carichi di lavoro AI su cluster di macchine. Questi framework consentono alle organizzazioni di aumentare le proprie capacità AI aggiungendo più risorse computazionali secondo necessità. Tuttavia, il distributed computing introduce sfide nella gestione dei dati, nel sovraccarico di comunicazione e nella sincronizzazione. Distribuire in modo efficiente i dati su più macchine e ridurre al minimo i ritardi di comunicazione è fondamentale per massimizzare le prestazioni dei sistemi AI distribuiti. Inoltre, garantire che le diverse macchine o dispositivi siano correttamente sincronizzati e coordinati è essenziale per ottenere risultati accurati e affidabili.

Conclusione

La traiettoria dei modelli di ragionamento è innegabilmente intrecciata con la disponibilità e la scalabilità delle risorse computazionali. Mentre l’attuale ritmo di progresso guidato dall’aumento del calcolo è impressionante, diversi fattori, tra cui la scarsità di dati di training di alta qualità, il costo crescente del calcolo e l’emergere di paradigmi di calcolo alternativi, suggeriscono che l’era del scaling computazionale sfrenato potrebbe avvicinarsi ai suoi limiti. Ilfuturo dei modelli di ragionamento dipenderà probabilmente dalla nostra capacità di superare queste limitazioni ed esplorare nuovi approcci per migliorare le capacità dell’AI. Con tutte queste informazioni, possiamo presumere che l’aumento delle capacità del modello di ragionamento potrebbe presto iniziare a rallentare per uno dei numerosi vincoli discussi.