GPT-4.5: Sfide e Scoperte di OpenAI

Superare i “Problemi Catastrofici” nell’Addestramento su Larga Scala

Lo sviluppo di GPT-4.5, un progetto iniziato due anni prima, rappresenta l’impresa più ambiziosa di OpenAI fino ad oggi. Questo imponente progetto ha coinvolto gli sforzi collaborativi di centinaia di individui, con Sam Altman, CEO di OpenAI, che ha osservato come il progetto abbia richiesto un coinvolgimento organizzativo quasi totale.

Il percorso per creare GPT-4.5 non è stato privo di ostacoli. Il team ha incontrato numerosi “problemi catastrofici” durante la fase di ricerca e sviluppo. L’utilizzo di un cluster di 100.000 GPU ha esposto guasti infrastrutturali precedentemente invisibili, a bassa probabilità, ma profondi. Per bilanciare la speditezza con le prestazioni ottimali, il team di sistema di OpenAI è stato costretto ad adottare un approccio “fix-as-we-go”. Un bug particolarmente sfuggente ha afflitto il cluster con errori frequenti, rimanendo non rilevato fino a quando circa il 40% del processo di addestramento era trascorso.

Nonostante queste sfide, il progetto GPT-4.5 ha catalizzato lo sviluppo di uno stack tecnologico più robusto. Oggi, un team snello di soli 5-10 individui può replicare un modello di grandi dimensioni simile a GPT-4. I guadagni di prestazioni da GPT-4 a GPT-4.5 sono stati di circa dieci volte, producendo “un’intelligenza difficile da quantificare ma migliorata in tutti gli aspetti,” un risultato che ha sorpreso persino il personale di OpenAI.

Cambio di Focus: Dalla Potenza Computazionale all’Efficienza dei Dati

OpenAI si è resa conto che raggiungere il prossimo salto di dieci o cento volte in termini di prestazioni non dipende dalla potenza computazionale grezza, ma dall’efficienza dei dati – nello specifico, dalla capacità di estrarre più conoscenza dalla stessa quantità di dati sfruttando al contempo maggiori risorse computazionali.

L’architettura si sta anche evolvendo da un singolo cluster a un paradigma multi-cluster. Le future iterazioni di addestramento potrebbero coinvolgere l’apprendimento collaborativo su ben 10 milioni di GPU, il che richiede una maggiore tolleranza ai guasti.

Dialogo di Sam Altman con il Team GPT-4.5

Quella che segue è una compilation modificata di una discussione tra Sam Altman e il team OpenAI GPT-4.5:

Sam Altman: Cosa serve per costruire un modello così grande come GPT-4.5?

Alex Paino: Abbiamo iniziato questo progetto circa due anni fa. A quel tempo, OpenAI stava per lanciare un nuovo grande cluster di calcolo e il nostro team ha visto questa come un’opportunità per condurre una serie di operazioni per determinare le funzioni che il modello doveva includere e ha condotto un gran numero di test di operazioni di riduzione del rischio.

Abbiamo sviluppato un piano a lungo termine per questo, che coinvolge l’intero stack tecnologico dal sistema all’apprendimento automatico. Ridurre i rischi e prepararsi per l’addestramento è un lungo processo di esecuzione e l’addestramento stesso è un progetto molto grande.

Amin Tootoonchian: Penso che questo processo richieda una stretta cooperazione tra il team di machine learning e il team di sistema fin dall’inizio, fino a quando non chiariamo quale modello vogliamo addestrare e quindi avviare l’addestramento.

Abbiamo fatto previsioni sia negli aspetti di machine learning che di sistema, cercando di ridurre il più possibile il divario tra aspettative e realtà. Ma poiché il nostro ritmo di lavoro è veloce e dobbiamo utilizzare le ultime risorse di calcolo, l’addestramento del modello è diventato qualcosa che è difficile pianificare perfettamente in anticipo.

Quasi sempre iniziamo l’addestramento con molti problemi irrisolti e cerchiamo di superare le sfide e fare progressi durante l’operazione. La soluzione principale è aggiungere più risorse di calcolo.

La fase finale è l’esecuzione, che richiede a molte persone di investire molta energia e motivazione per lungo tempo per completare il processo di addestramento.

Sam Altman: Quanto pensi che sia il divario tra le nostre aspettative e la realtà?

Amin Tootoonchian: In termini di sistema, di solito siamo lontani dallo stato previsto all’inizio. Ci troviamo sempre di fronte a una scelta: posticipare l’inizio e attendere che il problema venga risolto, oppure iniziare presto e risolvere il problema nel processo. Questo richiede sempre un compromesso per evitare ritardi irragionevoli nel processo.

Ma ci sono quasi sempre alcuni problemi imprevisti e quello che dobbiamo fare è affrontare questi nodi il più possibile, affrontare i fattori sconosciuti e formulare un piano per l’addestramento del modello.

Alex Paino: In questo progetto, il nostro obiettivo è realizzare GPT-4.5, il che significa che le sue capacità dovrebbero essere 10 volte più intelligenti di GPT-4. Questo è l’obiettivo iniziale che ci siamo prefissati circa 2 anni fa.

Sono successe molte cose durante questo processo. Stavamo pensando se potevamo fare meglio o sarebbe stato peggiore del previsto? Questo è un processo molto complicato, ma alla fine, in termini di calcoli effettivi che abbiamo investito, abbiamo ottenuto un modello che pensiamo abbia raggiunto 10 volte più intelligente di GPT-4.

Amin Tootoonchian: In termini di esecuzione, il tempo speso per il progetto GPT-4.5 è lontano da quello che inizialmente ci aspettavamo.

Sam Altman: Perché avete incontrato così tanti problemi quando il cluster si è espanso da 10.000 schede a 100.000 schede?

Amin Tootoonchian: Penso che se gli sviluppatori di sistemi sono abbastanza sensibili, la maggior parte dei problemi può essere osservata nella fase su piccola scala.

Alcuni problemi non sono unici della fase di addestramento su larga scala, ma si sono spesso verificati prima, ma diventeranno problemi catastrofici dopo che la scala sarà aumentata, soprattutto quando il team non ha previsto che questi problemi peggioreranno a tal punto.

Sam Altman: Quali cose hanno causato conseguenze catastrofiche?

Amin Tootoonchian: Penso che i problemi infrastrutturali siano ben noti, sia il tasso di guasto, il tipo di guasto o la quantità totale di guasto è molto alta. Il cluster di 100.000 schede è un pool di campioni su larga scala, quindi abbiamo anche scoperto problemi che il fornitore di potenza di calcolo non ha osservato.

La rete è uno di questi e anche i singoli acceleratori possono avere problemi. Ma questa è anche la bellezza di questo sistema: quasi tutti i componenti devono funzionare come previsto per produrre i risultati previsti. Il nostro lavoro è ridurre al minimo questo problema il più possibile.

Sam Altman: È davvero difficile lavorare al limite delle dimensioni del cluster, ma ho anche notato che è diventato molto più facile fare cose che non sono più all’avanguardia della tecnologia. L’addestramento di GPT-4.5 richiede centinaia di persone e OpenAI ha quasi tutti a bordo.

Ma oggi, se dovessi selezionare il team più piccolo di OpenAI e riaddestrare GPT-4 da zero con tutta la conoscenza e il lavoro di sistema che conosciamo, quante persone ci vorrebbero?

Alex Paino: Penso che potrebbero essere necessarie circa 5-10 persone per realizzare un modello di livello GPT-4 ora. Lo stack tecnologico è stato notevolmente migliorato nel processo di completamento di GPT-4.5.

In realtà, abbiamo fatto cose simili nel processo di addestramento di GPT-4.5 - abbiamo addestrato GPT-4o, che è un modello di livello GPT-4, e lo abbiamo riaddestrato utilizzando molti degli stessi contenuti del progetto di ricerca GPT-4.5. Sono state utilizzate meno persone per quell’addestramento.

Sam Altman: Dal tuo punto di vista, Dan? Perché è difficile addestrare modelli di grandi dimensioni?

Daniel Selsam: Penso che sia difficile fare qualcosa di nuovo. Penso che anche solo scoprire che qualcun altro ha fatto qualcosa lo renda molto più facile, perché la parte più difficile è avere la fede per fare qualcosa in primo luogo. Penso che solo sapere che qualcosa è fattibile sia un super cheat code che rende le cose molto più facili.

Alex Paino: Stiamo espandendo l’esecuzione di pre-addestramento GPT a 10 volte le sue dimensioni precedenti e troviamo sempre alcune nuove cose interessanti che non puoi necessariamente prevedere.

Sam Altman: Cosa serve per ottenere la prossima crescita di 10x o 100x nella scala di pre-addestramento?

Daniel Selsam: Efficienza dei dati. L’architettura Transformer (cioè GPT) è molto efficiente nell’utilizzo dei dati. Può assorbire e comprimere bene le informazioni e ottenere la generalizzazione. La sua caratteristica più grande è che può assorbire efficientemente le informazioni con le risorse di calcolo.

Tuttavia, la profondità di conoscenza che ottiene dai dati è limitata. Quando la potenza di calcolo cresce rapidamente e i dati crescono relativamente lentamente, i dati diventano un collo di bottiglia per questo modello standard. Ciò richiede un’innovazione algoritmica per sviluppare metodi che possano utilizzare più potenza di calcolo per apprendere più conoscenza dalla stessa quantità di dati.

Sam Altman: Cos’altro pensi che ci serva per mantenere l’espansione?

Amin Tootoonchian: La mia risposta riguarda il sistema. Penso che l’enorme quantità di lavoro richiesta per GPT-4.5 sia essenzialmente il risultato inevitabile delle specifiche del modello. Non possiamo addestrare GPT-4.5 con la stessa identica architettura tecnica di GPT-4.

In termini di gestione dello stato, poiché le risorse di calcolo richieste hanno superato la capacità di un singolo cluster, dobbiamo rivolgerci a un’architettura di addestramento multi-cluster. Per raggiungere questo obiettivo, dobbiamo integrare più flussi di lavoro diversi in un breve periodo di tempo.

Sebbene questo ci abbia davvero aiutato a raggiungere scoperte di fase, per ottenere il prossimo ordine di grandezza di miglioramento delle prestazioni, dobbiamo ancora risolvere diversi problemi tecnici noti ma temporaneamente accantonati - questi problemi non possono essere evitati. È questo tipo di compromesso tecnico che estende costantemente il ciclo di ricerca e sviluppo del sistema perfetto e stiamo sempre facendo compromessi strategici nel processo di perseguire il piano di implementazione ottimale.

È necessario chiarire che il sistema stesso non è l’obiettivo finale e il suo valore di output effettivo è la considerazione principale. Per il prossimo miglioramento delle prestazioni di 10x, penso che la svolta nella tolleranza ai guasti sia cruciale. Dobbiamo costruire un meccanismo di tolleranza ai guasti che sia profondamente sinergico con il carico di lavoro per ridurre significativamente l’ansia di operazione e manutenzione. La complessità di operazione e manutenzione degli attuali sistemi su larghissima scala è essenzialmente diversa dai sistemi precedenti.

Sam Altman: Sapete qual è la percentuale di guasti causati da determinati componenti durante l’addestramento di GPT-4.5?

Amin Tootoonchian: Non ho numeri specifici da condividere, ma in generale, nelle prime fasi della distribuzione di una nuova generazione di hardware, l’operazione del sistema spesso affronta molte sfide tecniche che non sono completamente comprese. Abbiamo scelto di far avanzare il progetto prima che il problema fosse completamente definito, il che ha portato a un alto tasso di guasto iniziale.

Ma l’esperienza ha dimostrato che quando la causa principale viene identificata e risolta, il tasso di guasto diminuirà significativamente. Questo fenomeno riflette essenzialmente la nostra maggiore comprensione dell’infrastruttura - alcune persone la chiamano pulizia dell’infrastruttura o comprensione dei problemi di base dell’infrastruttura.

Le prime fasi dell’esecuzione sono quasi sempre piuttosto dolorose. Mentre facciamo avanzare il progetto, stiamo anche continuamente scoprendo e risolvendo nuove modalità di guasto, ma il tasso di guasto diminuirà gradualmente e il tempo di funzionamento normale diventerà più lungo.

Questa è essenzialmente una questione di compromessi di priorità: nelle prime fasi del ciclo di vita dell’infrastruttura, il suo rischio di guasto è spesso difficile da stimare con precisione; e se perseguiamo eccessivamente l’ultimo stato ideale (l’originale è “City Estate”, il progetto ideale della città-stato), potrebbe portare il sistema Le prestazioni di disponibilità nelle prime fasi sono estremamente scarse.

Sam Altman: Sebbene il modello di ragionamento sia un componente chiave del nostro futuro stack tecnologico, concentriamoci temporaneamente sul limite di sviluppo del tradizionale modello di pre-addestramento. Supponiamo di avere potenza di calcolo GPU illimitata, larghezza di banda di rete illimitata e alimentazione illimitata, ma siamo ancora limitati dai colli di bottiglia tecnici esistenti, inclusi i problemi di affidabilità del sistema, la mancanza di metodi di addestramento tolleranti ai guasti e le limitazioni dei set di dati esistenti.

Secondo la nostra legge di evoluzione del raggiungimento di un aumento di scala di 100 volte in ogni numero di versione GPT principale, in base agli attuali limiti tecnici, a quale livello può raggiungere lo sviluppo del modello di pre-addestramento? Specificamente per i modelli della serie GPT, con il nostro sistema di conoscenza esistente, che tipo di modello possiamo teoricamente addestrare? Si può fare GPT-5.5?

Alex Paino: Dal punto di vista dell’apprendimento automatico e dello sviluppo di algoritmi, non abbiamo ancora raggiunto un chiaro limite superiore teorico. In realtà, stiamo solo iniziando a esplorare algoritmi con una maggiore efficienza dei dati e come utilizzare al meglio le risorse di dati esistenti. Questa situazione è molto interessante: anche modelli come GPT-4 sono in gran parte sviluppati sotto i vincoli di risorse di calcolo limitate, il che determina anche la direzione della maggior parte delle ricerche precedenti.

Ma la situazione è completamente diversa ora. Da GPT-4.5, in alcune dimensioni chiave, i dati piuttosto che il calcolo stanno diventando il vincolo principale. Questo cambiamento rende la ricerca correlata meno eccitante.

Sam Altman: Ma questo è davvero un progresso sorprendente e il mondo potrebbe non rendersi conto appieno che le risorse di calcolo non sono più il principale collo di bottiglia nel miglior modello che possiamo costruire. Questo cambiamento è profondo, dopo tutto, abbiamo vissuto in un ambiente vincolato al calcolo per troppo tempo.

Sam Altman: Qual è l’esperienza di apprendimento automatico più interessante che abbiamo imparato nel processo di addestramento di GPT-4.5? Parla solo di ciò che vuoi condividere.

Amin Tootoonchian: In generale, le situazioni più stimolanti sono quelle che deviano dalle nostre previsioni, soprattutto quando cerchiamo di capire perché le prestazioni effettive deviano dalla curva prevista.

Alex Paino: Una delle scoperte più sorprendenti per noi è che le prestazioni di scalabilità dei diversi componenti di apprendimento automatico variano notevolmente. Alcune parti possono essere scalate bene, mentre altre no. Questo è ciò che abbiamo veramente realizzato nel processo di addestramento effettivo. Questa esperienza ci ha dato molta ispirazione.

Daniel Selsam: Penso che le due caratteristiche principali del paradigma GPT siano: in primo luogo, la perdita di test (una metrica per misurare quanto bene il modello funziona sui dati di test invisibili) può essere prevista con precisione; in secondo luogo, le prestazioni del modello mostrano un miglioramento prevedibile con l’espansione della scala. Ancora più magicamente, la riduzione della perdita di test si trasformerà in un livello di intelligenza migliorato a tutto tondo in vari modi difficili da quantificare ma sorprendenti.

Sam Altman: Sei assolutamente ottimista al riguardo? Sei pienamente d’accordo con questa visione?

Daniel Selsam: In realtà, quello che voglio dire è che abbiamo trovato fenomeni particolarmente interessanti nel test GPT-4.5 - dopo aver rifatto i test, il modello ha mostrato molte capacità sottili che hanno superato completamente le aspettative di tutti.

Siamo sicuri che diventerà più intelligente in vari modi che non possono essere definiti in anticipo e, dopo l’implementazione effettiva, possiamo osservare questi sottili livelli di miglioramento dalla soddisfazione dell’utente: riserve di buon senso più forti, capacità di comprensione contestuale più accurate e una comprensione semantica più delicata - questa è esattamente la magia portata da quelle perdite di test extra. A mio parere, Scaling Law è stato perfettamente verificato in questa dimensione.

Sam Altman: Qual è stato il momento più positivo durante l’intero processo di addestramento? Qual è il tuo ricordo preferito? Ovviamente c’è molto dolore, ma spero che quei dolori siano stati alleviati.

Alex Paino: Ho un momento del genere. Abbiamo fatto molto lavoro di apprendimento automatico durante l’addestramento. Penso che alcune delle modifiche che abbiamo apportato durante l’operazione abbiano avuto un impatto abbastanza buono, forse migliore del previsto, il che è stato un momento molto eccitante per noi.

Amin Tootoonchian: Per me, contemporaneamente all’addestramento, stiamo anche costruendo infrastrutture. Crediamo fermamente di poter superare questa scogliera delle prestazioni e abbiamo un piano e tutti lo stanno eseguendo, ma ci vuole molto tempo. Questo è un duro lavoro e sicuramente più difficile di quanto pensassi. La mia previsione era sbagliata e ho sottovalutato il tempo necessario per risolvere questi problemi.

Il momento in cui il team ha finalmente superato quei problemi chiave e le prestazioni sono state notevolmente migliorate è ancora fresco nella mia memoria. Puoi sentire chiaramente la trasformazione dell’energia dell’intero team: tutti sono improvvisamente pieni di energia e si precipitano verso l’obiettivo finale con una nuova motivazione.

La cosa più magica è che il tempo di completamento stimato visualizzato sul nostro tracker di stato ha continuato a ridursi dai due anni iniziali e alla fine si è bloccato su un chiaro nodo temporale. Questo progresso visibile ha una spinta incommensurabile al morale della squadra. Penso che questa sia la sua bellezza.

Vorrei sottolineare che il lavoro di apprendimento automatico non si è mai fermato. Anche dopo che l’addestramento è iniziato, questo processo di co-design di apprendimento automatico continua. Il team di apprendimento automatico non solo segue attivamente i problemi contrassegnati come “elaborazione successiva”, ma continua anche a fornire miglioramenti che ottimizzano veramente il tempo di addestramento.

Questo riflette perfettamente il nostro spirito di squadra: non c’è un confine di lavoro “ogni persona spazza la neve davanti alla propria porta”, ma una collaborazione veramente senza soluzione di continuità e questa coesione è la nostra più grande forza.

Sam Altman: Il mondo esterno ha discusso molto delle sfide e dell’accuratezza della previsione di questo addestramento stesso. Ma in realtà, tutto questo si basa su una pianificazione estremamente accurata: puoi parlarne in dettaglio?

Alex Paino: Questo è sicuramente il nostro piano più accurato finora. Come ho detto, abbiamo iniziato a prepararci per questo progetto un anno prima dell’inizio ufficiale dell’addestramento. Durante questo periodo, abbiamo condotto più test di controllo del rischio su larga scala.

Prestiamo particolare attenzione all’introduzione graduale di tutti i miglioramenti: a partire da una configurazione di base ad alta confidenza - che può essere intesa come un’architettura matura simile a GPT-4, abbiamo pienamente padroneggiato questa configurazione a livello di apprendimento automatico - e quindi aggiungendo nuove funzionalità livello per livello come building block.

La chiave è verificare rigorosamente la scalabilità di ogni miglioramento a diverse scale: non solo per vedere i miglioramenti delle prestazioni, ma anche per garantire che questi miglioramenti continuino a essere efficaci man mano che la scala del modello si espande. Molti miglioramenti funzionano bene nei test su piccola scala, ma falliranno nelle applicazioni su larga scala.

Pertanto, abbiamo mantenuto un alto grado di vigilanza durante l’intero processo e continuiamo a iterare e migliorare la nostra metodologia della legge di espansione. Attraverso questa pratica di controllo del rischio, abbiamo accumulato molta esperienza preziosa che continuerà a guidare lo sviluppo dei futuri modelli della serie GPT.

Amin Tootoonchian: Ricordo un momento particolarmente interessante che mi manca molto. Sai, incontriamo quasi sempre vari bug ogni volta che iniziamo un’attività di addestramento. Questo è già un luogo comune. Ma la chiave è garantire che i progressi non siano bloccati e confermare sempre che i progressi attuali siano effettivamente sulla strada giusta e se questi bug avranno un impatto fatale sulla salute dell’addestramento.

Sebbene inizialmente fossimo molto fiduciosi che ci fossero gravi difetti, attraverso l’intero sistema di monitoraggio che abbiamo costruito, siamo stati in grado di distinguere con precisione la causa principale del problema: è un guasto hardware? Che tipo di guasto hardware? È danneggiamento dei dati? O è un bug nel modello di apprendimento automatico stesso? Oppure è una race condition nel codice?

A quel tempo, avevamo più aree di discussione sui problemi aperte contemporaneamente, con vari sintomi. Dopo una serie di correzioni di bug, siamo rimasti bloccati: c’erano più problemi irrisolti di fronte a noi e tutti si stavano scervellando - erano causati da diversi bug? O è un bug al lavoro?

Successivamente, abbiamo tenuto una votazione per consentire ai membri del team di votare per la causa principale più probabile. L’opzione meno promettente ha colpito la verità: si è scoperto che c’era un problema con la funzione torch.sum upstream di PyTorch, una semplice operazione di somma.

Questo bug è particolarmente interessante. Sai, usiamo principalmente il kernel Triton e torneremo alle operazioni torch solo in alcuni scenari limite non importanti. E il bug della funzione torch.sum attivato dal nostro specifico percorso di codice causerà accidentalmente un accesso illegale alla memoria a causa delle caratteristiche della distribuzione dei dati - ha commesso un errore nel calcolo dell’offset di memoria.

La cosa più drammatica è che quando un ingegnere ha finalmente individuato il problema e ha inviato una correzione, tutti i rapporti di errore con sintomi diversi sono scomparsi. Tutti hanno cambiato eccitati il canale Slack dalla “teoria multi-bug” alla “teoria single-bug” e la scena è stata molto felice.

Da quanto tempo questo bug si nasconde? Esiste dalle prime fasi dell’addestramento e non è stato identificato fino a quando la barra di avanzamento non ha superato circa il 40%. Il processo di scoperta è stato anche pieno di dramma: a quel tempo, un kernel complesso chiamava sequenzialmente sequenze e la seconda chiamata ha attivato un accesso illegale alla memoria.

Sebbene questa frequenza di crash sia estremamente bassa (si verifica solo una volta ogni poche centinaia o addirittura migliaia di passaggi di addestramento), è facile ignorarla come un guasto occasionale, ma la linea guida del nostro team è: non lasciare mai andare nessuna anomalia. La parte migliore di questa storia risiede in questa perseveranza di non arrendersi facilmente.

Sam Altman: Cos’altro devi fare dopo che è iniziato il pre-addestramento di GPT-4.5?

Alex Paino: Tutti noi dobbiamo osservare frequentemente la curva di perdita. Inoltre, dobbiamo continuare a ottimizzare il sistema e migliorare il co-design che non è stato completato prima dell’inizio dell’addestramento. Monitoriamo attentamente varie statistiche durante il processo di addestramento per garantire che non vi siano tendenze impreviste. Allo stesso tempo, esploriamo possibili piani di miglioramento dal punto di vista dell’apprendimento automatico. Sebbene il lavoro a livello di dati sarà temporaneamente ridotto dopo che il pre-addestramento è iniziato, ci sono ancora molte attività da elaborare.

Amin Tootoonchian: Penso che l’apprendimento automatico dipenda in gran parte dal giudizio di correttezza. Dopo che il pre-addestramento è iniziato, di fronte a una grande quantità di segnali di rumore, siamo come indovini che interpretano i fondi di tè e dobbiamo giudicare se il sistema è sano. Questa è la nostra responsabilità.

Sam Altman: A livello di sistema, cosa ci impedirà di condurre l’addestramento del modello? È chip, processore, memoria, rete o alimentazione?

Amin Tootoonchian: La bellezza del sistema è che, quando si fa il design collaborativo, il carico di lavoro può adattarsi all’infrastruttura che costruisci. Non c’è un detto universale che la rete sia il collo di bottiglia, o la larghezza di banda della memoria sia il collo di bottiglia, ecc. Anche per i modelli con le stesse specifiche, possiamo scegliere di trasferire i requisiti di risorse. Possiamo scegliere di creare un sistema più equilibrato, ma avere più larghezza di banda della memoria è sempre vantaggioso. È difficile rispondere a questa domanda senza condizioni limitanti.

Quando progettiamo GPT-4.5, potremmo aver bisogno di avere un certo attributo nel sistema, che deve essere generato attraverso la guida umana. Pertanto, il design collaborativo è molto importante per formare l’architettura del modello e gli elementi architettonici e, in una certa misura, collega gli aspetti del sistema e dell’apprendimento automatico. Se il sistema ha un attributo che non vogliamo avere molto. La mia situazione ideale è che tutto dovrebbe essere disaccoppiato per dare a vicenda il massimo spazio.

A volte le cose sono collegate tra loro e dobbiamo soddisfare i requisiti dell’infrastruttura, oppure le cose dovrebbero essere così. La maggior parte delle volte, abbiamo bisogno di un sistema equilibrato, una comunicazione equilibrata. E i migliori mezzi di regolamentazione che abbiamo sono tutti questi design collaborativi.

Sam Altman: Quanto siamo lontani da un obiettivo di sistema così ideale?

Amin Tootoonchian: Siamo lontani da quell’obiettivo. Il processo di costruzione di un sistema è sempre così: prima c’è una visione idealizzata di come le cose dovrebbero funzionare e poi quelle differenze sono riconciliate con le risorse esistenti.

Non penso che lo stiamo facendo per la teoria per il gusto della teoria, ma solo per discutere di cosa vogliamo che diventi, per realizzarlo e per avvicinarci il più possibile a quell’ideale. Questa potrebbe essere la parte più eccitante del campo del sistema. Le persone dicevano che questo è un design di sistema elegante e alla fine la storia ci dirà se questa scelta è giusta o sbagliata.

Sam Altman: Se potessi ottenere una risposta a una domanda di apprendimento automatico prima del prossimo grande addestramento, cosa ti piacerebbe sapere di più?

Alex Paino: Voglio sapere quali algoritmi dovremmo usare con dati limitati e campi specifici. Sebbene questa sia una domanda ampia, è davvero la più critica.

Sam Altman: Condurrai un pre-addestramento sincrono con 10 milioni di GPU o più in futuro?

Alex Paino: Penso che ci sarà, ma potrebbe non essere il tradizionale modello di pre-addestramento. La sua forma potrebbe essere molto diversa dalle tecnologie esistenti, ma manterrà comunque il nucleo dell’apprendimento non supervisionato.

Amin Tootoonchian: Preferisco un modello semi-sincrono. A causa delle leggi fisiche, la sincronizzazione completa non è molto realistica.

Daniel Selsam: Penso che sia più probabile che sia decentralizzato. Ci saranno sicuramente 10 milioni di GPU che lavorano insieme in un sistema di intelligenza artificiale che apprende ed esegue attività, ma come le varie parti del cervello, potrebbero non necessariamente comunicare tra loro.

Sam Altman: Quanta differenza c’è tra gli attuali algoritmi più avanzati e l’efficienza dei dati umani? È possibile recuperare in futuro?

Daniel Selsam: I due sono difficili da confrontare direttamente. Il divario nell’apprendimento delle lingue è sicuramente enorme. La chiave sta nel come definire la quantità di informazioni ricevute dai nervi visivi umani. Penso che l’efficienza complessiva dei dati degli algoritmi sia molto inferiore a quella degli esseri umani.

Per decenni, l’apprendimento profondo si è concentrato sull’efficienza di calcolo. Oltre alla crescita dei dati e della potenza di calcolo, ciò che è veramente sorprendente è l’effetto sovrapposto prodotto dai miglioramenti degli algoritmi. Ogni volta che le prestazioni dell’algoritmo vengono migliorate del 10% o del 20%, avrà un effetto significativo quando sovrapposto all’efficienza dei dati. Finora, non c’è stata una tale mobilitazione intorno all’efficienza dei dati, perché non ne vale la pena quando i dati non fluiscono e la potenza di calcolo è limitata.

Ora, stiamo entrando in una nuova fase della ricerca sull’intelligenza artificiale e inizieremo ad accumulare vittorie sull’efficienza dei dati. Penso che sia un po’ sciocco prevedere ora che incontreremo ostacoli insormontabili. Il modo in cui il cervello umano opera è sicuramente diverso dai nostri miglioramenti algoritmici e dovremmo essere cauti al riguardo. Ma penso che dovremmo rimanere ottimisti sullo sviluppo futuro degli algoritmi.

Sam Altman: Qual è la correlazione tra il pre-addestramento su larga scala e le capacità di apprendimento e ragionamento più forti del modello?

Alex Paino: Quello che abbiamo osservato è che un migliore pre-addestramento e l’apprendimento non supervisionato tendono a migliorare l’intelligenza complessiva del modello e aiutano notevolmente nella generalizzazione, che è complementare alla capacità di ragionamento, mentre il ragionamento può essere un po’ più lento nel migliorare l’intelligenza. Penso che siano complementari.

Sam Altman: Il pre-addestramento sembra essere universale in molte cose, mentre l’addestramento di un modello può farlo funzionare bene solo in un tipo di cosa, è giusto?

Alex Paino: Questo è molto interessante, ma quando vedi i dati che li addestrano, non sarai sorpreso da questa situazione. L’intervallo del set di dati di pre-addestramento è molto ampio e quello che perseguiamo è ampiezza e diversità. Quando si tratta di apprendimento per rinforzo del modello e di fargli ottenere chiaramente buoni segnali di ricompensa e un buon ambiente di addestramento, penso che sia difficile tenere conto dell’ampiezza del set di dati.

Daniel Selsam: Sono d’accordo, ma penso che ci sia un altro fattore. Il pre-addestramento è essenzialmente la compressione dei dati, scoprendo così le connessioni tra cose diverse. Si tratta di analogia e più astratto. Il ragionamento è un’abilità che richiede un’attenta riflessione su un problema specifico e può anche ottenere soluzioni per molti tipi di problemi. Ma nel processo di pre-addestramento, è possibile apprendere conoscenze più astratte quando si comprimono i dati tra diversi campi.

Sam Altman: Perché l’apprendimento non supervisionato è efficace?

Daniel Selsam: La chiave è la compressione. La forma ideale di intelligenza è l’induzione di Solomonov. In generale, l’apprendimento automatico considererà tutte le possibilità, ma tende a iniziare con programmi più semplici per i test.

L’essenza dell’attuale pre-addestramento è un processo di compressione, che ottiene un’espressione approssimativa trovando il programma più semplice per spiegare tutti i dati che gli esseri umani hanno prodotto finora.

Sam Altman: In che modo la successiva previsione di Token aiuta a raggiungere la compressione?

Daniel Selsam: C’è un paradosso nelle statistiche - perché le reti profonde sembrano incapaci di comprimere ma possono raggiungere la generalizzazione? Normalmente parlando, quando si hanno molti dati e alcuni piccoli modelli, questi modelli devono passare attraverso la compressione per imparare qualcosa.

Nel pre-addestramento, la scala sia dei dati che dei modelli è molto grande. Alcune persone pensano che questo addestramento sia solo memoria e apprendimento per interpolazione. In realtà, ignorano un’altra prospettiva di comprensione della compressione - la compressione pre-sequenziale. È come un compressore. Anche se il peso dei dati è molto grande, il binario non ha bisogno di memorizzare queste informazioni. Il risultato della successiva previsione di Token può recuperare rapidamente informazioni utili e migliorare l’efficienza della compressione.

Sam Altman: Il processo di addestramento di GPT-4.5 è costato molta manodopera, tempo e denaro, che in realtà può essere considerato un esperimento per verificare Scaling Law e i risultati dimostrano che è efficace e continuerà a lungo. Perché Scaling Law può essere chiamata la legge dell’universo?

Daniel Selsam: Maggiore è il grado di compressione, più potente è l’intelligenza, il che ha profonde implicazioni filosofiche. Perché ci vuole più tempo per addestrare modelli più grandi e il tasso di compressione è più alto? Questo coinvolge molte teorie, tra cui mi piace Sparse Representations.

I concetti chiave nella realtà seguono una distribuzione della legge di potenza. Ad esempio, il 100° concetto più importante può apparire solo una volta ogni 100 documenti e c’è un ovvio effetto a coda lunga. Questa caratteristica di distribuzione significa che sono necessari dati e potenza di calcolo su larga scala per catturare efficacemente tutti i concetti chiave e determina anche che Scaling Law sarà efficace per lungo tempo.