La Genesi di GPT-4.5: Un’Odissea di Due Anni
L’iniziativa GPT-4.5, concepita due anni prima del suo lancio, ha rappresentato l’impresa più meticolosamente pianificata di OpenAI fino ad oggi. Ha richiesto lo sforzo concertato di centinaia di persone, con Altman che ha notato che il progetto ha coinvolto effettivamente ‘quasi tutti’ in OpenAI. Questo ampio coinvolgimento sottolinea l’importanza strategica di GPT-4.5 all’interno della più ampia missione dell’organizzazione.
Durante la fase di sviluppo, il team di OpenAI ha incontrato quelli che hanno definito ‘problemi catastrofici’. L’implementazione di un cluster di 100.000 GPU ha esposto vulnerabilità latenti dell’infrastruttura che si sono manifestate come guasti infrequenti ma profondi. Per trovare un equilibrio tra velocità e prestazioni ottimali, gli ingegneri di sistema hanno adottato un approccio iterativo, essenzialmente ‘costruendo e riparando’ contemporaneamente. Un bug particolarmente sfuggente ha afflitto il cluster con errori ricorrenti, rimanendo non rilevato fino a quando il processo di addestramento non aveva raggiunto circa il 40% del completamento.
Paradossalmente, queste prove hanno contribuito al rafforzamento delle fondamenta tecniche di OpenAI. L’esperienza acquisita ora consente a un team snello di soli 5-10 individui di replicare un modello della grandezza di GPT-4. Il salto di prestazioni da GPT-4 a GPT-4.5, stimato in circa dieci volte, è stato caratterizzato da ‘intelligenza migliorata in modo completo ma difficile da quantificare’, sorprendendo anche quelli all’interno di OpenAI. Questo salto qualitativo suggerisce progressi al di là della semplice scalabilità, indicando miglioramenti fondamentali nella capacità del modello di ragionare e comprendere.
Guardando avanti, OpenAI riconosce che raggiungere il prossimo ordine di grandezza nelle prestazioni dipenderà non solo dalla potenza di calcolo, ma piuttosto dall’efficienza dei dati. L’attenzione si sta spostando verso lo sviluppo di algoritmi in grado di estrarre più conoscenza dai set di dati esistenti, massimizzando così l’utilità delle risorse di calcolo disponibili.
Inoltre, l’architettura si sta evolvendo da un singolo cluster a un design multi-cluster, prevedendo scenari di addestramento futuri che coinvolgono l’apprendimento collaborativo su un massimo di 10 milioni di GPU. Questa transizione richiede miglioramenti significativi nella tolleranza agli errori per garantire la stabilità e l’affidabilità di tali sistemi distribuiti su larga scala.
La conversazione ha anche approfondito la relazione tra la ‘coda lunga’ dei dati e le leggi di ridimensionamento, i vantaggi della stretta collaborazione tra i team di machine learning e sistemi (co-design), l’essenza dell’apprendimento non supervisionato e una cultura della risoluzione dei problemi meticolosa.
Figure Chiave Dietro GPT-4.5
Oltre ad Altman, gli altri tre membri del team di OpenAI che hanno preso parte a questa conversazione sono stati:
- Alex Paino: Responsabile degli algoritmi di machine learning di pre-addestramento di GPT-4.5.
- Amin Tootoonchian: Architetto capo del sistema di OpenAI.
- Daniel Selsam: Ricerca l’efficienza dei dati e gli algoritmi.
Origini ed Evoluzione di GPT-4.5
Sam Altman: Cosa serve veramente per costruire un modello grande come GPT-4.5?
Alex Paino: Abbiamo iniziato questo progetto circa due anni fa. A quel tempo, OpenAI stava per lanciare un nuovo grande cluster di calcolo e il nostro team ha visto questa opportunità e ha svolto una serie di compiti per determinare le funzioni che il modello doveva includere e ha condotto un gran numero di test operativi di riduzione del rischio.
Abbiamo sviluppato un piano a lungo termine per questo, che coinvolge l’intero stack tecnologico dal sistema al machine learning. Ridurre i rischi e prepararsi all’addestramento è un lungo processo di esecuzione e anche l’addestramento stesso è un progetto molto ampio.
Amin Tootoonchian: Penso che questo processo richieda una stretta cooperazione tra il team di machine learning e il team di sistema fin dall’inizio, fino a quando non sappiamo chiaramente quale modello vogliamo addestrare, e quindi iniziamo l’addestramento.
Abbiamo fatto previsioni in machine learning e sistemi, cercando di ridurre al minimo il divario tra aspettative e realtà. Tuttavia, poiché il nostro ritmo di lavoro è molto veloce e dobbiamo utilizzare le risorse di calcolo più recenti, l’addestramento del modello è diventato qualcosa di difficile da pianificare perfettamente in anticipo.
Quasi sempre iniziamo l’addestramento con molti problemi irrisolti e cerchiamo di superare le sfide e fare progressi durante il processo. La soluzione principale è aumentare le risorse di calcolo.
La fase finale è l’esecuzione, che richiede a molte persone di investire molta energia e motivazione per un lungo periodo di tempo per completare il processo di addestramento.
Sam Altman: Quanto pensi che sia il divario tra le nostre aspettative e la realtà?
Amin Tootoonchian: In termini di sistema, all’inizio, siamo di solito lontani dallo stato previsto. Dobbiamo sempre affrontare una scelta: posticipare il lancio e attendere che il problema venga risolto, oppure iniziare presto e risolvere il problema nel processo. Questo richiede sempre compromessi per evitare ritardi irragionevoli nel processo.
Ma ci sono quasi sempre problemi inaspettati e quello che dobbiamo fare è gestire questi nodi il più possibile, affrontare i fattori sconosciuti e formulare un piano per l’addestramento del modello.
Alex Paino: In questo progetto, il nostro obiettivo è realizzare GPT-4.5, il che significa che le sue capacità dovrebbero essere 10 volte più intelligenti di GPT-4. Questo è l’obiettivo iniziale che ci siamo prefissati circa 2 anni fa.
Sono successe molte cose in questo processo. Stavamo pensando se potevamo fare meglio o peggio del previsto? Questo è un processo molto complicato, ma alla fine, in termini di calcoli effettivi che abbiamo inserito, abbiamo ottenuto un modello che pensiamo sia 10 volte più intelligente di GPT-4.
Amin Tootoonchian: In termini di esecuzione, il tempo trascorso sul progetto GPT-4.5 è lontano da quello che ci aspettavamo inizialmente.
La Rivoluzione del Team Snello: Addestrare GPT-4 con Risorse Minime
Sam Altman: Quando il cluster si è espanso da 10.000 schede a 100.000 schede, perché avete incontrato così tanti problemi?
Amin Tootoonchian: Penso che se gli sviluppatori di sistemi sono abbastanza sensibili, la maggior parte dei problemi può essere osservata nella fase di piccola scala.
Ci sono anche alcuni problemi che non sono esclusivi della fase di addestramento su larga scala, ma si sono verificati originariamente frequentemente, ma diventeranno problemi catastrofici dopo che la scala sarà aumentata, soprattutto quando il team non si aspettava che questi problemi si sarebbero deteriorati a tal punto in anticipo.
Sam Altman: Quali cose hanno causato conseguenze disastrose?
Amin Tootoonchian: Penso che i problemi dell’infrastruttura siano ben noti. Il tasso di guasto, il tipo di guasto e la quantità totale di guasti sono molto alti. Il cluster di 100.000 schede è un pool di campioni su larga scala, quindi abbiamo anche scoperto problemi che il fornitore di potenza di calcolo non ha osservato.
La rete è una parte di essa e anche i singoli acceleratori possono avere problemi. Ma questa è anche la bellezza di questo sistema: quasi tutti i componenti devono funzionare come previsto per produrre i risultati attesi. Il nostro lavoro è ridurre al minimo questo problema il più possibile.
Sam Altman: È davvero difficile lavorare al limite della scala del cluster, ma ho anche notato che fare cose che non sono più all’avanguardia della tecnologia è diventato molto più facile. Addestrare GPT-4.5 richiede centinaia di persone e quasi tutti in OpenAI sono coinvolti.
Ma oggi, se ti lasciassi scegliere un team più piccolo da OpenAI e riaddestrare GPT-4 da zero con tutta la conoscenza che conosciamo e tutto il lavoro di sistema, quante persone ci vorrebbero?
Alex Paino: Penso che potrebbero essere necessarie circa 5-10 persone per realizzare un modello di livello GPT-4 ora. Lo stack tecnologico è stato notevolmente migliorato nel processo di completamento di GPT-4.5.
In realtà, abbiamo fatto cose simili nel processo di addestramento di GPT-4.5: abbiamo addestrato GPT-4o, che è un modello di livello GPT-4, e lo abbiamo riaddestrato utilizzando molti degli stessi contenuti del progetto di ricerca GPT-4.5. Sono state utilizzate meno persone per quell’addestramento.
Efficienza dei Dati: La Chiave per Sbloccare la Prossima Generazione di Modelli
Sam Altman: Dal tuo punto di vista, Dan? Perché è difficile addestrare modelli di grandi dimensioni?
Daniel Selsam: Penso che sia difficile fare qualcosa di nuovo. Penso che anche solo scoprire che qualcun altro ha fatto qualcosa lo renda molto più facile, perché la parte più difficile è avere la convinzione di poter fare qualcosa in primo luogo. Penso che solo sapere che qualcosa è fattibile sia un super cheat code, rendendo le cose molto più facili.
Alex Paino: Stiamo espandendo l’operazione di pre-addestramento GPT a 10 volte quello che era prima e troveremo sempre alcune nuove cose interessanti che non puoi necessariamente prevedere.
Sam Altman: Cosa serve per ottenere la prossima crescita di 10x o 100x nella scala del pre-addestramento?
Daniel Selsam: Efficienza dei dati. L’architettura Transformer (che è GPT) è molto efficiente nell’utilizzo dei dati. Può assorbire e comprimere bene le informazioni e ottenere la generalizzazione. La sua caratteristica più grande è che può assorbire efficientemente le informazioni con le risorse di calcolo.
Tuttavia, la profondità della comprensione che ottiene dai dati è limitata. Quando la potenza di calcolo cresce rapidamente mentre i dati crescono relativamente lentamente, i dati diventano un collo di bottiglia in questo modello standard. Ciò richiede innovazione algoritmica, sviluppando metodi in grado di utilizzare più potenza di calcolo per apprendere più conoscenza dalla stessa quantità di dati.
Sam Altman: Cos’altro pensi che dobbiamo mantenere l’espansione oltre a questo?
Amin Tootoonchian: La mia risposta riguarda il sistema. Penso che l’enorme quantità di lavoro richiesta per GPT-4.5 sia essenzialmente il risultato inevitabile delle specifiche del modello. Non possiamo addestrare GPT-4.5 con esattamente la stessa architettura tecnica di GPT-4.
In termini di gestione dello stato, poiché le risorse di calcolo richieste hanno superato la capacità di trasporto di un singolo cluster, dobbiamo passare a un’architettura di addestramento multi-cluster. Per raggiungere questo obiettivo, dobbiamo integrare più flussi di lavoro diversi in un breve periodo di tempo.
Anche se questo ci ha aiutato a raggiungere una svolta graduale, per ottenere il prossimo ordine di grandezza di miglioramento delle prestazioni, dobbiamo ancora risolvere diversi problemi tecnici noti ma temporaneamente accantonati: questi problemi non possono essere evitati. È questo tipo di compromesso tecnico che prolunga costantemente il ciclo di sviluppo di un sistema perfetto. Stiamo sempre prendendo decisioni strategiche nel processo di perseguire il piano di implementazione ottimale.
Deve essere chiaro che il sistema stesso non è l’obiettivo finale. Il suo valore di output effettivo è la considerazione principale. Per il prossimo miglioramento delle prestazioni di 10x, penso che la svolta nella tolleranza agli errori sia cruciale. Dobbiamo costruire un meccanismo di tolleranza agli errori che collabori profondamente con il carico di lavoro per ridurre significativamente l’ansia di funzionamento e manutenzione. La complessità di funzionamento e manutenzione dell’attuale sistema super-grande è essenzialmente diversa da quella dei sistemi precedenti.
Sam Altman: Sai quale percentuale di guasti è stata causata da determinati componenti durante l’addestramento di GPT-4.5?
Amin Tootoonchian: Non ho cifre specifiche da condividere, ma in generale, l’implementazione iniziale di una nuova generazione di hardware spesso affronta molte sfide tecniche che non sono state completamente comprese. Abbiamo scelto di far avanzare il progetto prima che il problema fosse completamente chiarito, il che ha portato a un alto tasso di guasto iniziale.
Ma l’esperienza dimostra che man mano che la causa principale viene identificata e risolta, il tasso di guasto sarà significativamente ridotto. Questo fenomeno riflette essenzialmente la nostra crescente comprensione dell’infrastruttura: alcuni lo chiamano pulizia dell’infrastruttura o comprensione dei problemi di base dell’infrastruttura.
Le prime fasi dell’esecuzione sono quasi sempre piuttosto dolorose. Mentre facciamo avanzare il progetto, stiamo anche continuamente scoprendo e risolvendo nuove modalità di guasto, ma alla fine il tasso di guasto diminuirà gradualmente e il tempo di esecuzione normale aumenterà.
Questa è essenzialmente una questione di compromessi di priorità: nelle prime fasi del ciclo di vita dell’infrastruttura, il suo rischio di guasto è spesso difficile da stimare accuratamente; e se perseguiamo eccessivamente lo stato ideale finale (l’originale è ‘City Estate’, il design ideale della città-stato), potrebbe portare al sistema Le prestazioni di disponibilità iniziali sono estremamente scarse.
Oltre il Calcolo: Innovazione Algoritmica e il Potenziale Inesplorato dei Dati
Sam Altman: Anche se il modello di inferenza è un componente chiave del nostro futuro stack tecnologico, concentriamoci temporaneamente sui confini di sviluppo dei modelli di pre-addestramento tradizionali. Supponendo di avere una potenza di calcolo GPU illimitata, una larghezza di banda di rete illimitata e un’alimentazione illimitata, ma siamo ancora limitati dai colli di bottiglia tecnici esistenti, inclusi problemi di affidabilità del sistema, mancanza di metodi di addestramento tolleranti ai guasti e limitazioni dei set di dati esistenti.
Secondo la nostra regola di evoluzione per ottenere un aumento di scala di 100 volte per ogni numero di versione GPT principale, in base ai confini tecnici attuali, a quale livello può raggiungere lo sviluppo dei modelli di pre-addestramento? In particolare, per i modelli della serie GPT, in base al nostro sistema di conoscenza esistente, che tipo di modello può essere teoricamente addestrato? Possiamo realizzare GPT-5.5?
Alex Paino: Dal punto di vista del machine learning e dello sviluppo di algoritmi, non abbiamo ancora raggiunto un chiaro limite teorico. In realtà, abbiamo appena iniziato a esplorare algoritmi con una maggiore efficienza dei dati e come utilizzare in modo più completo le risorse di dati esistenti. Questa situazione èmolto interessante: anche modelli come GPT-4 sono in gran parte sviluppati in condizioni di risorse di calcolo limitate, il che ha determinato la direzione della maggior parte delle ricerche precedenti.
Ma la situazione è completamente diversa ora. Da GPT-4.5, in alcune dimensioni chiave, i dati piuttosto che il calcolo stanno diventando il vincolo principale. Questo cambiamento rende la ricerca correlata meno eccitante.
Sam Altman: Ma questo è davvero un progresso sorprendente e il mondo potrebbe non rendersi pienamente conto che le risorse di calcolo non sono più il principale collo di bottiglia sul miglior modello che possiamo costruire. Questo cambiamento è molto significativo, dopotutto, abbiamo vissuto in un ambiente con risorse di calcolo limitate per troppo tempo.
Svelare le Sorprese: Prevedibilità vs. Intelligenza Imprevista
Sam Altman: Qual è l’esperienza di machine learning più interessante che abbiamo appreso durante l’addestramento di GPT-4.5? Dì solo quello che vuoi condividere.
Amin Tootoonchian: In generale, le cose più stimolanti sono quelle che si discostano dalle nostre previsioni, soprattutto quando cerchiamo di capire perché le prestazioni effettive si discostano dalla curva prevista.
Alex Paino: Una delle scoperte più sorprendenti per noi è che diversi componenti di machine learning hanno prestazioni di scalabilità molto diverse. Alcune parti possono essere espanse molto bene, mentre altre no. Questo è ciò che abbiamo veramente realizzato durante il processo di addestramento effettivo. Questa esperienza ci ha dato molta ispirazione.
Daniel Selsam: Penso che le due caratteristiche fondamentali del paradigma GPT siano: primo, la perdita di test (una metrica che misura quanto bene il modello si comporta sui dati di test invisibili) può essere prevista con precisione; secondo, le prestazioni del modello mostrano un miglioramento prevedibile con l’aumento della scala. Ciò che è ancora più sorprendente è che la riduzione della perdita di test si trasformerà in un livello di intelligenza potenziato a tutto tondo in vari modi difficili da quantificare ma sorprendenti e misteriosi.
Sam Altman: Sei assolutamente ottimista al riguardo? Sei pienamente d’accordo con questo punto di vista?
Daniel Selsam: In realtà, quello che voglio dire è che abbiamo trovato un fenomeno particolarmente interessante nel test GPT-4.5: dopo aver ritestato, le molte sofisticate capacità mostrate dal modello hanno completamente superato le aspettative di tutti.
Siamo sicuri che diventerà più intelligente in vari modi difficili da definire in anticipo e questi sottili miglioramenti possono essere osservati dalla soddisfazione dell’utente dopo l’implementazione effettiva: riserve di buon senso più forti, capacità di comprensione contestuale più accurata e comprensione semantica più sottile: questa è la magia portata da quelle perdite di test extra. A mio parere, la legge di ridimensionamento è stata perfettamente verificata in questa dimensione.
Il Potere della Collaborazione: Team di Machine Learning e Sistemi che Lavorano in Armonia
Sam Altman: Qual è stato il momento più positivo durante l’intero processo di addestramento? Qual è il tuo ricordo preferito? Ovviamente c’è molto dolore, ma spero che quel dolore sia stato alleviato.
Alex Paino: Io ho un momento del genere. Abbiamo fatto molto lavoro di machine learning durante l’addestramento e penso che alcuni dei cambiamenti che abbiamo apportato durante il processo abbiano avuto un impatto piuttosto buono, forse anche migliore del previsto, che è stato un momento molto eccitante per noi.
Amin Tootoonchian: Per me, allo stesso tempo dell’addestramento, stiamo anche costruendo infrastrutture. Crediamo fermamente di poter superare questa scogliera di prestazioni e abbiamo un piano e tutti lo stanno eseguendo, ma ci vuole molto tempo. Questo è duro lavoro e sicuramente più difficile di quanto pensassi. La mia previsione era sbagliata e ho sottovalutato il tempo necessario per risolvere questi problemi.
Il momento in cui il team ha finalmente superato quei problemi chiave e le prestazioni sono state notevolmente migliorate è ancora vivido nella mia memoria. Puoi sentire chiaramente il cambiamento di energia in tutto il team: tutti sono improvvisamente pieni di energia e si precipitano verso l’obiettivo finale con una nuova motivazione.
La cosa più sorprendente è che il tempo di completamento stimato visualizzato sul nostro tracker di stato ha continuato a ridursi dai due anni iniziali e alla fine si è bloccato su un chiaro nodo temporale. Questo progresso visibile è incommensurabile per la spinta del morale del team. Penso che questa sia la bellezza di esso.
Vorrei sottolineare che il lavoro di machine learning non si è mai fermato. Anche dopo l’inizio dell’addestramento, questo processo di co-design di machine learning è ancora in corso. Il team di machine learning non solo ha seguito attivamente i problemi che erano stati contrassegnati come ‘elaborazione successiva’, ma ha anche continuato a fornire miglioramenti che hanno veramente ottimizzato il tempo di addestramento.
Questo incarna perfettamente il nostro spirito di squadra: non esiste un confine di lavoro ‘spazzare la neve davanti alla tua porta’ qui, ma una collaborazione veramente senza soluzione di continuità. Questa coesione è il nostro più grande vantaggio.
Pianificazione Meticolosa e Ricerca Incessante di Anomalie nel Pre-Addestramento di GPT-4.5
Daniel Selsam: Il mondo esterno ha discusso molto delle sfide e dell’accuratezza predittiva di questo addestramento stesso. Ma in realtà, tutto questo è costruito su una pianificazione estremamente meticolosa: puoi parlarne più in dettaglio?
Alex Paino: Questo è sicuramente il piano più meticoloso che abbiamo fatto finora. Come ho detto, abbiamo iniziato a prepararci per questo progetto un anno prima del lancio ufficiale dell’addestramento. Durante questo periodo, abbiamo condotto più test di esecuzione del controllo del rischio su larga scala.
Prestiamo particolare attenzione all’introduzione graduale di tutti i miglioramenti: partendo da una configurazione di base ad alta confidenza, che può essere intesa come un’architettura matura simile a GPT-4, abbiamo pienamente padroneggiato questa configurazione a livello di machine learning, e quindi stratificando nuove funzionalità come elementi costitutivi.
La chiave è verificare rigorosamente la scalabilità di ogni miglioramento a diverse scale: non solo per vedere miglioramenti delle prestazioni, ma anche per garantire che questi miglioramenti possano continuare a essere efficaci con l’aumento delle dimensioni del modello. Molti miglioramenti si comportano bene nei test su piccola scala, ma falliranno in applicazioni su larga scala.
Pertanto, abbiamo mantenuto un alto grado di vigilanza durante tutto il processo e continuiamo a iterare e migliorare la nostra metodologia di legge di ridimensionamento. Attraverso questa pratica di controllo del rischio, abbiamo accumulato molta esperienza preziosa, che continuerà a guidare lo sviluppo dei futuri modelli della serie GPT.
Amin Tootoonchian: Ricordo un momento particolarmente interessante che mi manca molto. Sai, incontriamo quasi inevitabilmente vari bug ogni volta che iniziamo un’attività di addestramento, il che è all’ordine del giorno. Ma la chiave è garantire che il progresso non sia ostacolato e dobbiamo sempre confermare se il progresso attuale è effettivamente sulla strada giusta e se questi bug avranno un impatto fatale sulla salute dell’addestramento.
Anche se inizialmente eravamo molto sicuri che ci fossero gravi difetti, attraverso l’intero sistema di monitoraggio che abbiamo costruito, siamo stati in grado di distinguere accuratamente la causa principale del problema: è un guasto hardware? Che tipo di guasto hardware? È la corruzione dei dati? O è un bug nel modello di machine learning stesso? O è una condizione di gara nel codice?
A quel tempo, avevamo più aree di discussione sui problemi aperte contemporaneamente, con un’ampia varietà di sintomi. Dopo una serie di correzioni di bug, siamo caduti in una situazione di stallo: più problemi irrisolti erano ammucchiati di fronte a noi e tutti si stavano spremendo le meningi: questi erano causati da bug diversi? O è un bug che sta causando problemi?
Successivamente, abbiamo tenuto una votazione e abbiamo chiesto ai membri del team di votare per la causa principale più probabile. Di conseguenza, l’opzione meno ottimista ha colpito la verità: si è scoperto che c’era un problema con la funzione torch.sum a monte di PyTorch, una semplice operazione di somma.
Questo bug è molto interessante. Sai che usiamo principalmente il kernel Triton e solo in alcuni scenari marginali insignificanti ricadremo nelle operazioni della torcia. Il bug della funzione torch.sum attivato dal nostro specifico percorso di codice occasionalmente causerà l’accesso illegale alla memoria a causa delle caratteristiche di distribuzione dei dati: ha fatto un errore quando calcolava l’offset della memoria.
La cosa più drammatica è che quando un ingegnere ha finalmente individuato il problema e ha inviato una correzione, tutti gli errori con sintomi diversi sono scomparsi. Tutti hanno cambiato con entusiasmo il canale Slack dalla ‘teoria multi-bug’ alla ‘teoria single-bug’ e la scena è stata molto felice.
Da quanto tempo questo bug è in agguato? È esistito sin dalle prime fasi dell’addestramento e non è stato trovato fino a quando la barra di avanzamento non aveva superato circa il 40%. Il processo di scoperta è stato anche pieno di drammaticità: a quel tempo, un kernel complesso chiamava continuamente una sequenza e la seconda chiamata attivava l’accesso illegale alla memoria.
Anche se questa frequenza di arresto anomalo è estremamente bassa (si verifica solo una volta ogni poche centinaia o addirittura migliaia di passaggi di addestramento), è facile essere ignorati come un guasto occasionale, ma il nostro principio di squadra è: non lasciare mai andare nessuna anomalia. La parte migliore di questa storia sta in questa persistenza di non arrendersi alla leggera.
La Ricerca di Sistemi Ideali: Un Orizzonte Lontano
Sam Altman: Dopo che inizia il pre-addestramento di GPT-4.5, cos’altro devi fare?
Alex Paino: Tutti noi dobbiamo osservare frequentemente la curva di perdita. Inoltre, dobbiamo ottimizzare continuamente il sistema e migliorare il co-design che non è stato completato prima dell’inizio dell’addestramento. Monitoriamo attentamente vari indicatori statistici durante il processo di addestramento per garantire che non vi siano tendenze anomale impreviste. Allo stesso tempo, esploriamo possibili piani di miglioramento dal punto di vista del machine learning. Anche se il lavoro a livello di dati sarà temporaneamente ridotto dopo l’inizio del pre-addestramento, ci sono ancora un gran numero di compiti da elaborare.
Amin Tootoonchian: Penso che il machine learning dipenda in gran parte dalla correttezza del giudizio. Dopo che inizia il pre-addestramento, di fronte a un gran numero di segnali di rumore, siamo come indovini che interpretano le foglie di tè e dobbiamo giudicare se il sistema è sano. Questa è la nostra responsabilità.
Sam Altman: A livello di sistema, cosa ci impedisce di condurre l’addestramento del modello? Sono chip, processori, memoria, rete o alimentazione?
Amin Tootoonchian: La bellezza del sistema è che quando si fa co-design, il carico di lavoro può adattarsi all’infrastruttura che si costruisce. Non c’è una regola generale qui che la rete sia il collo di bottiglia, o che la larghezza di banda della memoria sia il collo di bottiglia e così via. Anche per i modelli della stessa specifica, possiamo scegliere di trasferire i requisiti di risorse e possiamo scegliere di creare un sistema più equilibrato, ma avere più larghezza di banda della memoria è sempre vantaggioso. È difficile rispondere a questa domanda senza limitare le condizioni.
Quando progettiamo GPT-4.5, potremmo aver bisogno che il sistema abbia una sorta di attributo, che deve essere generato sotto la guida umana. Pertanto, il co-design è molto importante per formare l’architettura del modello e gli elementi architetturali e, in una certa misura, connette gli aspetti del sistema e del machine learning. Se il sistema ha un attributo che non vogliamo avere molto, la mia situazione ideale è che tutto dovrebbe essere disaccoppiato per dare a ciascuno il massimo spazio.
A volte le cose sono collegate insieme e dobbiamo soddisfare i requisiti dell’infrastruttura, o le cose dovrebbero essere così. La maggior parte delle volte, abbiamo bisogno di un sistema equilibrato e di una comunicazione equilibrata. E il miglior mezzo di aggiustamento che abbiamo sono tutti questi co-design.
Sam Altman: Quanto siamo lontani da questo obiettivo di sistema ideale?
Amin Tootoonchian: Siamo ancora molto lontani da quell’obiettivo. Il processo di costruzione di un sistema è sempre così: prima c’è una visione idealizzata di come dovrebbero funzionare le cose, e quindi riconciliare quelle differenze con le risorse esistenti.
Penso che non lo stiamo facendo per la teoria per la teoria, ma solo per discutere su cosa vogliamo che diventi, per realizzarlo e per avvicinarci il più possibile a quell’ideale. Questo potrebbe essere la parte più eccitante del campo del sistema. La gente diceva che questo è un elegante design del sistema e alla fine la storia ci dirà se questa scelta è corretta o sbagliata.
Sam Altman: Se potessi ottenere una risposta a un problema di machine learning prima del prossimo grande addestramento, cosa ti piacerebbe sapere di più?
Alex Paino: Vorrei sapere quali algoritmi dovremmo usare con dati limitati e campi specifici. Anche se questa è una domanda ampia, è in effetti la più critica.
Sam Altman: Condurrete un pre-addestramento sincrono con 10 milioni di GPU o più in futuro?
Alex Paino: Penso che ci saranno, ma potrebbe non essere un modello di pre-addestramento tradizionale. La sua forma potrebbe essere molto diversa dalla tecnologia esistente, ma manterrà comunque il nucleo dell’apprendimento non supervisionato.
Amin Tootoonchian: Preferisco la modalità semi-sincrona. A causa delle leggi fisiche, la sincronizzazione completa non è realistica.
Daniel Selsam: Penso che sia più probabile che sia decentralizzato. Ci saranno sicuramente 10 milioni di GPU che lavorano insieme in un sistema di intelligenza artificiale per apprendere ed eseguire compiti, ma come le varie parti del cervello, potrebbero non comunicare necessariamente tra loro.
Il Potere Sinergico dei Miglioramenti Algoritmici e dell’Efficienza dei Dati
Sam Altman: Quanto è grande il divario tra gli algoritmi più avanzati e l’efficienza dei dati umani? Possiamo sperare di raggiungere in futuro?
Daniel Selsam: È difficile confrontare direttamente i due. Il divario nell’apprendimento delle lingue è sicuramente enorme. La chiave è come definire la quantità di informazioni ricevute dai nervi visivi umani. Penso che gli algoritmi siano generalmente molto meno efficienti in termini di dati degli umani.
Per decenni, l’apprendimento profondo si è concentrato sull’efficienza della potenza di calcolo. Oltre alla crescita dei dati e della potenza di calcolo, ciò che è veramente sorprendente è l’effetto sinergico prodotto dai miglioramenti algoritmici. Ogni volta che le prestazioni dell’algoritmo migliorano del 10% o del 20%,avrà un effetto significativo se sovrapposto all’efficienza dei dati. Finora, non c’è stata alcuna mobilitazione attorno all’efficienza dei dati, perché questo approccio non vale la pena quando i dati non circolano e la potenza di calcolo è limitata.
Ora, stiamo entrando in una nuova fase della ricerca sull’IA e inizieremo ad accumulare vittorie nell’efficienza dei dati. Penso che sia un po’ sciocco prevedere ora che incontreremo ostacoli insormontabili. Il modo in cui funziona il cervello umano è certamente diverso dai nostri miglioramenti algoritmici e dovremmo essere cauti al riguardo. Ma penso che dovremmo rimanere ottimisti sullo sviluppo futuro degli algoritmi.
Sam Altman: Qual è la correlazione tra il pre-addestramento su scala più ampia e le capacità di apprendimento e ragionamento più forti del modello?
Alex Paino: Quello che abbiamo osservato è che un migliore pre-addestramento e apprendimento non supervisionato spesso migliorano l’intelligenza generale del modello e sono di grande aiuto nella generalizzazione. Questo è complementare alla capacità di ragionamento, mentre il ragionamento potrebbe essere più lento nel migliorare l’intelligenza. Penso che siano complementari.
Sam Altman: Il pre-addestramento sembra essere generale in molte cose, mentre l’addestramento di un modello può solo farlo fare bene in un tipo di cosa, è giusto?
Alex Paino: Questo è molto interessante, ma non sarai sorpreso da questa situazione quando vedrai i dati che li addestrano. L’intervallo del set di dati di pre-addestramento è molto ampio e ciò che perseguiamo è ampiezza e diversità. Quando si tratta di apprendimento di rinforzo del modello e lo si fa ottenere chiaramente buoni segnali di ricompensa e un buon ambiente di addestramento, penso che sia difficile bilanciare l’ampiezza del set di dati.
Daniel Selsam: Sono d’accordo, ma penso che ci sia un altro fattore. Il pre-addestramento sta essenzialmente comprimendo i dati, scoprendo così le connessioni tra cose diverse. Riguarda le analogie e più astratto. Il ragionamento è un’abilità che richiede un’attenta riflessione su un problema specifico e può anche ottenere soluzioni a molti tipi di problemi. Tuttavia, nel processo di pre-addestramento, è possibile apprendere una conoscenza più astratta quando si comprimono i dati in diversi campi.
L’Essenza dell’Intelligenza: Compressione e l’Effetto Coda Lunga
Sam Altman: Perché l’apprendimento non supervisionato è efficace?
Daniel Selsam: La chiave è la compressione. La forma ideale di intelligenza è l’induzione di Solomonoff. In generale, il machine learning considererà tutte le possibilità, ma tende a iniziare a testare con programmi più semplici.
L’essenza dell’attuale pre-addestramento è un processo di compressione, che realizza l’espressione approssimativa trovando il programma più semplice per spiegare tutti i dati prodotti dagli umani finora.
Sam Altman: In che modo la successiva previsione del Token aiuta a ottenere la compressione?
Daniel Selsam: C’è un paradosso nelle statistiche: perché le reti profonde possono ottenere la generalizzazione anche se sembrano incapaci di comprimere? Normalmente, quando hai molti dati e alcuni modelli piccoli, questi modelli devono passare attraverso la compressione per imparare qualcosa.
Nel pre-addestramento, la scala dei dati e dei modelli è molto grande. Alcune persone pensano che questo addestramento sia solo memoria e apprendimento per interpolazione. In realtà, ignorano un’altra prospettiva di comprensione della compressione: la compressione pre-sequenziale. È come un compressore. Anche se il peso dei dati è molto grande, il binario non ha bisogno di memorizzare queste informazioni. Il risultato della successiva previsione del Token può recuperare rapidamente informazioni utili e migliorare l’efficienza della compressione.
Sam Altman: Il processo di addestramento di GPT-4.5 è costato molta manodopera, tempo e denaro, che può essere effettivamente considerato come un esperimento per verificare la legge di ridimensionamento e i risultati dimostrano che è efficace e continuerà a lungo. Perché la legge di ridimensionamento può essere chiamata legge dell’universo?
Daniel Selsam: Più alto è il grado di compressione, più forte è l’intelligenza. Questo ha profonde connotazioni filosofiche. Perché ci vuole più tempo per addestrare modelli più grandi e il tasso di compressione è più alto? Questo coinvolge molte teorie, tra cui mi piace Sparse Representations.
I concetti chiave nella realtà seguono una distribuzione di legge di potenza. Ad esempio, il 100° concetto importante può apparire solo una volta in ogni 100 documenti e c’è un evidente effetto coda lunga. Questa caratteristica di distribuzione porta alla necessità di dati su larga scala e potenza di calcolo per acquisire efficacemente tutti i concetti chiave e determina anche che la legge di ridimensionamento continuerà a esistere efficacemente a lungo.