MiniMax e l'Attenzione Lineare: Intervista a Zhong Yiran | it

Un Pioniere su un Percorso Tecnico Non Convenzionale

Potrebbe presentarsi brevemente?

Sono Zhong Yiran, Senior Research Director presso MiniMax, dove supervisiono principalmente la progettazione delle architetture di rete e dei grandi modelli di comprensione multimodale. In MiniMax, la mia responsabilità principale è guidare la progettazione della struttura di rete MiniMax-01.

In precedenza, ho lavorato come PI per il New Architecture Exploration Group presso lo Shanghai Artificial Intelligence Laboratory, concentrandomi su metodi di modellazione efficienti per l’addestramento di architetture non-transformer e sulla ricerca sulla fusione multimodale visivo-audio-linguistica.

Quando ha iniziato a fare ricerca sull’attenzione lineare e perché ha scelto questo percorso tecnico?

Ho iniziato a fare ricerca sull’attenzione lineare intorno a luglio 2021. Questo è derivato da un articolo su cui ho lavorato per il mio dottorato di ricerca nel 2020, ‘Invertible Attention’. All’epoca, sia le reti neurali invertibili che i meccanismi di attenzione erano piuttosto popolari, quindi li abbiamo combinati nella nostra ricerca.

Successivamente, alcuni membri del nostro team si sono interessati molto alla matematica. Metodi di modellazione sequenziale efficienti come l’attenzione lineare richiedono una solida base matematica e comportano numerose derivazioni di formule, il che si allineava perfettamente con gli interessi del team, quindi abbiamo scelto questa direzione.

Qual era lo stato dell’attenzione lineare nel settore a quel tempo?

Era molto non convenzionale, con poche persone che ci lavoravano. La maggior parte dei ricercatori era concentrata sui transformer, che erano essenzialmente diventati la forza dominante nel NLP.

Abbiamo pensato che invece di essere solo un’altra faccia nella folla che faceva ricerca sui transformer, avremmo dovuto fare qualcosa di diverso.

Come ha valutato il potenziale tecnico del percorso di attenzione lineare?

La nostra motivazione iniziale era semplice: affrontare la complessità computazionale quadratica dei transformer. Abbiamo testato vari metodi, tra cui transformer sparsi e attenzione lineare.

Abbiamo scoperto che i transformer sparsi funzionavano, offrendo velocità più elevate e un minore utilizzo della memoria rispetto ai transformer. Tuttavia, l’attenzione lineare ha funzionato male ed è stata anche lenta. Nonostante questo, abbiamo scelto di perseguire l’attenzione lineare.

Una ragione era il suo fascino matematico: credevamo che le sue prestazioni avrebbero dovuto essere migliori. L’altra era che sentivamo che il limite superiore dell’attenzione sparsa era l’attenzione completa, rendendo difficile superarla. L’attenzione lineare, d’altra parte, aveva il potenziale per superarla.

Potrebbe spiegare cos’è l’attenzione lineare?

L’attenzione lineare è essenzialmente un trucco del kernel. Nei transformer, moltiplicare le matrici Q, K e V comporta diverse complessità computazionali a seconda che si moltiplichi prima QK o prima KV, a causa delle diverse dimensioni.

Moltiplicare KV prima può ridurre la complessità computazionale a lineare. Tuttavia, il problema è che la moltiplicazione QK è seguita da un’operazione softmax, che non soddisfa la proprietà commutativa e non può essere facilmente suddivisa in moltiplicare KV prima. Pertanto, il primo passo nell’attenzione lineare è rimuovere la softmax.

Ma rimuovere la softmax influisce sui risultati. Il compito successivo è mantenere la coerenza nei risultati senza softmax, che è ciò che l’attenzione lineare mira a raggiungere.

Quali sono le differenze fondamentali tra attenzione lineare, attenzione sparsa e architetture RNN lineari?

L’attenzione sparsa è ancora essenzialmente un’attenzione softmax. Calcola semplicemente meno punti di una matrice di attenzione densa. Ad esempio, l’attenzione a finestra scorrevole calcola solo il punteggio di attenzione all’interno di una finestra, ottenendo l’accelerazione riducendo la quantità di calcolo.

Gli RNN lineari e l’attenzione lineare sono essenzialmente la stessa cosa, chiamati RNN da alcuni e attenzione da altri.

Tutto può essere scritto in forma RNN. Ad esempio, l’attenzione lightning corrisponde a RWKV-4, mentre RWKV-7 è una versione migliorata della rete delta gated. Sebbene siano simili nella sostanza, i loro dettagli di implementazione differiscono.

Quali sono le pietre miliari chiave nella ricerca dei meccanismi di attenzione lineare?

Intorno al 2018-19, la ricerca ha dimostrato che la complessità computazionale teorica dell’attenzione softmax del transformer potrebbe essere ridotta utilizzando trucchi del kernel, ma i risultati sono stati scarsi e l’efficienza era bassa.

Nel 2019-20, l’attenzione sparsa era dominante, con aziende come Google che proponevano molte varianti di attenzione sparsa. Successivamente, l’attenzione lineare ha iniziato a emergere, ma ha affrontato la sfida di prestazioni scadenti e bassa velocità.

I ricercatori hanno principalmente adottato due approcci per il miglioramento: uno era quello di approssimare la funzione softmax, rendendo la distribuzione conforme alla softmax; l’altro, che abbiamo scelto noi, era quello di modellare utilizzando metodi completamente diversi, senza preoccuparci di approssimare la softmax.

Abbiamo pubblicato il nostro primo articolo, ‘COSFORMER: RETHINKING SOFTMAX IN ATTENTION,’ nell’ottobre 2021, che ha sostituito l’operazione softmax con una funzione coseno, consentendo la suddivisione del calcolo.

Nella prima metà del 2022, abbiamo pubblicato un secondo articolo, ‘The Devil in Linear Transformer,’ che analizzava le ragioni del degrado delle prestazioni dell’attenzione lineare e forniva soluzioni. Questo è stato il precursore dell’attenzione lightning.

Successivamente, abbiamo anche fatto ricerca sulle codifiche di posizione specificamente per l’attenzione lineare e le convoluzioni lunghe, pubblicando TNN, ‘TOEPLITZ NEURAL NETWORK FOR SEQUENCE MODELING,’ un metodo simile a S4 (il predecessore di Mamba).

Infine, abbiamo lanciato l’attenzione lightning, che ha eguagliato le prestazioni dei transformer attraverso metodi di decadimento migliorati e strutture di rete. Abbiamo anche utilizzato una tecnica di tiling per renderla più veloce.

Quali sono i suoi pensieri sugli attuali percorsi tecnici di architettura non-transformer?

L’attenzione lineare è in realtà un metodo non-transformer. Attualmente, oltre agli approcci simili agli RNN, altre architetture non-transformer sono in declino.

Ad esempio, i CNN come le convoluzioni lunghe e le convoluzioni a kernel grande, sembrano essere stati gradualmente eliminati a causa delle scarse prestazioni, ma in realtà sono abbastanza forti in certi aspetti, avendo ancora qualche effetto nella modellazione sequenziale, come i task di rilevamento delle anomalie.

Ci sono in realtà solo tre architetture non-transformer: attenzione lineare, convoluzioni lunghe e RNN lineari.

Ma in realtà, questi tre possono essere unificati in uno, che chiamiamo il modello di complessità lineare. Abbiamo scritto un articolo che comprende tutti e tre.

Quali sono le differenze fondamentali tra attenzione lightning e Mamba e RWKV?

La differenza più importante è che l’attenzione lightning è l’attenzione lineare più semplice. Mamba e RWKV usano entrambi il decadimento dipendente dai dati, mentre l’attenzione lightning usa il decadimento artigianale per la velocità.

Sebbene il decadimento apprendibile possa ottenere risultati migliori, sacrifica la velocità. Ad esempio, RWKV-7 è del 10-15% più lento della rete delta gating, mentre la rete delta gating è circa la metà della velocità dell’attenzione lightning.

L’effetto di modellazione di RWKV è in effetti migliore dell’attenzione lightning, ma è più lento e non ha ancora risolto il problema del recupero.

È ora un consenso del settore che l’attenzione lineare ha un limite superiore alto e fattibile?

No, se fosse consenso, tutti scalerebbero modelli di attenzione lineare. E non è nemmeno consenso ora. Se lo fosse, tutti farebbero lineare, ma come puoi vedere, non è così.

Ma per noi, lo abbiamo già visto nella seconda metà del 2023. A quel tempo, ho chiesto a molte persone e ho parlato con molti, e il punto più comune che hanno sollevato è stato che sapevano che l’attenzione lineare funzionava su piccola scala, ma sentivano che sarebbe fallita una volta scalata.

A quel tempo, ho pensato che l’avrei scalata per farla vedere a tutti. Ora che MiniMax-01 è uscito, nessuno dubita della capacità dell’attenzione lineare su larga scala.

Da Piccoli Esperimenti a Implementazione su Larga Scala

Pensa che il limite superiore dell’attenzione lineare possa superare l’attenzione completa?

Ora possiamo vedere che le architetture ibride sono migliori dei transformer puri. Ma il problema più grande con l’attenzione lineare pura è la capacità di recupero, che è un problema difficile da risolvere per il mondo accademico.

I metodi esistenti, sebbene complessi e lenti, non possono ancora risolverlo completamente, motivo per cui è necessario passare ad architetture ibride.

Quale nodo ha osservato che l’ha fatta decidere di uscire dal laboratorio?

A maggio-giugno 2023, avevamo già internamente l’attenzione lightning 2, che è stata la prima implementazione di attenzione lineare al mondo più veloce di Flash attention.

Riteniamo che abbia superato la linea rossa industriale e che la sua maturità tecnologica sia molto alta e possa essere scalata.

Come definisce questa linea rossa industriale?

Innanzitutto, l’effetto è migliore del transformer e, in secondo luogo, è più veloce del transformer. Questo gli dà la capacità di sostituire il transformer. Lo abbiamo verificato su un modello denso su scala 15B a quel tempo.

Al nodo in cui è uscito dal laboratorio, perché alla fine si è unito a MiniMax?

In realtà, avevo parlato con alcune grandi aziende a quel tempo. Ma alla fine, sono comunque riuscito a farlo accadere con MiniMax.

Prima di tutto, cosformer è un articolo a cui ho collaborato con Junjie. Abbiamo una base per la cooperazione. Junjie era il mio capo quando era a SenseTime. Alla fine del 23, Junjie mi ha invitato a cena. È più fiducioso nelle possibilità di queste tecnologie all’avanguardia. La mia comprensione è che stava anche cercando una svolta tecnica a quel tempo.

A quel tempo, MiniMax aveva completato la ricerca su Moe e c’erano in realtà pochissimi punti di svolta tecnica per il passo successivo. A quel tempo, l’attenzione lightning era stata rilasciata e anche mamba era popolare, quindi ai suoi occhi era una direzione fattibile.

Questo è correlato al prodotto di compagno interattivo di MiniMax?

Non c’è alcuna connessione. Yan Junjie è più preoccupato per il limite superiore del modello e per come rompere ulteriormente questo soffitto.

L’attenzione lineare potrebbe essere più una direzione per rompere l’efficienza agli occhi del pubblico, piuttosto che rompere il soffitto.

Il punto qui è che, prima di tutto, la potenza di calcolo di ogni produttore è costante. Più velocemente il modello può essere accelerato, più dati può mangiare e migliore è il modello prodotto. Quando la potenza di calcolo è costante, più veloce è il modello, meglio è.

Ha osservato una situazione in cui i dati hanno raggiunto il picco?

Non ancora, giusto? I dati sono ancora nella fase di ridimensionamento continuo, ma potrebbero non essere così aggressivi come nel 23.

Perché i dati sono sempre in aumento e ogni giorno escono nuovi dati. Per il modello, ha nuovi dati da elaborare ogni giorno. I dati prodotti da Internet ogni giorno sono così tanti. Attraverso la pulizia, possiamo ancora ottenere nuovi dati.

Rispetto ai dati che esistono da così tanti anni di sviluppo umano, il tasso di crescita dei dati è rallentato?

In realtà, non necessariamente. Guarda i cinquemila anni di storia della Cina e sono stati accumulati solo quei pochi libri. Ma con lo sviluppo di Internet, l’aumento del volume dei dati è una curva molto ripida. I dati complessivi generati prima di Internet potrebbero non essere tanti quanti i dati generati in un anno dopo.

Durante il processo di ridimensionamento, quali sfide ha affrontato l’attenzione lightning?

Per verificarne la scalabilità, abbiamo prima fatto esperimenti sulla legge di ridimensionamento, espandendoci gradualmente da piccoli modelli a 7B, 9B e infine scalando a modelli con più di 400B.

E abbiamo teoricamente dimostrato che la capacità del lineare è maggiore di quella del transformer.

Definiamo la capacità come la dimensione degli stati correnti dell’RNN. Per il transformer, la dimensione della capacità è O(d), dove d è la dimensione; per l’attenzione lineare, la dimensione della capacità è d²/h. Poiché d è molto più grande di h, la capacità è maggiore.

Alla fine, abbiamo anche verificato che il modello ibrido è migliore del transformer puro.

Come viene raggiunta la finestra di sequenza di lunghezza 4M?

Per lightning, la lunghezza dell’addestramento può essere arbitraria. Finché la potenza di calcolo è pienamente utilizzata, la velocità di addestramento di 8K, 32K o 128K è la stessa e il TGS (token per GPU al secondo) è lo stesso.

Poiché il transformer è una complessità computazionale n², più lunga è la sequenza, più velocemente cresce la complessità computazionale e la latenza aumenta in una curva quadratica. A 1M di lunghezza, la latenza dell’attenzione softmax è 2.700 volte quella dell’attenzione lightning.

Quali sfide tecniche devono ancora essere affrontate per ottenere una finestra di contesto infinita in futuro?

Nella nostra attuale architettura ibrida, c’è ancora 1/8 di attenzione softmax. Questo è un collo di bottiglia a 1M di lunghezza. La latenza portata da questo 1/8 è molto più alta del restante 7/8 di attenzione lineare.

Se vogliamo ottimizzare il testo lungo, dobbiamo considerare l’ottimizzazione della parte di attenzione softmax. Possiamo imparare dai metodi di attenzione sparsa per renderla più veloce e leggera.

Inoltre, stiamo anche valutando di rendere più estremo il rapporto di miscelazione di softmax e attenzione lineare, non più 1/8, ma forse 1/16 o 1/32. La soluzione più radicale è quella di mettere solo uno strato di softmax nell’intero modello, ma per assicurazione, non l’abbiamo adottata, considerando principalmente l’impatto sulla capacità di recupero.

Perché la capacità di recupero è così importante per il modello?

Il recupero è la base dell’apprendimento in-context ed è una condizione necessaria.

Devi ricordare le informazioni nel contesto per fare l’apprendimento in-context e l’apprendimento in-context è la base di tutte le capacità avanzate dei modelli di grandi dimensioni attuali, come CoT (Chain of Thought), in particolare il CoT lungo, che si basano tutti sulla capacità di recupero.

Nuova Architettura Decisiva

Ha prestato attenzione agli ultimi miglioramenti architettonici in FFN e attenzione nel settore?

Il miglioramento di FFN è Moe. Ho anche prestato attenzione a Ultra Mem di Byte, ma penso che sia una cosa lossy, una compressione lossy. Potrebbero esserci problemi se verrà ridimensionato in futuro, ma non l’abbiamo ridimensionato, quindi posso solo dire che potrebbero esserci problemi.

Perché FFN è fondamentalmente questo. I nostri miglioramenti nell’area Moe non sono altro che passare dal precedente esperto di grandi dimensioni all’attuale modalità di esperto di piccole dimensioni, rendendolo più sparso, e quindi fare un po’ di accelerazione, che richiede ulteriori ricerche.

Se vuoi ottimizzarlo ulteriormente, poiché FFN è moltiplicazione di matrici, l’ottimizzazione può essere eseguita solo a livello CUDA da Nvidia, facendo alcune delle ottimizzazioni di livello inferiore della moltiplicazione di matrici.

Ha prestato attenzione ai miglioramenti nell’architettura dell’attenzione nel settore?

I miglioramenti sull’attenzione sono fondamentalmente lineari. Stiamo anche valutando se fare un Lineare più forte in futuro e accelerare ulteriormente l’attenzione Lineare sulla base attuale.

Ci sono molti modi per migliorare, uno è cambiare il decadimento e l’altro è cambiare alcuni piccoli trucchi all’interno. Puoi aspettarti il nostro nuovo articolo.

Il nostro attuale rapporto tra lunghezza del contesto e costo dell’inferenza è relativamente avanzato?

Una volta che si tratta di allungare la lunghezza della sequenza, abbiamo un vantaggio di costo della potenza di calcolo molto ovvio. Più lungo è, più ovvio sarà il vantaggio di costo, sia che si tratti di inferenza che di addestramento.

Ad esempio, su 1M, la potenza di calcolo consumata dall’attenzione lineare è 1/2700 dell’attenzione completa. In confronto, poiché abbiamo ancora 1/8 di attenzione completa, è fondamentalmente 1/8 dell’architettura transformer, perché l’attenzione lineare fondamentalmente non conta come spesa.

Se il costo di calcolo è così basso, può raggiungere un collo di bottiglia di calcolo?

Ora è davvero un collo di bottiglia di accesso alla memoria. La decodifica è un collo di bottiglia di accesso alla memoria, non un collo di bottiglia di calcolo. Perché lightning è molto veloce, è troppo veloce per consentire all’accesso alla memoria di occupare poche risorse come il calcolo. Questo è principalmente perché la lunghezza della sequenza nelle applicazioni reali non è abbastanza lunga.

Come renderlo un collo di bottiglia di calcolo in futuro dipende da come ottimizzare l’accesso alla memoria. Queste saranno cose di cui il dipartimento di ingegneria dovrà essere responsabile.

Se l’architettura lineare diventa l’architettura mainstream della prossima generazione, quali miglioramenti dell’adattamento hardware sarebbero più adatti per essa?

Una cosa molto complicata qui è che dobbiamo considerare la lunghezza della sequenza. Se la tua lunghezza della sequenza è focalizzata su 8K o 32K, allora l’attenzione rappresenta solo poco più del dieci percento e il restante ottanta percento è la parte FFN.

Anche se ottimizzi l’attenzione all’estremo, a 0, hai ottimizzato solo poco più del dieci percento della latenza. Ma se allunghi la lunghezza della sequenza, la proporzione di attenzione diventerà sempre più grande. Questo è rispetto all’attenzione completa, ma per l’attenzione lineare, la sua proporzione è invariata.

Poiché anche FFN è lineare e anche l’attenzione lineare è lineare, la sua proporzione è di circa il 10%, che è quasi invariata, anche nel caso di 1M.

Ma se è attenzione completa, il calcolo dell’attenzione può rappresentare il 99% e il seguente FFN rappresenta solo l’1%. Quindi l’attenzione lineare ha solo vantaggi nei testi lunghi.

Se l’architettura lineare diventa la corrente principale, allora la ricerca potrebbe essere hardware a basso consumo energetico, riducendo solo il consumo di energia. Compresi i chip Spiking Neural Network (SNN) potrebbero essere più adatti e alcune persone lo stanno effettivamente facendo.

Guardando Avanti alla Strada per l’AGI

Quali sono le sue aspettative per l’effetto open-source del modello?

Il primo è l’effetto pubblicitario. Personalmente penso che, oltre a mostrare un po’ di muscoli, la cosa più importante per l’open source sia vedere come tutti possono usarlo in futuro. Penso che l’open source di piccoli modelli possa essere ciò che stiamo considerando di fare di più in futuro.

E come creare alcune infrastrutture per consentire a tutti di fare il finetuning potrebbe anche dover essere considerato. L’open source è una cosa a lungo termine per noi in futuro e i modelli di punta dovrebbero continuare a essere open-source.

È possibile che un’architettura di puro sangue che non sia ibrida si esaurisca in futuro?

Attualmente, non esiste un metodo che possa fare meglio dell’ibrido, soprattutto in termini di velocità. Aggiungendo una piccola parte di attenzione softmax, il vantaggio di velocità è molto ovvio quando la lunghezza della sequenza non è particolarmente lunga, soprattutto dopo l’emergere dell’attenzione flash.

La ricerca sull’architettura di puro sangue è ancora in corso, ma è molto difficile e non ci sono più frutti pendenti. Abbiamo alcune soluzioni tecniche, ma l’implementazione non è semplice e alla fine dipende da quanto a lungo abbiamo bisogno di raggiungere una lunghezza di sequenza.

Un’altra domanda è: c’è una forte domanda di testi ultra-lunghi? Sebbene modelli come Claude abbiano raggiunto un contesto di 200K, gli utenti sembrano essere molto soddisfatti della lunghezza attuale. Le applicazioni Agent potrebbero portare la domanda di sequenze ultra-lunghe in futuro, ma non esiste ancora un benchmark maturo.

Ma penso che questo problema sia come Nvidia che sviluppa schede grafiche ad alte prestazioni per i futuri giochi, anche se non sono necessarie ora, è tecnologia per il futuro.

Ad esempio, la ricerca approfondita richiede al modello di leggere il contenuto di dozzine di siti Web e il tempo di elaborazione è dell’ordine di decine di minuti, che potrebbe essere una direzione applicativa per i testi lunghi.

Quale pensa che potrebbe essere la prossima grande novità dopo CoT?

Ci abbiamo pensato. Prima di tutto, l’attuale modello di ragionamento è relativamente popolare e la corrente principale di quest’anno sarà ancora la parte di ragionamento. Dopo di che, è difficile per noi pensare a cambiamenti particolarmente grandi nel futuro dei modelli linguistici puri.

Ho anche parlato con altri insegnanti e la loro sensazione è che tutti ridurranno nuovamente il costo del modello, in modo che la velocità del ragionamento diventi sempre più veloce e il suo prezzo diventi sempre più basso e il costo venga ridotto mantenendo l’effetto.

Poiché il soffitto si sta avvicinando rapidamente, la stragrande maggioranza dei casi sta controllando e colmando le lacune nelle capacità dei modelli di grandi dimensioni. Ma se ci sono anche maggiori scoperte tecnologiche, potrebbero essere relativamente rare a breve termine e non le abbiamo ancora viste.

Dopo che MiniMax ha esplorato l’attenzione lineare, quale potrebbe essere la prossima direzione da esplorare?

La prossima cosa potrebbe essere esplorare l’architettura del multimodale, in particolare se vogliamo fare questa architettura di modello di grandi dimensioni unificata per la generazione e la comprensione nativa.

Con AGI come punto finale, quale modello con una complessità computazionale di O(n²) o O(n) sarebbe una risposta migliore?

Naturalmente, è O(n). Dal punto di vista dell’antropomorfismo, le persone devono essere una complessità O(n). Ad esempio, se la complessità di una persona è O(n²), allora la velocità con cui ti parlo diventerà sempre più lenta.

Poiché per il transformer, la sua complessità di inferenza è una complessità computazionale O(n²), cioè la latenza di sputare il primo token e sputare il 100° token è diversa.

Noi umani non possiamo immaginare una cosa del genere, perché le persone non si sono mai riavviate da quando sono nate e hanno sempre sputato fuori cose, quindi la complessità computazionale delle persone è costante.

L’uomo è necessariamente la soluzione ottimale per l’intelligenza?

Possiamo solo pensarlo al momento. Ci sono anche alcune persone che seguono il percorso dell’intelligenza bionica, ma non abbiamo prestato troppa attenzione a quelle direzioni.

Con AGI come gioco finale, quali aree di miglioramento del modello sono le cose più importanti?

Oltre alla modellazione linguistica, c’è anche il problema dei metodi di apprendimento. Come impari e impari dall’ambiente, l’apprendimento dall’interazione con l’ambiente è molto importante. Dopotutto, l’attuale comprensione multimodale è ancora molto carente di dati.

E anche l’apprendimento few-shot delle macchine è attualmente etichettato, ma l’apprendimento umano non è etichettato. Quindi, come unificare tutto sotto un quadro auto-costruito è anche un problema.

aggiornato il 2025-04-19

# LLM # AGI # MiniMax