MiniMax setzt auf lineare Aufmerksamkeit

Ein Pionier auf einem nicht-mainstream-technischen Pfad

Könnten Sie sich kurz vorstellen?

Ich bin Zhong Yiran, Senior Research Director bei MiniMax, wo ich hauptsächlich die Entwicklung von Netzwerkarchitekturen und multimodalen verständnisorientierten Large Models überwache. Bei MiniMax ist meine Hauptaufgabe, die Entwicklung der MiniMax-01-Netzwerkstruktur zu leiten.

Zuvor war ich als PI für die New Architecture Exploration Group am Shanghai Artificial Intelligence Laboratory tätig und konzentrierte mich auf effiziente Trainingsmodellierungsmethoden für Nicht-Transformer-Architekturen und Forschung zur visuell-audio-sprachlichen multimodalen Fusion.

Wann haben Sie mit der Forschung im Bereich der linearen Aufmerksamkeit begonnen und warum haben Sie diesen technischen Weg gewählt?

Ich begann mit der Forschung zur linearen Aufmerksamkeit etwa im Juli 2021. Dies ging auf eine Arbeit zurück, an der ich 2020 für meine Promotion arbeitete: ‘Invertible Attention’. Zu dieser Zeit waren sowohl invertierbare neuronale Netze als auch Aufmerksamkeitsmechanismen sehr beliebt, also kombinierten wir sie in unserer Forschung.

Später interessierten sich einige Mitglieder unseres Teams sehr für Mathematik. Effiziente Sequenzmodellierungsmethoden wie die lineare Aufmerksamkeit erfordern eine starke mathematische Grundlage und beinhalten zahlreiche Formelableitungen, was perfekt mit den Interessen des Teams übereinstimmte, also wählten wir diese Richtung.

Wie war der Stand der linearen Aufmerksamkeit in der Industrie zu dieser Zeit?

Es war sehr unkonventionell, mit wenigen Leuten, die daran arbeiteten. Die meisten Forscher konzentrierten sich auf Transformer, die im Wesentlichen zur dominierenden Kraft in der NLP geworden waren.

Wir dachten, dass wir, anstatt nur ein weiteres Gesicht in der Menge zu sein, das Transformer-Forschung betreibt, etwas anderes tun sollten.

Wie haben Sie das technische Potenzial des linearen Aufmerksamkeitsweges eingeschätzt?

Unsere anfängliche Motivation war einfach: die quadratische Rechenkomplexität von Transformatoren anzugehen. Wir testeten verschiedene Methoden, darunter Sparse Transformer und lineare Aufmerksamkeit.

Wir stellten fest, dass Sparse Transformer funktionierten und im Vergleich zu Transformatoren eine höhere Geschwindigkeit und einen geringeren Speicherverbrauch boten. Die lineare Aufmerksamkeit schnitt jedoch schlecht ab und war ebenfalls langsam. Trotzdem entschieden wir uns, die lineare Aufmerksamkeit weiterzuverfolgen.

Ein Grund war ihre mathematische Anziehungskraft – wir glaubten, ihre Leistung sollte besser sein. Der andere war, dass wir das Gefühl hatten, die Obergrenze der spärlichen Aufmerksamkeit sei die volle Aufmerksamkeit, was es schwierig mache, sie zu übertreffen. Die lineare Aufmerksamkeit hatte dagegen das Potenzial, sie zu übertreffen.

Könnten Sie erklären, was lineare Aufmerksamkeit ist?

Lineare Aufmerksamkeit ist im Wesentlichen ein Kernel-Trick. Bei Transformatoren beinhaltet die Multiplikation der Q-, K- und V-Matrizen unterschiedliche Rechenkomplexitäten, je nachdem, ob Sie zuerst QK oder zuerst KV multiplizieren, aufgrund der unterschiedlichen Dimensionen.

Das Multiplizieren von KV zuerst kann die Rechenkomplexität auf linear reduzieren. Das Problem ist jedoch, dass der QK-Multiplikation eine Softmax-Operation folgt, die das Kommutativgesetz nicht erfüllt und nicht einfach in die Multiplikation KVfirst aufgeteilt werden kann. Daher besteht der erste Schritt in der linearen Aufmerksamkeit darin, das Softmax zu entfernen.

Das Entfernen des Softmax beeinflusst jedoch die Ergebnisse. Die anschließende Aufgabe besteht darin, die Konsistenz der Ergebnisse ohne Softmax aufrechtzuerhalten, was das Ziel der linearen Aufmerksamkeit ist.

Was sind die grundlegenden Unterschiede zwischen linearer Aufmerksamkeit, spärlicher Aufmerksamkeit und linearen RNN-Architekturen?

Spärliche Aufmerksamkeit ist im Wesentlichen immer noch eine Softmax-Aufmerksamkeit. Sie berechnet einfach weniger Punkte als eine dichte Aufmerksamkeitsmatrix. Zum Beispiel berechnet die Schiebefenster-Aufmerksamkeit nur den Aufmerksamkeitswert innerhalb eines Fensters und erreicht eine Beschleunigung, indem sie die Berechnungsmenge reduziert.

Lineare RNNs und lineare Aufmerksamkeit sind im Wesentlichen dasselbe, nur dass sie von einigen als RNNs und von anderen als Aufmerksamkeit bezeichnet werden.

Alles kann in RNN-Form geschrieben werden. Zum Beispiel entspricht Lightning Attention RWKV-4, während RWKV-7 eine verbesserte Version des Gated Delta Net ist. Obwohl sie im Wesentlichen ähnlich sind, unterscheiden sich ihre Implementierungsdetails.

Was sind die wichtigsten Meilensteine in der Forschung zu linearen Aufmerksamkeitsmechanismen?

Um 2018-19 zeigten Forschungen, dass die theoretische Rechenkomplexität der Transformer-Softmax-Aufmerksamkeit mithilfe von Kernel-Tricks reduziert werden könnte, aber die Ergebnisse waren schlecht und die Effizienz gering.

In den Jahren 2019-20 war die spärliche Aufmerksamkeit dominant, wobei Unternehmen wie Google viele Varianten der spärlichen Aufmerksamkeit vorschlugen. Später begann die lineare Aufmerksamkeit aufzutauchen, stand jedoch vor der Herausforderung schlechter Leistung und langsamer Geschwindigkeit.

Die Forscher verfolgten hauptsächlich zwei Ansätze zur Verbesserung: Der eine bestand darin, die Softmax-Funktion zu approximieren, wodurch die Verteilung mit Softmax übereinstimmte; der andere, den wir wählten, war die Modellierung mit völlig anderen Methoden, ohne uns um die Approximation von Softmax zu kümmern.

Wir veröffentlichten unser erstes Papier, ‘COSFORMER: RETHINKING SOFTMAX IN ATTENTION’, im Oktober 2021, das die Softmax-Operation durch eine Kosinusfunktion ersetzte, wodurch die Berechnung aufgeteilt werden konnte.

In der ersten Hälfte des Jahres 2022 veröffentlichten wir ein zweites Papier, ‘The Devil in Linear Transformer’, das die Gründe für die Leistungsverschlechterung der linearen Aufmerksamkeit analysierte und Lösungen anbot. Dies war der Vorläufer von Lightning Attention.

Später forschten wir auch speziell nach Positionskodierungen für lineare Aufmerksamkeit und lange Faltungen und veröffentlichten TNN, ‘TOEPLITZ NEURAL NETWORK FOR SEQUENCE MODELING’, eine Methode ähnlich S4 (dem Vorgänger von Mamba).

Schließlich brachten wir Lightning Attention auf den Markt, das durch verbesserte Decay-Methoden und Netzwerkstrukturen die Leistung von Transformatoren erreichte. Wir verwendeten auch eine Tiling-Technik, um es schneller zu machen.

Was sind Ihre Gedanken zu den aktuellen nicht-Transformer-Architektur-Technikrouten?

Lineare Aufmerksamkeit ist eigentlich eine Nicht-Transformer-Methode. Derzeit sind neben RNN-ähnlichen Ansätzen auch andere Nicht-Transformer-Architekturen rückläufig.

Zum Beispiel scheinen CNNs wie lange Faltungen und große Kernel-Faltungen aufgrund schlechter Leistung allmählich eliminiert worden zu sein, aber sie sind in bestimmten Aspekten tatsächlich recht stark und haben immer noch eine gewisse Wirkung in der Sequenzmodellierung, wie z. B. bei Anomalieerkennungsaufgaben.

Es gibt eigentlich nur drei Nicht-Transformer-Architekturen: lineare Aufmerksamkeit, lange Faltungen und lineare RNNs.

Aber in Wirklichkeit können diese drei zu einer einzigen vereinheitlicht werden, die wir als lineares Komplexitätsmodell bezeichnen. Wir haben einen Artikel geschrieben, der alle drei umfasst.

Was sind die Hauptunterschiede zwischen Lightning Attention und Mamba und RWKV?

Der wichtigste Unterschied ist, dass Lightning Attention die einfachste lineare Aufmerksamkeit ist. Mamba und RWKV verwenden beide datenabhängigen Decay, während Lightning Attention für die Geschwindigkeit einen handgefertigten Decay verwendet.

Obwohl lernbarer Decay bessere Ergebnisse erzielen kann, opfert er die Geschwindigkeit. Zum Beispiel ist RWKV-7 10-15% langsamer als das Gating Delta Net, während das Gating Delta Net etwa halb so schnell ist wie Lightning Attention.

Der Modellierungseffekt von RWKV ist in der Tat besser als Lightning Attention, aber es ist langsamer und hat das Abrufproblem noch nicht gelöst.

Ist es jetzt Branchenkonsens, dass lineare Aufmerksamkeit eine hohe und praktikable Obergrenze hat?

Nein, wenn es Konsens wäre, würde jeder lineare Aufmerksamkeitsmodelle hochskalieren. Und es ist auch jetzt kein Konsens. Wenn es so wäre, würde jeder linear arbeiten, aber wie Sie sehen können, ist das nicht der Fall.

Aber für uns haben wir das bereits in der zweiten Hälfte des Jahres 2023 gesehen. Zu dieser Zeit habe ich viele Leute gefragt und mich mit vielen unterhalten, und der häufigste Punkt, den sie ansprachen, war, dass sie wussten, dass lineare Aufmerksamkeit in kleinem Maßstab funktioniert, aber sie das Gefühl hatten, dass sie scheitern würde, sobald sie hochskaliert wird.

Zu dieser Zeit dachte ich, ich würde es für alle hochskalieren, damit sie es sehen können. Jetzt, da MiniMax-01 heraus ist, zweifelt niemand mehr an der Fähigkeit der linearen Aufmerksamkeit in großem Maßstab.

Von kleinen Experimenten zur groß angelegten Implementierung

Glauben Sie, dass die Obergrenze der linearen Aufmerksamkeit die volle Aufmerksamkeit übertreffen kann?

Wir können jetzt sehen, dass hybride Architekturen besser sind als reine Transformatoren. Aber das größte Problem bei reiner linearer Aufmerksamkeit ist die Abruffähigkeit, was ein schwieriges Problem für die Wissenschaft ist.

Bestehende Methoden, obwohl komplex und langsam, können es immer noch nicht vollständig lösen, weshalb es notwendig ist, sich in Richtung hybrider Architekturen zu bewegen.

Welchen Knoten haben Sie beobachtet, der Sie dazu veranlasste, aus dem Labor zu kommen?

Im Mai-Juni 2023 hatten wir intern bereits Lightning Attention 2, die weltweit erste lineare Aufmerksamkeitsimplementierung, die schneller war als Flash Attention.

Wir glauben, dass sie die industrielle rote Linie überschritten hat und ihre technologische Reife sehr hoch ist und hochskaliert werden kann.

Wie definieren Sie diese industrielle rote Linie?

Erstens ist der Effekt besser als der des Transformators, und zweitens ist er schneller als der Transformator. Dies gibt ihm die Möglichkeit, den Transformator zu ersetzen. Wir haben dies damals auf einem 15B-Skala-Dense-Modell verifiziert.

Warum haben Sie sich zu dem Zeitpunkt, als Sie aus dem Labor kamen, letztendlich mit MiniMax zusammengetan?

Tatsächlich hatte ich zu dieser Zeit mit einigen großen Unternehmen gesprochen. Aber am Ende habe ich es trotzdem mit MiniMax hinbekommen.

Erstens ist Cosformer ein Artikel, an dem ich mit Junjie zusammengearbeitet habe. Wir haben eine Grundlage für die Zusammenarbeit. Junjie war mein Chef, als er bei SenseTime war. Ende 23 lud mich Junjie zum Abendessen ein. Er ist zuversichtlicher, was die Möglichkeiten dieser Spitzentechnologien angeht. Meines Erachtens suchte er zu dieser Zeit auch nach einem technischen Durchbruch.

Zu dieser Zeit hatte MiniMax die Forschung an Moe abgeschlossen, und es gab eigentlich nur sehr wenige technische Durchbruchpunkte für den nächsten Schritt. Zu dieser Zeit war Lightning Attention veröffentlicht worden, und Mamba war ebenfalls beliebt, also war es in seinen Augen eine machbare Richtung.

Steht dies im Zusammenhang mit dem interaktiven Begleitprodukt von MiniMax?

Es gibt keinen Zusammenhang. Yan Junjie ist mehr um die Obergrenze des Modells besorgt und darum, wie man diese Obergrenze weiter durchbrechen kann.

Lineare Aufmerksamkeit ist in der Öffentlichkeit eher eine Richtung, um die Effizienz zu durchbrechen, als die Obergrenze zu durchbrechen.

Der Punkt hier ist, dass erstens die Rechenleistung jedes Herstellers konstant ist. Je schneller das Modell beschleunigt werden kann, desto mehr Daten kann es aufnehmen und desto besser wird das produzierte Modell. Wenn die Rechenleistung konstant ist, desto schneller ist das Modell, desto besser.

Haben Sie eine Situation beobachtet, in der die Daten ihren Höhepunkt erreicht haben?

Noch nicht, oder? Die Daten befinden sich immer noch in der Phase der kontinuierlichen Skalierung, aber sie ist möglicherweise nicht so aggressiv wie im Jahr 23.

Denn die Daten nehmen immer zu, und jeden Tag kommen neue Daten heraus. Für das Modell gibt es jeden Tag neue Daten zu verarbeiten. Die Daten, die das Internet jeden Tag produziert, sind so viel. Durch die Bereinigung können wir immer noch neue Daten herausbekommen.

Hat sich im Vergleich zu den Daten, die seit so vielen Jahren der menschlichen Entwicklung existieren, die Datenwachstumsrate verlangsamt?

Eigentlich nicht unbedingt. Schauen Sie sich die fünftausend Jahre chinesischer Geschichte an, und es wurden nur diese wenigen Bücher angesammelt. Aber mit der Entwicklung des Internets ist der Anstieg des Datenvolumens eine sehr steile Kurve. Die Gesamtdaten, die vor dem Internet generiert wurden, sind möglicherweise nicht so viel wie die Daten, die in einem Jahr später generiert wurden.

Vor welchen Herausforderungen stand Lightning Attention während des Scale-up-Prozesses?

Um seine Skalierbarkeit zu überprüfen, führten wir zunächst Skalierungsgesetz-Experimente durch, die wir schrittweise von kleinen Modellen auf 7B, 9B ausweiteten und schließlich auf Modelle mit mehr als 400B skalierten.

Und wir haben theoretisch bewiesen, dass die Kapazität von Linear größer ist als die des Transformators.

Wir definieren Kapazität als die Größe der aktuellen Zustände des RNN. Für den Transformator ist die Kapazitätsgröße O(d), wobei d die Größe ist; für lineare Aufmerksamkeit ist die Kapazitätsgröße d²/h. Da d viel größer als h ist, ist die Kapazität größer.

Am Ende haben wir auch verifiziert, dass das Hybridmodell besser ist als der reine Transformator.

Wie wird die Sequenzfensterlänge von 4M erreicht?

Für Lightning kann die Trainingslänge beliebig sein. Solange die Rechenleistung voll ausgeschöpft wird, ist die Geschwindigkeit des Trainings von 8K, 32K oder 128K gleich, und das TGS (Token pro GPU pro Sekunde) ist gleich.

Da der Transformator eine n² Rechenkomplexität hat, wächst die Rechenkomplexität umso schneller, je länger die Sequenz ist, und die Latenz steigt in einer quadratischen Kurve an. Bei einer Länge von 1M beträgt die Latenz der Softmax-Aufmerksamkeit das 2.700-fache der Lightning Attention.

Welche technischen Herausforderungen müssen noch angegangen werden, um in Zukunft ein unendliches Kontextfenster zu erreichen?

In unserer aktuellen hybriden Architektur gibt es immer noch 1/8 Softmax-Aufmerksamkeit. Dies ist ein Engpass bei einer Länge von 1M. Die Latenz, die durch dieses 1/8 verursacht wird, ist viel höher als die restlichen 7/8 der linearen Aufmerksamkeit.

Wenn wir langen Text optimieren wollen, müssen wir die Softmax-Aufmerksamkeitspartie optimieren. Wir können von spärlichen Aufmerksamkeitsmethoden lernen, um sie schneller und leichter zu machen.

Darüber hinaus erwägen wir auch, das Mischungsverhältnis von Softmax und linearer Aufmerksamkeit extremer zu gestalten, nicht mehr 1/8, sondern möglicherweise 1/16 oder 1/32. Die radikalste Lösung besteht darin, nur eine Schicht Softmax im gesamten Modell zu platzieren, aber zur Sicherheit haben wir sie nicht übernommen, hauptsächlich unter Berücksichtigung der Auswirkungen auf die Abruffähigkeit.

Warum ist die Abruffähigkeit für das Modell so wichtig?

Der Abruf ist die Grundlage des In-Context-Lernens und eine notwendige Bedingung.

Sie müssen sich die Informationen im Kontext merken, um In-Context-Lernen zu betreiben, und In-Context-Lernen ist die Grundlage aller fortgeschrittenen Fähigkeiten aktueller großer Modelle, wie z. B. CoT (Chain of Thought), insbesondere langes CoT, die alle auf der Abruffähigkeit beruhen.

Entscheidende neue Architektur

Haben Sie die neuesten architektonischen Verbesserungen in FFN und Aufmerksamkeit in der Industrie beachtet?

Die Verbesserung von FFN ist Moe. Ich habe auch Bytes Ultra Mem beachtet, aber ich denke, es ist eine verlustbehaftete Sache, eine verlustbehaftete Kompression. Es kann Probleme geben, wenn es in Zukunft hochskaliert wird, aber wir haben es nicht hochskaliert, also kann ich nur sagen, dass es möglicherweise Probleme gibt.

Denn FFN ist im Grunde genommen das. Unsere Verbesserungen im Moe-Bereich sind nichts anderes, als vom vorherigen großen Experten zum aktuellen kleinen Expertenmodus zu wechseln, ihn spärlicher zu machen und dann eine Beschleunigung durchzuführen, die weiterer Forschung bedarf.

Wenn Sie es weiter optimieren wollen, da FFN Matrixmultiplikation ist, kann die Optimierung nur auf der CUDA-Ebene von Nvidia erfolgen, wobei einige der Low-Level-Optimierungen der Matrixmultiplikation durchgeführt werden.

Haben Sie die Verbesserungen in der Aufmerksamkeitsarchitektur in der Industrie beachtet?

Die Verbesserungen der Aufmerksamkeit sind im Grunde genommen linear. Wir erwägen auch, ob wir in Zukunft ein stärkeres Linear erstellen und die lineare Aufmerksamkeit auf der aktuellen Basis weiter beschleunigen sollen.

Es gibt viele Möglichkeiten zur Verbesserung, eine besteht darin, den Zerfall zu ändern, und die andere besteht darin, einige kleine Tricks im Inneren zu ändern. Sie können sich auf unser neues Papier freuen.

Ist unser aktuelles Verhältnis von Kontextlänge und Inferenzkosten relativ fortschrittlich?

Sobald es darum geht, die Sequenzlänge zu verlängern, haben wir einen sehr offensichtlichen Rechenleistungskostenvorteil. Je länger es ist, desto offensichtlicher wird der Kostenvorteil, sei es bei der Inferenz oder beim Training.

Zum Beispiel verbraucht lineare Aufmerksamkeit auf 1M 1/2700 der Rechenleistung von voller Aufmerksamkeit. Im Vergleich dazu sind es im Grunde genommen 1/8 der Transformatorarchitektur, da lineare Aufmerksamkeit im Grunde genommen nicht als Aufwand zählt, da wir noch 1/8 voller Aufmerksamkeit haben.

Wenn die Berechnungskosten so niedrig sind, kann es zu einem Berechnungsengpass kommen?

Jetzt ist es in der Tat ein Speicherzugriffsengpass. Das Dekodieren ist ein Speicherzugriffsengpass, kein Berechnungsengpass. Da Lightning sehr schnell ist, ist es zu schnell, um zu ermöglichen, dass der Speicherzugriff so wenige Ressourcen wie die Berechnung belegt. Dies liegt hauptsächlich daran, dass die Sequenzlänge in tatsächlichen Anwendungen nicht lang genug ist.

Wie es in Zukunft zu einem Berechnungsengpass werden kann, hängt davon ab, wie der Speicherzugriff optimiert wird. Dies sind Dinge, für die die Engineering-Abteilung verantwortlich sein muss.

Wenn die lineare Architektur zur Mainstream-Architektur der nächsten Generation wird, welche Hardwareanpassungsverbesserungen wären dafür besser geeignet?

Eine sehr knifflige Sache hier ist, dass wir die Sequenzlänge berücksichtigen müssen. Wenn sich Ihre Sequenzlänge auf 8K oder 32K konzentriert, macht die Aufmerksamkeit nur etwas mehr als zehn Prozent aus, und die restlichen achtzig Prozent sind der FFN-Teil.

Selbst wenn Sie die Aufmerksamkeit bis zum Äußersten optimieren, bis zu 0, haben Sie nur etwas mehr als zehn Prozent der Latenz optimiert. Aber wenn Sie die Sequenzlänge verlängern, wird der Anteil der Aufmerksamkeit immer größer. Dies wird mit voller Aufmerksamkeit verglichen, aber für lineare Aufmerksamkeit ist ihr Anteil unverändert.

Da FFN ebenfalls linear ist und lineare Aufmerksamkeit ebenfalls linear ist, beträgt ihr Anteil etwa 10%, was fast unverändert ist, selbst im Fall von 1M.

Wenn es sich jedoch um volle Aufmerksamkeit handelt, kann die Aufmerksamkeitsberechnung 99% ausmachen, und das folgende FFN macht nur 1% aus. Lineare Aufmerksamkeit hat also nur Vorteile bei langen Texten.

Wenn die lineare Architektur zum Mainstream wird, könnte das Streben nach energiesparender Hardware liegen, wodurch nur der Energieverbrauch reduziert wird. Einschließlich Spiking Neural Network (SNN)-Chips könnten besser geeignet sein, und einige Leute tun es tatsächlich.

Mit Blick auf den Weg zu AGI

Was sind Ihre Erwartungen an den Open-Source-Effekt des Modells?

Das erste ist der Werbeeffekt. Ich persönlich denke, dass zusätzlich zum Zeigen einiger Muskeln das Wichtigste für Open Source ist, zu sehen, wie jeder es in Zukunft nutzen kann. Ich denke, Open Source für kleine Modelle könnte das sein, was wir in Zukunft eher in Betracht ziehen werden.

Und wie man einige Infrastruktur für alle zum Finetuning schafft, muss möglicherweise auch in Betracht gezogen werden. Open Source ist für uns in Zukunft eine langfristige Sache, und Flaggschiffmodelle sollten weiterhin Open Source sein.

Ist es möglich, dass eine reinblütige Architektur, die nicht hybrid ist, in Zukunft ausgeht?

Derzeit gibt es keine Methode, die besser abschneiden kann als Hybrid, insbesondere in Bezug auf die Geschwindigkeit. Das Hinzufügen eines kleinen Teils Softmax-Aufmerksamkeit ist der Geschwindigkeitsvorteil sehr offensichtlich, wenn die Sequenzlänge nicht besonders lang ist, insbesondere nach dem Aufkommen der Flash-Aufmerksamkeit.

Die Forschung an reinblütiger Architektur ist noch im Gange, aber es ist sehr schwierig, und es gibt keine leicht zugänglichen Früchte mehr. Wir haben einige technische Lösungen, aber die Implementierung ist nicht einfach, und es hängt letztendlich davon ab, wie lange eine Sequenzlänge wir erreichen müssen.

Eine andere Frage ist, gibt es eine starke Nachfrage nach ultralangen Texten? Obwohl Modelle wie Claude einen Kontext von 200K erreicht haben, scheinen die Benutzer mit der aktuellen Länge sehr zufrieden zu sein. Agentenanwendungen können in Zukunft die Nachfrage nach ultralangen Sequenzen mit sich bringen, aber es gibt noch keinen ausgereiften Benchmark.

Aber ich denke, dieses Problem ist wie Nvidia, die fortschrittliche Grafikkarten für zukünftige Spiele entwickeln, obwohl sie jetzt nicht benötigt werden, ist es Technologie für die Zukunft.

Zum Beispiel erfordert eine tiefe Recherche, dass das Modell den Inhalt von Dutzenden von Websites liest, und die Bearbeitungszeit liegt in der Größenordnung von zehn Minuten, was eine Anwendungsrichtung für lange Texte sein kann.

Was denken Sie, was das nächste große Ding nach CoT sein könnte?

Wir haben darüber nachgedacht. Zunächst einmal ist das aktuelle Reasoning-Modell relativ beliebt, und der Mainstream in diesem Jahr wird immer noch der Reasoning-Teil sein. Danach ist es für uns schwierig, an besonders große Veränderungen in der Zukunft reiner Sprachmodelle zu denken.

Ich habe auch mit anderen Lehrern gesprochen, und ihr Gefühl ist, dass jeder die Kosten des Modells erneut senken wird, so dass die Geschwindigkeit des Reasonings immer schneller wird und sein Preis immer niedriger wird, und die Kosten werden gesenkt, während der Effekt beibehalten wird.

Da sich die Decke schnell nähert, überprüfen und füllen die überwiegende Mehrheit der Fälle Lücken in den Fähigkeiten großer Modelle. Aber wenn es noch größere technologische Durchbrüche gibt, sind diese möglicherweise kurzfristig relativ selten, und wir haben sie noch nicht gesehen.

Nachdem MiniMax lineare Aufmerksamkeit erforscht hat, welche Richtung könnte als nächstes erforscht werden?

Das nächste könnte die Erforschung der Architektur von Multimodal sein, insbesondere ob wir diese native Generation und das Verständnis einer vereinheitlichten großen Modellarchitektur erreichen wollen.

Welches Modell mit einer Rechenkomplexität von O(n²) oder O(n) wäre mit AGI als Endpunkt die bessere Antwort?

Natürlich ist es O(n). Aus der Perspektive der Anthropomorphisierung müssen Menschen eine Komplexität von O(n) haben. Wenn zum Beispiel die Komplexität einer Person O(n²) beträgt, wird die Geschwindigkeit, mit der ich mit Ihnen spreche, immer langsamer.

Da für den Transformator seine Inferenzkomplexität eine O(n²) Rechenkomplexität ist, d. h. die Latenz beim Ausspucken des ersten Tokens und beim Ausspucken des 100. Tokens unterschiedlich ist.

Wir Menschen können uns so etwas nicht vorstellen, denn die Menschen haben seit ihrer Geburt nie wieder neu gestartet und spucken die ganze Zeit Dinge aus, so dass die Rechenkomplexität der Menschen konstant ist.

Ist der Mensch notwendigerweise die optimale Lösung für Intelligenz?

Das können wir im Moment nur so denken. Es gibt auch einige Leute, die die Route der bionischen Intelligenz verfolgen, aber wir haben diesen Richtungen nicht zu viel Aufmerksamkeit geschenkt.

Welche Bereiche der Modellverbesserung sind mit AGI als Endspiel die wichtigsten?

Neben der Sprachmodellierung gibt es auch das Problem der Lernmethoden. Wie Sie lernen und von der Umgebung lernen, das Lernen aus der Interaktion mit der Umgebung ist sehr wichtig. Schließlich mangelt es dem aktuellen multimodalen Verständnis immer noch sehr an Daten.

Und selbst das Few-Shot-Lernen von Maschinen ist derzeit gekennzeichnet, aber das menschliche Lernen ist unbeschriftet. Wie man also alles unter einem selbst konstruierten Rahmen vereinheitlicht, ist auch ein Problem.