L’architecture Transformer domine actuellement le paysage de l’IA générative, mais elle n’est pas sans limites, et des challengers émergent. MiniMax-01, avec son adoption audacieuse des mécanismes d’attention linéaire et son expansion à un nombre sans précédent de 456 milliards de paramètres, est un tel perturbateur dans la communauté open-source. Il s’agit à la fois d’un pari technologique et d’une étape potentielle dans l’innovation architecturale.
Dans cet entretien, nous parlons avec Zhong Yiran, le responsable de l’architecture MiniMax-01, pour explorer le parcours de l’attention linéaire du laboratoire aux grands modèles de qualité industrielle, ainsi que ses réflexions et idées sur l’architecture des modèles.
Un Pionnier sur une Voie Technique Non-Conventionnelle
Pourriez-vous vous présenter brièvement ?
Je suis Zhong Yiran, directeur de recherche principal chez MiniMax, où je supervise principalement la conception des architectures de réseau et des grands modèles de compréhension multimodale. Chez MiniMax, ma principale responsabilité est de diriger la conception de la structure de réseau MiniMax-01.
Auparavant, j’ai été chercheur principal pour le New Architecture Exploration Group au Shanghai Artificial Intelligence Laboratory, en me concentrant sur les méthodes de modélisation d’entraînement efficaces pour les architectures non-transformer et la recherche sur la fusion multimodale visuelle-audio-langage.
Quand avez-vous commencé à faire des recherches sur l’attention linéaire, et pourquoi avez-vous choisi cette voie technique ?
J’ai commencé à faire des recherches sur l’attention linéaire vers juillet 2021. Cela découle d’un article sur lequel j’ai travaillé pour mon doctorat en 2020, ‘Invertible Attention’. À l’époque, les réseaux neuronaux inversibles et les mécanismes d’attention étaient assez populaires, nous les avons donc combinés dans nos recherches.
Plus tard, certains membres de notre équipe se sont montrés très intéressés par les mathématiques. Les méthodes de modélisation de séquence efficaces comme l’attention linéaire nécessitent une base mathématique solide et impliquent de nombreuses dérivations de formules, ce qui correspondait parfaitement aux intérêts de l’équipe, nous avons donc choisi cette direction.
Quel était le statut de l’attention linéaire dans l’industrie à cette époque ?
C’était très non-conventionnel, avec peu de personnes travaillant dessus. La plupart des chercheurs se concentraient sur les transformers, qui étaient essentiellement devenus la force dominante dans le NLP.
Nous avons pensé qu’au lieu d’être juste un autre visage dans la foule faisant de la recherche sur les transformers, nous devrions faire quelque chose de différent.
Comment avez-vous évalué le potentiel technique de la voie de l’attention linéaire ?
Notre motivation initiale était simple : résoudre la complexité computationnelle quadratique des transformers. Nous avons testé diverses méthodes, y compris les transformers clairsemés et l’attention linéaire.
Nous avons constaté que les transformers clairsemés fonctionnaient, offrant une vitesse plus rapide et une utilisation de la mémoire plus faible par rapport aux transformers. Cependant, l’attention linéaire fonctionnait mal et était également lente. Malgré cela, nous avons choisi de poursuivre l’attention linéaire.
Une des raisons était son attrait mathématique – nous croyions que sa performance devrait être meilleure. L’autre était que nous pensions que la limite supérieure de l’attention clairsemée était l’attention complète, ce qui rendait difficile de la surpasser. L’attention linéaire, d’autre part, avait le potentiel de la dépasser.
Pourriez-vous expliquer ce qu’est l’attention linéaire ?
L’attention linéaire est essentiellement une astuce de noyau. Dans les transformers, la multiplication des matrices Q, K et V implique différentes complexités computationnelles selon que vous multipliez QK en premier ou KV en premier, en raison des différentes dimensions.
Multiplier KV en premier peut réduire la complexité computationnelle à linéaire. Cependant, le problème est que la multiplication QK est suivie d’une opération softmax, qui ne satisfait pas la propriété commutative et ne peut pas être facilement divisée en multipliant KV en premier. Par conséquent, la première étape de l’attention linéaire est de supprimer le softmax.
Mais supprimer le softmax affecte les résultats. La tâche suivante est de maintenir la cohérence dans les résultats sans softmax, ce que l’attention linéaire vise à atteindre.
Quelles sont les différences fondamentales entre l’attention linéaire, l’attention clairsemée et les architectures RNN linéaires ?
L’attention clairsemée est toujours essentiellement une attention softmax. Elle calcule simplement moins de points qu’une matrice d’attention dense. Par exemple, l’attention de fenêtre glissante ne calcule que le score d’attention à l’intérieur d’une fenêtre, réalisant une accélération en réduisant la quantité de calcul.
Les RNN linéaires et l’attention linéaire sont essentiellement la même chose, juste appelées RNN par certains et attention par d’autres.
Tout peut être écrit sous forme RNN. Par exemple, l’attention lightning correspond à RWKV-4, tandis que RWKV-7 est une version améliorée du gated delta net. Bien qu’ils soient similaires dans leur essence, leurs détails d’implémentation diffèrent.
Quelles sont les étapes clés dans la recherche des mécanismes d’attention linéaire ?
Vers 2018-19, la recherche a montré que la complexité computationnelle théorique de l’attention softmax du transformer pouvait être réduite en utilisant des astuces de noyau, mais les résultats étaient médiocres, et l’efficacité était faible.
En 2019-20, l’attention clairsemée était dominante, avec des entreprises comme Google proposant de nombreuses variantes d’attention clairsemée. Plus tard, l’attention linéaire a commencé à émerger, mais elle a fait face au défi de la mauvaise performance et de la lenteur.
Les chercheurs ont principalement adopté deux approches pour l’amélioration : l’une était d’approximer la fonction softmax, rendant la distribution conforme à softmax ; l’autre, que nous avons choisie, était de modéliser en utilisant des méthodes complètement différentes, sans nous soucier d’approximer softmax.
Nous avons publié notre premier article, ‘COSFORMER: RETHINKING SOFTMAX IN ATTENTION’, en octobre 2021, qui remplaçait l’opération softmax par une fonction cosinus, permettant de diviser le calcul.
Dans la première moitié de 2022, nous avons publié un deuxième article, ‘The Devil in Linear Transformer’, qui analysait les raisons de la dégradation des performances de l’attention linéaire et fournissait des solutions. C’était le précurseur de l’attention lightning.
Plus tard, nous avons également fait des recherches sur les encodages de position spécifiquement pour l’attention linéaire et les longues convolutions, publiant TNN, ‘TOEPLITZ NEURAL NETWORK FOR SEQUENCE MODELING’, une méthode similaire à S4 (le prédécesseur de Mamba).
Enfin, nous avons lancé l’attention lightning, qui correspondait aux performances des transformers grâce à des méthodes de déclin améliorées et des structures de réseau. Nous avons également utilisé une technique de pavage pour la rendre plus rapide.
Quelles sont vos réflexions sur les voies techniques actuelles d’architecture non-transformer ?
L’attention linéaire est en fait une méthode non-transformer. Actuellement, outre les approches de type RNN, les autres architectures non-transformer sont en déclin.
Par exemple, les CNN comme les longues convolutions et les grandes convolutions de noyau, ont l’impression d’avoir été progressivement éliminés en raison de la mauvaise performance, mais ils sont en fait assez forts dans certains aspects, ayant encore un certain effet dans la modélisation de séquence, comme les tâches de détection d’anomalies.
Il n’y a en fait que trois architectures non-transformer : l’attention linéaire, les longues convolutions et les RNN linéaires.
Mais en réalité, ces trois peuvent être unifiées en une seule, que nous appelons le modèle de complexité linéaire. Nous avons écrit un article englobant les trois.
Quelles sont les différences essentielles entre l’attention lightning et Mamba et RWKV ?
La différence la plus fondamentale est que l’attention lightning est l’attention linéaire la plus simple. Mamba et RWKV utilisent tous deux une décroissance dépendante des données, tandis que l’attention lightning utilise une décroissance artisanale pour la vitesse.
Bien que la décroissance apprenable puisse obtenir de meilleurs résultats, elle sacrifie la vitesse. Par exemple, RWKV-7 est 10 à 15 % plus lent que le gated delta net, tandis que le gated delta net est environ la moitié de la vitesse de l’attention lightning.
L’effet de modélisation de RWKV est en effet meilleur que l’attention lightning, mais il est plus lent et n’a pas encore résolu le problème de la récupération.
Est-il maintenant un consensus de l’industrie que l’attention linéaire a une limite supérieure élevée et réalisable ?
Non, si c’était un consensus, tout le monde mettrait à l’échelle les modèles d’attention linéaire. Et ce n’est pas non plus un consensus maintenant. Si c’était le cas, tout le monde ferait du linéaire, mais comme vous pouvez le voir, ce n’est pas le cas.
Mais pour nous, nous l’avons déjà vu dans la seconde moitié de 2023. À ce moment-là, j’ai interrogé de nombreuses personnes et parlé avec beaucoup, et le point le plus commun qu’ils ont soulevé était qu’ils savaient que l’attention linéaire fonctionnait à petite échelle, mais ils pensaient qu’elle échouerait une fois mise à l’échelle.
À l’époque, je pensais que j’allais la mettre à l’échelle pour que tout le monde puisse la voir. Maintenant que MiniMax-01 est sorti, personne ne doute de la capacité de l’attention linéaire à grande échelle.
Des Petites Expériences à la Mise en Œuvre à Grande Échelle
Pensez-vous que la limite supérieure de l’attention linéaire peut surpasser l’attention complète ?
Nous pouvons maintenant voir que les architectures hybrides sont meilleures que les transformers purs. Mais le plus gros problème avec l’attention linéaire pure est la capacité de récupération, ce qui est un problème difficile à résoudre pour le monde universitaire.
Les méthodes existantes, bien que complexes et lentes, ne peuvent toujours pas complètement le résoudre, c’est pourquoi il est nécessaire de se diriger vers des architectures hybrides.
Quel nœud avez-vous observé qui vous a fait décider de sortir du laboratoire ?
En mai-juin 2023, nous avions déjà l’attention lightning 2 en interne, qui était la première implémentation d’attention linéaire au monde plus rapide que Flash attention.
Nous pensons qu’elle a franchi la ligne rouge industrielle, et sa maturité technologique est très élevée et peut être mise à l’échelle.
Comment définissez-vous cette ligne rouge industrielle ?
Premièrement, l’effet est meilleur que transformer, et deuxièmement, il est plus rapide que transformer. Cela lui donne la capacité de remplacer transformer. Nous l’avons vérifié sur un modèle dense à l’échelle de 15B à ce moment-là.
Au moment où vous êtes sorti du laboratoire, pourquoi vous êtes-vous finalement associés à MiniMax ?
En fait, j’avais parlé à certaines grandes entreprises à ce moment-là. Mais à la fin, j’ai quand même fait en sorte que cela se produise avec MiniMax.
Tout d’abord, cosformer est un article sur lequel j’ai collaboré avec Junjie. Nous avons une base de coopération. Junjie était mon patron quand il était chez SenseTime. À la fin de 23, Junjie m’a invité à dîner. Il est plus confiant dans les possibilités de ces technologies de pointe. Je comprends qu’il était également à la recherche d’une percée technique à ce moment-là.
À ce moment-là, MiniMax avait terminé la recherche sur Moe, et il y avait en fait très peu de points de percée technique pour l’étape suivante. À ce moment-là, l’attention lightning avait été publiée, et mamba était également populaire, donc à ses yeux, c’était une direction réalisable.
Est-ce lié au produit compagnon interactif de MiniMax ?
Il n’y a pas de lien. Yan Junjie est plus préoccupé par la limite supérieure du modèle et par la manière de franchir davantage ce plafond.
L’attention linéaire peut être davantage une direction pour percer l’efficacité aux yeux du public, plutôt que de percer le plafond.
Le point ici est que, tout d’abord, la puissance de calcul de chaque fabricant est constante. Plus le modèle peut être accéléré rapidement, plus il peut consommer de données, et meilleur est le modèle produit. Lorsque la puissance de calcul est constante, plus le modèle est rapide, mieux c’est.
Avez-vous observé une situation où les données ont culminé ?
Pas encore, n’est-ce pas ? Les données sont toujours dans la phase de mise à l’échelle continue, mais ce n’est peut-être pas aussi agressif qu’en 23.
Parce que les données augmentent toujours, et de nouvelles données sortent chaque jour. Pour le modèle, il a de nouvelles données à traiter chaque jour. Les données produites par Internet chaque jour sont si nombreuses. Grâce au nettoyage, nous pouvons toujours obtenir de nouvelles données.
Par rapport aux données qui existent depuis tant d’années de développement humain, le taux de croissance des données a-t-il ralenti ?
En fait, pas nécessairement. Regardez les cinq mille ans d’histoire de la Chine, et seuls ces quelques livres ont été accumulés. Mais avec le développement d’Internet, l’augmentation du volume de données est une courbe très raide. Les données globales générées avant Internet peuvent ne pas être aussi nombreuses que les données générées en une année plus tard.
Pendant le processus de mise à l’échelle, quels défis l’attention lightning a-t-elle rencontrés ?
Pour vérifier son évolutivité, nous avons d’abord réalisé des expériences de loi de mise à l’échelle, en passant progressivement des petits modèles à 7B, 9B, et finalement en mettant à l’échelle des modèles avec plus de 400B.
Et nous avons prouvé théoriquement que la capacité de linéaire est plus grande que celle de transformer.
Nous définissons la capacité comme la taille des états actuels du RNN. Pour transformer, la taille de la capacité est O(d), où d est la taille ; pour l’attention linéaire, la taille de la capacité est d²/h. Puisque d est beaucoup plus grand que h, la capacité est plus grande.
En fin de compte, nous avons également vérifié que le modèle hybride est meilleur que le transformer pur.
Comment la fenêtre de séquence de longueur 4M est-elle atteinte ?
Pour lightning, la longueur de l’entraînement peut être arbitraire. Tant que la puissance de calcul est pleinement utilisée, la vitesse d’entraînement 8K, 32K ou 128K est la même, et le TGS (token per GPU per second) est le même.
Parce que transformer est de complexité computationnelle n², plus la séquence est longue, plus la complexité computationnelle augmente rapidement, et la latence augmente dans une courbe quadratique. À la longueur de 1M, la latence de l’attention softmax est 2 700 fois celle de l’attention lightning.
Quels défis techniques doivent encore être résolus pour atteindre une fenêtre de contexte infinie à l’avenir ?
Dans notre architecture hybride actuelle, il reste encore 1/8 d’attention softmax. C’est un goulot d’étranglement à la longueur de 1M. La latence apportée par ce 1/8 est beaucoup plus élevée que les 7/8 restants d’attention linéaire.
Si nous voulons optimiser le texte long, nous devons envisager d’optimiser la partie attention softmax. Nous pouvons apprendre des méthodes d’attention clairsemée pour la rendre plus rapide et plus légère.
De plus, nous envisageons également de rendre le ratio de mélange de softmax et d’attention linéaire plus extrême, non plus 1/8, mais peut-être 1/16 ou 1/32. La solution la plus radicale est de ne mettre qu’une seule couche de softmax dans l’ensemble du modèle, mais par mesure de sécurité, nous ne l’avons pas adoptée, principalement en tenant compte de l’impact sur la capacité de récupération.
Pourquoi la capacité de récupération est-elle si importante pour le modèle ?
La récupération est la base de l’apprentissage en contexte et est une condition nécessaire.
Vous devez vous souvenir des informations dans le contexte pour faire de l’apprentissage en contexte, et l’apprentissage en contexte est la base de toutes les capacités avancées des grands modèles actuels, comme CoT (Chain of Thought), en particulier long CoT, qui reposent tous sur la capacité de récupération.
Architecture Décisive Nouvelle
Avez-vous prêté attention aux dernières améliorations architecturales dans FFN et l’attention dans l’industrie ?
L’amélioration de FFN est Moe. J’ai également prêté attention à Ultra Mem de Byte, mais je pense que c’est une chose avec perte, une compression avec perte. Il peut y avoir des problèmes si elle est mise à l’échelle à l’avenir, mais nous ne l’avons pas mise à l’échelle, donc je ne peux que dire qu’il peut y avoir des problèmes.
Parce que FFN est fondamentalement ceux-ci. Nos améliorations dans la zone Moe ne sont rien de plus que de passer de l’expert large précédent au mode expert petit actuel, le rendant plus clairsemé, puis en faisant une certaine accélération, ce qui nécessite des recherches supplémentaires.
Si vous voulez l’optimiser davantage, parce que FFN est une multiplication matricielle, l’optimisation ne peut être faite qu’au niveau CUDA par Nvidia, en faisant certaines des optimisations de bas niveau de la multiplication matricielle.
Avez-vous prêté attention aux améliorations de l’architecture d’attention dans l’industrie ?
Les améliorations sur l’attention sont fondamentalement linéaires. Nous envisageons également de faire un linéaire plus fort à l’avenir, et d’accélérer davantage l’attention linéaire sur la base actuelle.
Il existe de nombreuses façons de s’améliorer, l’une est de modifier la décroissance, et l’autre est de modifier quelques petites astuces à l’intérieur. Vous pouvez attendre avec impatience notre nouvel article.
Notre ratio actuel de longueur de contexte et de coût d’inférence est-il relativement avancé ?
Une fois qu’il s’agit d’allonger la longueur de la séquence, nous avons un avantage de coût de puissance de calcul très évident. Plus c’est long, plus l’avantage de coût sera évident, qu’il s’agisse d’inférence ou d’entraînement.
Par exemple, sur 1M, la puissance de calcul consommée par l’attention linéaire est de 1/2700 de l’attention complète. En comparaison, parce que nous avons encore 1/8 de l’attention complète, c’est fondamentalement 1/8 de l’architecture du transformer, parce que l’attention linéaire ne compte fondamentalement pas comme une dépense.
Si le coût de calcul est si faible, peut-il atteindre un goulot d’étranglement de calcul ?
Maintenant, c’est en effet un goulot d’étranglement d’accès à la mémoire. Le décodage est un goulot d’étranglement d’accès à la mémoire, pas un goulot d’étranglement de calcul. Parce que lightning est très rapide, il est trop rapide pour permettre à l’accès à la mémoire d’occuper aussi peu de ressources que le calcul. C’est principalement parce que la longueur de la séquence dans les applications réelles n’est pas assez longue.
Comment en faire un goulot d’étranglement de calcul à l’avenir dépend de la façon d’optimiser l’accès à la mémoire. Ce seront des choses dont le département d’ingénierie devra être responsable.
Si l’architecture linéaire devient l’architecture dominante de la prochaine génération, quelles améliorations d’adaptation matérielle seraient plus appropriées pour elle ?
Une chose très délicate ici est que nous devons considérer la longueur de la séquence. Si votre longueur de séquence est axée sur 8K ou 32K, alors l’attention ne représente qu’un peu plus de dix pour cent, et les quatre-vingts pour cent restants sont la partie FFN.
Même si vous optimisez l’attention à l’extrême, à 0, vous n’avez optimisé qu’un peu plus de dix pour cent de la latence. Mais si vous allongez la longueur de la séquence, la proportion d’attention deviendra de plus en plus grande. Ceci est comparé à l’attention complète, mais pour l’attention linéaire, sa proportion est inchangée.
Parce que FFN est également linéaire, et l’attention linéaire est également linéaire, sa proportion est d’environ 10%, ce qui est presque inchangé, même dans le cas de 1M.
Mais si c’est l’attention complète, le calcul de l’attention peut représenter 99%, et le FFN suivant ne représente que 1%. Donc l’attention linéaire n’a des avantages que dans les textes longs.
Si l’architecture linéaire devient la principale, alors la poursuite peut être un matériel à faible consommation d’énergie, ne réduisant que la consommation d’énergie. Y compris les puces Spiking Neural Network (SNN) peuvent être plus appropriées, et certaines personnes le font en fait.
Dans l’Attente de la Voie Vers l’AGI
Quelles sont vos attentes pour l’effet open-source du modèle ?
La première est l’effet de publicité. Personnellement, je pense qu’en plus de montrer quelques muscles, la chose la plus importante pour l’open source est de voir comment tout le monde peut l’utiliser à l’avenir. Je pense que l’open source de petits modèles peut être ce que nous envisageons de faire davantage à l’avenir.
Et comment faire une infrastructure pour que tout le monde puisse affiner peut également être envisagé. L’open source est une chose à long terme pour nous à l’avenir, et les modèles phares devraient continuer à être open-source.
Est-il possible qu’une architecture de race pure qui n’est pas hybride s’épuise à l’avenir ?
Actuellement, il n’y a pas de méthode qui puisse faire mieux qu’hybride, en particulier en termes de vitesse. Ajouter une petite partie d’attention softmax, l’avantage de vitesse est très évident lorsque la longueur de la séquence n’est pas particulièrement longue, en particulier après l’émergence de l’attention flash.
La recherche sur l’architecture de race pure est toujours en cours, mais c’est très difficile, et il n’y a plus de fruits à portée de main. Nous avons quelques solutions techniques, mais la mise en œuvre n’est pas simple, et cela dépend en fin de compte de la longueur de la séquence que nous devons atteindre.
Une autre question est, y a-t-il une forte demande de textes ultra-longs ? Bien que des modèles comme Claude aient atteint un contexte de 200K, les utilisateurs semblent très satisfaits de la longueur actuelle. Les applications Agent peuvent apporter une demande de séquences ultra-longues à l’avenir, mais il n’y a pas encore de benchmark mature.
Mais je pense que ce problème est comme Nvidia développant des cartes graphiques à performances avancées pour les futurs jeux, même si elles ne sont pas nécessaires maintenant, c’est la technologie pour l’avenir.
Par exemple, la recherche approfondie nécessite que le modèle lise le contenu de dizaines de sites Web, et le temps de traitement est de l’ordre de dizaines de minutes, ce qui peut être une direction d’application pour les textes longs.
Quelle pensez-vous être la prochaine grande chose après CoT ?
Nous y avons pensé. Tout d’abord, le modèle de raisonnement actuel est relativement populaire, et le courant dominant de cette année sera toujours la partie raisonnement. Après cela, il est difficile pour nous de penser à des changements particulièrement importants à l’avenir des modèles de langage purs.
J’ai également parlé à d’autres enseignants, et leur sentiment est que tout le monde réduira à nouveau le coût du modèle, de sorte que la vitesse de raisonnement devienne de plus en plus rapide, et que son prix devienne de plus en plus bas, et que le coût soit réduit tout en maintenant l’effet.
Parce que le plafond approche rapidement, la grande majorité des cas vérifient et comblent les lacunes dans les capacités des grands modèles. Mais s’il y a des percées technologiques encore plus importantes, elles peuvent être relativement rares à court terme, et nous ne les avons pas encore vues.
Après que MiniMax ait exploré l’attention linéaire, quelle pourrait être la prochaine direction à explorer ?
La prochaine chose pourrait être d’explorer l’architecture du multimodal, en particulier si nous voulons faire cette génération native et comprendre l’architecture de grand modèle unifiée.
Avec AGI comme point final, quel modèle avec une complexité computationnelle de O(n²) ou O(n) serait une meilleure réponse ?
Bien sûr, c’est O(n). Du point de vue de l’anthropomorphisme, les gens doivent avoir une complexité O(n). Par exemple, si la complexité d’une personne est O(n²), alors la vitesse à laquelle je vous parle deviendra de plus en plus lente.
Parce que pour transformer, sa complexité d’inférence est une complexité computationnelle O(n²), c’est-à-dire que la latence de cracher le premier token et de cracher le 100ème token est différente.
Nous, les humains, ne pouvons pas imaginer une telle chose, parce que les gens n’ont jamais redémarré depuis leur naissance, et ont craché des choses tout le temps, donc la complexité computationnelle des gens est constante.
L’homme est-il nécessairement la solution optimale pour l’intelligence ?
Nous ne pouvons que le penser pour le moment. Il y a aussi des gens qui font la route de l’intelligence bionique, mais nous n’avons pas trop prêté attention à ces directions.
Avec AGI comme jeu final, quels domaines d’amélioration du modèle sont les plus importants ?
En plus de la modélisation du langage, il y a aussi le problème des méthodes d’apprentissage. Comment vous apprenez, et apprenez de l’environnement, apprendre de l’interaction avec l’environnement est très important. Après tout, la compréhension multimodale actuelle manque encore beaucoup de données.
Et même l’apprentissage few-shot des machines est actuellement étiqueté, mais l’apprentissage humain n’est pas étiqueté. Donc, comment unifier tout sous un cadre auto-construit est également un problème.