Uma Pioneira em um Caminho Técnico Não Convencional
Poderia se apresentar brevemente?
Sou Zhong Yiran, Diretor Sênior de Pesquisa na MiniMax, onde supervisiono principalmente o design de arquiteturas de rede e modelos grandes de compreensão multimodal. Na MiniMax, minha principal responsabilidade é liderar o design da estrutura de rede MiniMax-01.
Anteriormente, trabalhei como Investigador Principal para o Grupo de Exploração de Novas Arquiteturas no Laboratório de Inteligência Artificial de Xangai, com foco em métodos eficientes de modelagem de treinamento para arquiteturas não-transformer e pesquisa sobre fusão multimodal visual-áudio-linguagem.
Quando você começou a pesquisar atenção linear e por que escolheu esta rota técnica?
Comecei a pesquisar atenção linear por volta de julho de 2021. Isso surgiu de um artigo em que trabalhei para meu doutorado em 2020, ‘Atenção Invertível’. Na época, tanto as redes neurais invertíveis quanto os mecanismos de atenção eram bastante populares, então os combinamos em nossa pesquisa.
Mais tarde, alguns membros de nossa equipe ficaram muito interessados em matemática. Métodos eficientes de modelagem de sequência como a atenção linear exigem uma forte base matemática e envolvem inúmeras derivações de fórmulas, o que se alinhava perfeitamente com os interesses da equipe, então escolhemos essa direção.
Qual era o status da atenção linear na indústria naquela época?
Era muito não convencional, com poucas pessoas trabalhando nisso. A maioria dos pesquisadores estava focada em transformers, que essencialmente se tornaram a força dominante em PNL (Processamento de Linguagem Natural).
Pensamos que, em vez de sermos apenas mais um rosto na multidão fazendo pesquisa em transformer, deveríamos fazer algo diferente.
Como você avaliou o potencial técnico da rota de atenção linear?
Nossa motivação inicial era direta: abordar a complexidade computacional quadrática dos transformers. Testamos vários métodos, incluindo transformers esparsos e atenção linear.
Descobrimos que os transformers esparsos funcionavam, oferecendo maior velocidade e menor uso de memória em comparação com os transformers. No entanto, a atenção linear teve um desempenho ruim e também foi lenta. Apesar disso, escolhemos buscar a atenção linear.
Uma razão foi seu apelo matemático – acreditávamos que seu desempenho deveria ser melhor. A outra foi que sentimos que o limite superior da atenção esparsa era a atenção total, tornando difícil de superar. A atenção linear, por outro lado, tinha o potencial de excedê-la.
Poderia explicar o que é atenção linear?
A atenção linear é essencialmente um truque de kernel. Em transformers, multiplicar as matrizes Q, K e V envolve diferentes complexidades computacionais, dependendo se você multiplica QK primeiro ou KV primeiro, devido às diferentes dimensões.
Multiplicar KV primeiro pode reduzir a complexidade computacional para linear. No entanto, o problema é que a multiplicação QK é seguida por uma operação softmax, que não satisfaz a propriedade comutativa e não pode ser facilmente dividida em multiplicar KV primeiro. Portanto, o primeiro passo na atenção linear é remover o softmax.
Mas remover o softmax afeta os resultados. A tarefa subsequente é manter a consistência nos resultados sem softmax, que é o que a atenção linear visa alcançar.
Quais são as diferenças fundamentais entre atenção linear, atenção esparsa e arquiteturas RNN lineares?
A atenção esparsa ainda é essencialmente uma atenção softmax. Ela simplesmente calcula menos pontos do que uma matriz de atenção densa. Por exemplo, a atenção de janela deslizante calcula apenas a pontuação de atenção dentro de uma janela, alcançando a aceleração ao reduzir a quantidade de computação.
RNNs lineares e atenção linear são essencialmente a mesma coisa, apenas chamados de RNNs por alguns e atenção por outros.
Tudo pode ser escrito na forma RNN. Por exemplo, a atenção relâmpago corresponde a RWKV-4, enquanto RWKV-7 é uma versão aprimorada da rede delta gated. Embora sejam semelhantes em essência, seus detalhes de implementação diferem.
Quais são os principais marcos na pesquisa de mecanismos de atenção linear?
Por volta de 2018-19, a pesquisa mostrou que a complexidade computacional teórica da atenção softmax do transformer poderia ser reduzida usando truques de kernel, mas os resultados foram ruins e a eficiência foi baixa.
Em 2019-20, a atenção esparsa era dominante, com empresas como o Google propondo muitas variantes de atenção esparsa. Mais tarde, a atenção linear começou a surgir, mas enfrentou o desafio de desempenho ruim e baixa velocidade.
Os pesquisadores adotaram principalmente duas abordagens para a melhoria: uma era aproximar a função softmax, fazendo com que a distribuição se conformasse ao softmax; a outra, que escolhemos, era modelar usando métodos completamente diferentes, sem nos preocuparmos em aproximar o softmax.
Publicamos nosso primeiro artigo, ‘COSFORMER: REPENSANDO SOFTMAX EM ATENÇÃO’, em outubro de 2021, que substituiu a operação softmax por uma função cosseno, permitindo que o cálculo fosse dividido.
No primeiro semestre de 2022, publicamos um segundo artigo, ‘O Diabo no Transformer Linear’, que analisou as razões para a degradação do desempenho da atenção linear e forneceu soluções. Este foi o precursor da atenção relâmpago.
Mais tarde, também pesquisamos codificações de posição especificamente para atenção linear e convoluções longas, publicando TNN, ‘REDE NEURAL DE TOEPLITZ PARA MODELAGEM DE SEQUÊNCIA’, um método semelhante a S4 (o predecessor de Mamba).
Finalmente, lançamos a atenção relâmpago, que correspondeu ao desempenho dos transformers através de métodos de decaimento aprimorados e estruturas de rede. Também usamos uma técnica de mosaico para torná-lo mais rápido.
Quais são seus pensamentos sobre as atuais rotas técnicas de arquitetura não-transformer?
A atenção linear é, na verdade, um método não-transformer. Atualmente, além das abordagens do tipo RNN, outras arquiteturas não-transformer estão em declínio.
Por exemplo, CNNs como convoluções longas e convoluções de kernel grandes, parecem ter sido gradualmente eliminadas devido ao mau desempenho, mas na verdade são bastantefortes em certos aspectos, ainda tendo algum efeito na modelagem de sequência, como tarefas de detecção de anomalias.
Na verdade, existem apenas três arquiteturas não-transformer: atenção linear, convoluções longas e RNNs lineares.
Mas, na realidade, essas três podem ser unificadas em uma, que chamamos de modelo de complexidade linear. Escrevemos um artigo abrangendo todas as três.
Quais são as principais diferenças entre a atenção relâmpago e Mamba e RWKV?
A diferença mais central é que a atenção relâmpago é a atenção linear mais simples. Mamba e RWKV usam decaimento dependente de dados, enquanto a atenção relâmpago usa decaimento artesanal para velocidade.
Embora o decaimento aprendível possa alcançar melhores resultados, ele sacrifica a velocidade. Por exemplo, RWKV-7 é 10-15% mais lento que a rede delta de gating, enquanto a rede delta de gating tem cerca de metade da velocidade da atenção relâmpago.
O efeito de modelagem do RWKV é realmente melhor do que a atenção relâmpago, mas é mais lento e ainda não resolveu o problema de recuperação.
É agora um consenso da indústria que a atenção linear tem um limite superior alto e viável?
Não, se fosse consenso, todos estariam ampliando os modelos de atenção linear. E também não é consenso agora. Se fosse, todos estariam fazendo linear, mas como você pode ver, não é o caso.
Mas para nós, já vimos isso no segundo semestre de 2023. Naquela época, perguntei a muitas pessoas e conversei com muitas, e o ponto mais comum que levantaram foi que sabiam que a atenção linear funcionava em pequena escala, mas sentiam que falharia uma vez ampliada.
Na época, pensei que iria ampliá-la para que todos vissem. Agora que o MiniMax-01 está fora, ninguém duvida da capacidade da atenção linear em grande escala.
De Pequenas Experiências à Implementação em Larga Escala
Você acha que o limite superior da atenção linear pode ultrapassar a atenção total?
Podemos ver agora que as arquiteturas híbridas são melhores do que os transformers puros. Mas o maior problema com a atenção linear pura é a capacidade de recuperação, que é um problema difícil para a academia resolver.
Os métodos existentes, embora complexos e lentos, ainda não conseguem resolvê-lo completamente, razão pela qual é necessário avançar para arquiteturas híbridas.
Qual nó você observou que o fez decidir sair do laboratório?
Em maio-junho de 2023, já tínhamos a atenção relâmpago 2 internamente, que foi a primeira implementação de atenção linear do mundo que era mais rápida que a atenção Flash.
Acreditamos que cruzou a linha vermelha industrial, e sua maturidade tecnológica é muito alta e pode ser ampliada.
Como você define esta linha vermelha industrial?
Primeiro, o efeito é melhor do que o transformer, e segundo, é mais rápido do que o transformer. Isso lhe dá a capacidade de substituir o transformer. Verificamos isso em um modelo denso de escala 15B naquela época.
No nó quando você saiu do laboratório, por que você acabou se juntando à MiniMax?
Na verdade, eu tinha conversado com algumas grandes empresas naquela época. Mas no final, ainda fiz isso acontecer com a MiniMax.
Em primeiro lugar, cosformer é um artigo que colaborei com Junjie. Temos uma base para cooperação. Junjie era meu chefe quando estava na SenseTime. No final de 23, Junjie me convidou para jantar. Ele está mais confiante nas possibilidades dessas tecnologias de ponta. Meu entendimento é que ele também estava procurando uma descoberta técnica na época.
Naquela época, a MiniMax havia concluído a pesquisa sobre Moe, e na verdade havia muito poucos pontos de descoberta técnica para o próximo passo. Naquela época, a atenção relâmpago havia sido lançada e o mamba também era popular, então, aos olhos dele, era uma direção viável.
Isso está relacionado ao produto companheiro interativo da MiniMax?
Não há conexão. Yan Junjie está mais preocupado com o limite superior do modelo e como romper ainda mais esse teto.
A atenção linear pode ser mais uma direção para romper a eficiência aos olhos do público, em vez de romper o teto.
O ponto aqui é que, em primeiro lugar, o poder computacional de cada fabricante é constante. Quanto mais rápido o modelo puder ser acelerado, mais dados ele pode comer e melhor o modelo produzido. Quando o poder computacional é constante, quanto mais rápido o modelo, melhor.
Você observou uma situação em que os dados atingiram o pico?
Ainda não, certo? Os dados ainda estão no estágio de escala contínua, mas pode não ser tão agressivo quanto em 23.
Como os dados estão sempre aumentando e novos dados saem todos os dias. Para o modelo, ele tem novos dados para processar todos os dias. Os dados produzidos pela Internet todos os dias são tantos. Através da limpeza, ainda podemos obter novos dados.
Em comparação com os dados que existem há tantos anos de desenvolvimento humano, a taxa de crescimento dos dados diminuiu?
Na verdade, não necessariamente. Veja os cinco mil anos da história da China, e apenas aqueles poucos livros foram acumulados. Mas com o desenvolvimento da Internet, o aumento no volume de dados é uma curva muito acentuada. Os dados gerais gerados antes da Internet podem não ser tantos quanto os dados gerados em um ano depois.
Durante o processo de ampliação, quais desafios a atenção relâmpago enfrentou?
Para verificar sua escalabilidade, primeiro fizemos experimentos de lei de escala, expandindo gradualmente de modelos pequenos para 7B, 9B e, finalmente, escalando para modelos com mais de 400B.
E provamos teoricamente que a capacidade do linear é maior do que a do transformer.
Definimos capacidade como o tamanho dos estados atuais do RNN. Para o transformer, o tamanho da capacidade é O(d), onde d é o tamanho; para a atenção linear, o tamanho da capacidade é d²/h. Como d é muito maior que h, a capacidade é maior.
No final, também verificamos que o modelo híbrido é melhor do que o transformer puro.
Como a janela de sequência de comprimento 4M é alcançada?
Para o relâmpago, o comprimento do treinamento pode ser arbitrário. Contanto que o poder computacional seja totalmente utilizado, a velocidade de treinamento de 8K, 32K ou 128K é a mesma, e o TGS (token por GPU por segundo) é o mesmo.
Como o transformer é complexidade computacional n², quanto mais longa a sequência, mais rápido a complexidade computacional cresce, e a latência aumenta em uma curva quadrática. No comprimento de 1M, a latência da atenção softmax é 2.700 vezes maior que a da atenção relâmpago.
Quais desafios técnicos ainda precisam ser resolvidos para alcançar uma janela de contexto infinita no futuro?
Em nossa atual arquitetura híbrida, ainda há 1/8 de atenção softmax. Este é um gargalo no comprimento de 1M. A latência trazida por este 1/8 é muito maior do que os 7/8 restantes da atenção linear.
Se quisermos otimizar textos longos, devemos considerar otimizar a parte de atenção softmax. Podemos aprender com os métodos de atenção esparsa para torná-lo mais rápido e leve.
Além disso, também estamos considerando tornar a proporção de mistura de softmax e atenção linear mais extrema, não mais 1/8, mas possivelmente 1/16 ou 1/32. A solução mais radical é colocar apenas uma camada de softmax em todo o modelo, mas para seguro, não a adotamos, considerando principalmente o impacto na capacidade de recuperação.
Por que a capacidade de recuperação é tão importante para o modelo?
A recuperação é a base do aprendizado no contexto e é uma condição necessária.
Você deve lembrar as informações no contexto para fazer o aprendizado no contexto, e o aprendizado no contexto é a base de todas as capacidades avançadas dos modelos grandes atuais, como CoT (Cadeia de Pensamento), especialmente CoT longo, que dependem da capacidade de recuperação.
Arquitetura Decisiva Nova
Você prestou atenção às últimas melhorias arquitetônicas em FFN e atenção na indústria?
A melhoria de FFN é Moe. Também prestei atenção ao Ultra Mem do Byte, mas acho que é uma coisa com perdas, uma compressão com perdas. Pode haver problemas se for ampliado no futuro, mas não ampliamos, então só posso dizer que pode haver problemas.
Porque FFN é basicamente isso. Nossas melhorias na área Moe nada mais são do que mudar do especialista grande anterior para o modo especialista pequeno atual, tornando-o mais esparso e, em seguida, fazendo alguma aceleração, o que requer mais pesquisa.
Se você quiser otimizá-lo ainda mais, como FFN é multiplicação de matrizes, a otimização só pode ser feita no nível CUDA pela Nvidia, fazendo algumas das otimizações de nível inferior da multiplicação de matrizes.
Você prestou atenção às melhorias na arquitetura de atenção na indústria?
As melhorias na atenção são basicamente lineares. Também estamos considerando se faremos um Linear mais forte no futuro e aceleraremos ainda mais a atenção Linear na base atual.
Existem muitas maneiras de melhorar, uma é mudar o decaimento e a outra é mudar alguns pequenos truques dentro. Você pode aguardar nosso novo artigo.
Nossa proporção atual de comprimento de contexto e custo de inferência é relativamente avançada?
Uma vez que envolve alongar o comprimento da sequência, temos uma vantagem de custo de poder computacional muito óbvia. Quanto mais longo, mais óbvia será a vantagem de custo, seja inferência ou treinamento.
Por exemplo, em 1M, o poder computacional consumido pela atenção linear é 1/2700 da atenção total. Em comparação, como ainda temos 1/8 de atenção total, é basicamente 1/8 da arquitetura transformer, porque a atenção linear basicamente não conta como uma despesa.
Se o custo de cálculo for tão baixo, ele pode atingir um gargalo de cálculo?
Agora é realmente um gargalo de acesso à memória. A decodificação é um gargalo de acesso à memória, não um gargalo de cálculo. Como o relâmpago é muito rápido, ele é rápido demais para permitir que o acesso à memória ocupe tão poucos recursos quanto o cálculo. Isso ocorre principalmente porque o comprimento da sequência em aplicações reais não é longo o suficiente.
Como torná-lo um gargalo de cálculo no futuro depende de como otimizar o acesso à memória. Essas serão coisas pelas quais o departamento de engenharia precisa ser responsável.
Se a arquitetura linear se tornar a arquitetura principal da próxima geração, quais melhorias de adaptação de hardware seriam mais adequadas para ela?
Uma coisa muito complicada aqui é que precisamos considerar o comprimento da sequência. Se o comprimento da sua sequência estiver focado em 8K ou 32K, a atenção representa apenas um pouco mais de dez por cento, e os oitenta por cento restantes são a parte FFN.
Mesmo se você otimizar a atenção ao extremo, para 0, você otimizou apenas um pouco mais de dez por cento da latência. Mas se você alongar o comprimento da sequência, a proporção de atenção se tornará cada vez maior. Isso é comparado à atenção total, mas para a atenção linear, sua proporção permanece inalterada.
Como FFN também é linear e a atenção linear também é linear, sua proporção é de cerca de 10%, o que é quase inalterado, mesmo no caso de 1M.
Mas se for atenção total, o cálculo da atenção pode representar 99% e o seguinte FFN representa apenas 1%. Portanto, a atenção linear só tem vantagens em textos longos.
Se a arquitetura linear se tornar a principal, então a busca pode ser por hardware de baixa energia, apenas reduzindo o consumo de energia. Incluindo chips de Rede Neural de Spiking (SNN) podem ser mais adequados, e algumas pessoas estão realmente fazendo isso.
Olhando para Frente na Estrada para AGI
Quais são suas expectativas para o efeito de código aberto do modelo?
A primeira é o efeito de publicidade. Pessoalmente, acho que, além de mostrar alguns músculos, o mais importante para o código aberto é ver como todos podem usá-lo no futuro. Acho que o código aberto de modelos pequenos pode ser o que estamos considerando mais fazer no futuro.
E como fazer alguma infraestrutura para que todos possam ajustar também pode precisar ser considerado. O código aberto é uma coisa de longo prazo para nós no futuro, e os modelos principais devem continuar a ser de código aberto.
É possível que uma arquitetura de sangue puro que não é híbrida seja executada no futuro?
Atualmente, não há método que possa fazer melhor do que híbrido, especialmente em termos de velocidade. Adicionando uma pequena parte da atenção softmax, a vantagem de velocidade é muito óbvia quando o comprimento da sequência não é particularmente longo, especialmente após o surgimento da atenção flash.
A pesquisa sobre a arquitetura de sangue puro ainda está em andamento, mas é muito difícil e não há mais frutas baixas. Temos algumas soluções técnicas, mas a implementação não é simples e, em última análise, depende de quanto tempo de sequência precisamos alcançar.
Outra questão é: existe uma forte demanda por textos ultra-longos? Embora modelos como Claude tenham atingido o contexto de 200K, os usuários parecem estar muito satisfeitos com o comprimento atual. Aplicações de agentes podem trazer demanda por sequências ultra-longas no futuro, mas ainda não há benchmark maduro.
Mas acho que este problema é como a Nvidia desenvolver placas gráficas de desempenho avançado para jogos futuros, mesmo que não sejam necessárias agora, é tecnologia para o futuro.
Por exemplo, pesquisas profundas exigem que o modelo leia o conteúdo de dezenas de sites, e o tempo de processamento é da ordem de dezenas de minutos, o que pode ser uma direção de aplicação para textos longos.
Qual você acha que pode ser a próxima grande novidade depois do CoT?
Temos pensado sobre isso. Em primeiro lugar, o modelo de raciocínio atual érelativamente popular, e o mainstream deste ano ainda será a parte de raciocínio. Depois disso, é difícil para nós pensarmos em mudanças particularmente grandes no futuro de modelos de linguagem pura.
Também conversei com outros professores, e o sentimento deles é que todos reduzirão novamente o custo do modelo, para que a velocidade de raciocínio se torne cada vez mais rápida, e seu preço se torne cada vez menor, e o custo seja reduzido, mantendo o efeito.
Como o teto está se aproximando rapidamente, a grande maioria dos casos está verificando e preenchendo lacunas nas capacidades de modelos grandes. Mas se houver descobertas tecnológicas ainda maiores, elas podem ser relativamente raras no curto prazo e ainda não as vimos.
Depois que a MiniMax explorou a atenção linear, qual pode ser a próxima direção a explorar?
A próxima coisa pode ser explorar a arquitetura de multimodal, especificamente se queremos fazer esta geração nativa e entender a arquitetura de modelo grande unificada.
Com AGI como ponto final, qual modelo com uma complexidade computacional de O(n²) ou O(n) seria uma resposta melhor?
Claro, é O(n). Da perspectiva do antropomorfismo, as pessoas devem ser complexidade O(n). Por exemplo, se a complexidade de uma pessoa é O(n²), então a velocidade com que falo com você se tornará cada vez mais lenta.
Porque para o transformer, sua complexidade de inferência é O(n²) complexidade computacional, ou seja, a latência de cuspir o primeiro token e cuspir o 100º token é diferente.
Nós, humanos, não podemos imaginar tal coisa, porque as pessoas nunca reiniciaram desde que nasceram e estão cuspindo coisas o tempo todo, então a complexidade computacional das pessoas é constante.
O homem é necessariamente a solução ideal para a inteligência?
Só podemos pensar assim no momento. Também existem algumas pessoas fazendo a rota da inteligência biônica, mas não prestamos muita atenção a essas direções.
Com AGI como o jogo final, quais áreas de melhoria do modelo são as coisas mais importantes?
Além da modelagem de linguagem, há também o problema dos métodos de aprendizado. Como você aprende e aprende com o ambiente, aprender com a interação com o ambiente é muito importante. Afinal, a compreensão multimodal atual ainda é muito carente de dados.
E mesmo o aprendizado de poucos disparos de máquinas está atualmente rotulado, mas o aprendizado humano não é rotulado. Portanto, como unificar tudo sob uma estrutura auto-construída também é um problema.