Apuesta de MiniMax por Atención Lineal

MiniMax: Un Pionero en un Camino Técnico No Convencional

¿Podría presentarse brevemente?

Soy Zhong Yiran, Director Senior de Investigación en MiniMax, donde principalmente superviso el diseño de arquitecturas de redes y grandes modelos de comprensión multimodal. En MiniMax, mi principal responsabilidad es liderar el diseño de la estructura de red MiniMax-01.

Anteriormente, fui IP para el Grupo de Exploración de Nuevas Arquitecturas en el Laboratorio de Inteligencia Artificial de Shanghái, enfocándome en métodos de modelado de entrenamiento eficientes para arquitecturas no transformadoras e investigación sobre fusión multimodal visual-audio-lenguaje.

¿Cuándo comenzó a investigar la atención lineal y por qué eligió esta ruta técnica?

Comencé a investigar la atención lineal alrededor de julio de 2021. Esto surgió de un artículo en el que trabajé para mi doctorado en 2020, ‘Invertible Attention’. En ese momento, tanto las redes neuronales invertibles como los mecanismos de atención eran bastante populares, así que los combinamos en nuestra investigación.

Más tarde, algunos miembros de nuestro equipo se interesaron mucho en las matemáticas. Los métodos de modelado de secuencias eficientes como la atención lineal requieren una sólida base matemática e involucran numerosas derivaciones de fórmulas, lo que se alineaba perfectamente con los intereses del equipo, así que elegimos esta dirección.

¿Cuál era el estado de la atención lineal en la industria en ese momento?

Era muy poco convencional, con pocas personas trabajando en ello. La mayoría de los investigadores estaban enfocados en los transformadores, que esencialmente se habían convertido en la fuerza dominante en el PNL.

Pensamos que en lugar de ser solo otra cara en la multitud haciendo investigación de transformadores, deberíamos hacer algo diferente.

¿Cómo evaluó el potencial técnico de la ruta de atención lineal?

Nuestra motivación inicial fue sencilla: abordar la complejidad computacional cuadrática de los transformadores. Probamos varios métodos, incluidos los transformadores dispersos y la atención lineal.

Descubrimos que los transformadores dispersos sí funcionaban, ofreciendo mayor velocidad y menor uso de memoria en comparación con los transformadores. Sin embargo, la atención lineal tuvo un rendimiento deficiente y también fue lenta. A pesar de esto, elegimos perseguir la atención lineal.

Una razón fue su atractivo matemático; creíamos que su rendimiento debería ser mejor. La otra fue que sentimos que el límite superior de la atención dispersa era la atención completa, lo que dificultaba superarla. La atención lineal, por otro lado, tenía el potencial de superarla.

¿Podría explicar qué es la atención lineal?

La atención lineal es esencialmente un truco de kernel. En los transformadores, multiplicar las matrices Q, K y V involucra diferentes complejidades computacionales dependiendo de si multiplica QK primero o KV primero, debido a las diferentes dimensiones.

Multiplicar KV primero puede reducir la complejidad computacional a lineal. Sin embargo, el problema es que la multiplicación QK es seguida por una operación softmax, que no satisface la propiedad conmutativa y no puede dividirse fácilmente en multiplicar KV primero. Por lo tanto, el primer paso en la atención lineal es eliminar el softmax.

Pero eliminar el softmax afecta los resultados. La tarea posterior es mantener la consistencia en los resultados sin softmax, que es lo que la atención lineal pretende lograr.

¿Cuáles son las diferencias fundamentales entre la atención lineal, la atención dispersa y las arquitecturas RNN lineales?

La atención dispersa sigue siendo esencialmente una atención softmax. Simplemente calcula menos puntos que una matriz de atención densa. Por ejemplo, la atención de ventana deslizante solo calcula el puntaje de atención dentro de una ventana, logrando la aceleración al reducir la cantidad de computación.

Las RNN lineales y la atención lineal son esencialmente lo mismo, solo que algunos las llaman RNN y otros atención.

Todo se puede escribir en forma de RNN. Por ejemplo, la atención relámpago corresponde a RWKV-4, mientras que RWKV-7 es una versión mejorada de la red delta cerrada. Aunque son similares en esencia, sus detalles de implementación difieren.

¿Cuáles son los hitos clave en la investigación de los mecanismos de atención lineal?

Alrededor de 2018-19, la investigación mostró que la complejidad computacional teórica de la atención softmax del transformador podría reducirse utilizando trucos de kernel, pero los resultados fueron deficientes y la eficiencia fue baja.

En 2019-20, la atención dispersa fue dominante, con compañías como Google proponiendo muchas variantes de atención dispersa. Más tarde, la atención lineal comenzó a emerger, pero enfrentó el desafío del bajo rendimiento y la baja velocidad.

Los investigadores adoptaron principalmente dos enfoques para la mejora: uno fue aproximar la función softmax, haciendo que la distribución se ajuste a softmax; el otro, que elegimos, fue modelar usando métodos completamente diferentes, sin preocuparnos por aproximar softmax.

Publicamos nuestro primer artículo, ‘COSFORMER: RETHINKING SOFTMAX IN ATTENTION’, en octubre de 2021, que reemplazó la operación softmax con una función coseno, permitiendo que el cálculo se dividiera.

En la primera mitad de 2022, publicamos un segundo artículo, ‘The Devil in Linear Transformer’, que analizó las razones de la degradación del rendimiento de la atención lineal y proporcionó soluciones. Este fue el precursor de la atención relámpago.

Más tarde, también investigamos codificaciones de posición específicamente para la atención lineal y las convoluciones largas, publicando TNN, ‘TOEPLITZ NEURAL NETWORK FOR SEQUENCE MODELING’, un método similar a S4 (el predecesor de Mamba).

Finalmente, lanzamos la atención relámpago, que igualó el rendimiento de los transformadores a través de métodos de decaimiento mejorados y estructuras de red. También utilizamos una técnica de mosaico para hacerlo más rápido.

¿Cuáles son sus pensamientos sobre las rutas técnicas de arquitectura no transformadora actuales?

La atención lineal es en realidad un método no transformador. Actualmente, además de los enfoques tipo RNN, otras arquitecturas no transformadoras están disminuyendo.

Por ejemplo, las CNN como las convoluciones largas y las convoluciones de kernel grandes, se sienten como si hubieran sido eliminadas gradualmente debido al bajo rendimiento, pero en realidad son bastante fuertes en ciertos aspectos, todavía teniendo algún efecto en el modelado de secuencias, como las tareas de detección de anomalías.

En realidad, solo hay tres arquitecturas no transformadoras: atención lineal, convoluciones largas y RNN lineales.

Pero en realidad, estos tres pueden unificarse en uno, que llamamos el modelo de complejidad lineal. Escribimos un artículo que abarca los tres.

¿Cuáles son las diferencias centrales entre la atención relámpago y Mamba y RWKV?

La diferencia más central es que la atención relámpago es la atención lineal más simple. Mamba y RWKV usan decaimiento dependiente de los datos, mientras que la atención relámpago usa decaimiento artesanal para la velocidad.

Aunque el decaimiento aprendible puede lograr mejores resultados, sacrifica la velocidad. Por ejemplo, RWKV-7 es entre un 10 y un 15 % más lento que la red delta de cierre, mientras que la red delta de cierre es aproximadamente la mitad de la velocidad de la atención relámpago.

El efecto de modelado de RWKV es, de hecho, mejor que la atención relámpago, pero es más lento y aún no ha resuelto el problema de la recuperación.

¿Es ahora un consenso de la industria que la atención lineal tiene un límite superior alto y factible?

No, si fuera consenso, todos estarían escalando modelos de atención lineal. Y tampoco es consenso ahora. Si lo fuera, todos estarían haciendo lineal, pero como puede ver, ese no es el caso.

Pero para nosotros, ya vimos esto en la segunda mitad de 2023. En ese momento, pregunté a muchas personas y hablé con muchos, y el punto más común que plantearon fue que sabían que la atención lineal funcionaba a pequeña escala, pero sintieron que fallaría una vez que se escalara.

En ese momento, pensé que lo escalaría para que todos lo vieran. Ahora que MiniMax-01 está fuera, nadie duda de la capacidad de la atención lineal a gran escala.

De Pequeños Experimentos a la Implementación a Gran Escala

¿Cree que el límite superior de la atención lineal puede superar la atención completa?

Ahora podemos ver que las arquitecturas híbridas son mejores que los transformadores puros. Pero el mayor problema con la atención lineal pura es la capacidad de recuperación, que es un problema difícil de resolver para la academia.

Los métodos existentes, aunque complejos y lentos, aún no pueden resolverlo por completo, por lo que es necesario avanzar hacia arquitecturas híbridas.

¿Qué nodo observó que le hizo decidir salir del laboratorio?

En mayo-junio de 2023, ya teníamos internamente la atención relámpago 2, que fue la primera implementación de atención lineal del mundo que fue más rápida que la atención Flash.

Creemos que ha cruzado la línea roja industrial, y su madurez tecnológica es muy alta y se puede escalar.

¿Cómo define esta línea roja industrial?

Primero, el efecto es mejor que el transformador, y segundo, es más rápido que el transformador. Esto le da la capacidad de reemplazar al transformador. Verificamos esto en un modelo denso a escala de 15B en ese momento.

En el nodo cuando salió del laboratorio, ¿por qué finalmente se unió a MiniMax?

En realidad, había hablado con algunas grandes empresas en ese momento. Pero al final, todavía hice que esto sucediera con MiniMax.

En primer lugar, cosformer es un artículo en el que colaboré con Junjie. Tenemos una base para la cooperación. Junjie fue mi jefe cuando estuvo en SenseTime. A finales de 23, Junjie me invitó a cenar. Tiene más confianza en las posibilidades de estas tecnologías de vanguardia. Entiendo que también estaba buscando un avance técnico en ese momento.

En ese momento, MiniMax había completado la investigación sobre Moe, y en realidad había muy pocos puntos de avance técnico para el siguiente paso. En ese momento, se había lanzado la atención relámpago y Mamba también era popular, por lo que, en su opinión, era una dirección factible.

¿Está esto relacionado con el producto de compañero interactivo de MiniMax?

No hay conexión. Yan Junjie está más preocupado por el límite superior del modelo y cómo romper aún más este techo.

La atención lineal puede ser más una dirección para romper la eficiencia a los ojos del público, en lugar de romper el techo.

El punto aquí es que, en primer lugar, la potencia informática de cada fabricante es constante. Cuanto más rápido se pueda acelerar el modelo, más datos podrá comer y mejor será el modelo producido. Cuando la potencia informática es constante, cuanto más rápido es el modelo, mejor.

¿Ha observado una situación en la que los datos han alcanzado su punto máximo?

Todavía no, ¿verdad? Los datos todavía están en la etapa de escalamiento continuo, pero puede que no sea tan agresivo como en 23.

Porque los datos siempre están aumentando y todos los días salen nuevos datos. Para el modelo, tiene nuevos datos para procesar todos los días. Los datos producidos por Internet todos los días son tantos. A través de la limpieza, todavía podemos obtener nuevos datos.

En comparación con los datos que han existido durante tantos años de desarrollo humano, ¿se ha ralentizado la tasa de crecimiento de los datos?

En realidad, no necesariamente. Mira los cinco mil años de la historia de China, y solo se han acumulado esos pocos libros. Pero con el desarrollo de Internet, el aumento en el volumen de datos es una curva muy pronunciada. Los datos generales generados antes de Internet pueden no ser tantos como los datos generados en un año después.

Durante el proceso de escalamiento, ¿a qué desafíos se enfrentó la atención relámpago?

Para verificar su escalabilidad, primero hicimos experimentos de ley de escalamiento, expandiéndonos gradualmente desde modelos pequeños hasta 7B, 9B y finalmente escalando a modelos con más de 400B.

Y demostramos teóricamente que la capacidad de lineal es mayor que la del transformador.

Definimos la capacidad como el tamaño de los estados actuales de la RNN. Para el transformador, el tamaño de la capacidad es O(d), donde d es el tamaño; para la atención lineal, el tamaño de la capacidad es d²/h. Dado que d es mucho mayor que h, la capacidad es mayor.

Al final, también verificamos que el modelo híbrido es mejor que el transformador puro.

¿Cómo se logra la ventana de secuencia de longitud de 4M?

Para el rayo, la longitud del entrenamiento puede ser arbitraria. Siempre que la potencia informática se utilice por completo, la velocidad de entrenamiento de 8K, 32K o 128K es la misma, y el TGS (token por GPU por segundo) es el mismo.

Debido a que el transformador es una complejidad computacional n², cuanto más larga es la secuencia, más rápido crece la complejidad computacional y la latencia aumenta en una curva cuadrática. A 1M de longitud, la latencia de la atención softmax es 2700 veces mayor que la de la atención rayo.

¿Qué desafíos técnicos aún deben abordarse para lograr una ventana de contexto infinita en el futuro?

En nuestra arquitectura híbrida actual, todavía hay 1/8 de atención softmax. Este es un cuello de botella a 1M de longitud. La latencia provocada por este 1/8 es mucho mayor que el 7/8 restante de atención lineal.

Si queremos optimizar el texto largo, debemos considerar la optimización de la parte de atención softmax. Podemos aprender de los métodos de atención dispersa para hacerlo más rápido y ligero.

Además, también estamos considerando hacer que la relación de mezcla de softmax y atención lineal sea más extrema, ya no 1/8, sino posiblemente 1/16 o 1/32. La solución más radical es poner solo una capa de softmax en todo el modelo, pero por seguridad, no la adoptamos, considerando principalmente el impacto en la capacidad de recuperación.

¿Por qué es tan importante la capacidad de recuperación para el modelo?

La recuperación es la base del aprendizaje en contexto y es una condición necesaria.

Debe recordar la información en el contexto para hacer el aprendizaje en contexto, y el aprendizaje en contexto es la base de todas las capacidades avanzadas de los modelos grandes actuales, como CoT (Chain of Thought), especialmente CoT largo, que se basan en la capacidad de recuperación.

Nueva Arquitectura Decisiva

¿Ha prestado atención a las últimas mejoras arquitectónicas en FFN y atención en la industria?

La mejora de FFN es Moe. También presté atención a Ultra Mem de Byte, pero creo que es algo con pérdida, una compresión con pérdida. Puede haber problemas si se escala en el futuro, pero no hemos escalado, por lo que solo puedo decir que puede haber problemas.

Porque FFN es básicamente esto. Nuestras mejoras en el área de Moe no son más que cambiar del experto grande anterior al modo de experto pequeño actual, haciéndolo más disperso, y luego haciendo algo de aceleración, lo que requiere más investigación.

Si desea optimizarlo aún más, dado que FFN es una multiplicación de matrices, la optimización solo se puede hacer en el nivel de CUDA por Nvidia, haciendo algunas de las optimizaciones de nivel inferior de la multiplicación de matrices.

¿Ha prestado atención a las mejoras en la arquitectura de atención en la industria?

Las mejoras en la atención son básicamente lineales. También estamos considerando si hacer un Lineal más fuerte en el futuro y acelerar aún más la atención Lineal sobre la base actual.

Hay muchas maneras de mejorar, una es cambiar el decaimiento y la otra es cambiar algunos pequeños trucos internos. Puede esperar nuestro nuevo artículo.

¿Es nuestra relación actual de longitud de contexto y costo de inferencia relativamente avanzada?

Una vez que se trata de alargar la longitud de la secuencia, tenemos una ventaja de costo de potencia informática muy obvia. Cuanto más largo sea, más obvia será la ventaja de costo, ya sea inferencia o entrenamiento.

Por ejemplo, en 1M, la potencia informática consumida por la atención lineal es 1/2700 de la atención completa. En comparación, debido a que todavía tenemos 1/8 de atención completa, es básicamente 1/8 de la arquitectura del transformador, porque la atención lineal básicamente no cuenta como un gasto.

Si el costo de cálculo es tan bajo, ¿puede lograr un cuello de botella de cálculo?

Ahora de hecho es un cuello de botella de acceso a la memoria. La decodificación es un cuello de botella de acceso a la memoria, no un cuello de botella de cálculo. Debido a que el rayo es muy rápido, es demasiado rápido para permitir que el acceso a la memoria ocupe tantos recursos como el cálculo. Esto se debe principalmente a que la longitud de la secuencia en las aplicaciones reales no es lo suficientemente larga.

Cómo hacer que sea un cuello de botella de cálculo en el futuro depende de cómo optimizar el acceso a la memoria. Estas serán cosas de las que el departamento de ingeniería debe ser responsable.

Si la arquitectura lineal se convierte en la arquitectura principal de la próxima generación, ¿qué mejoras de adaptación de hardware serían más adecuadas para ella?

Una cosa muy complicada aquí es que debemos considerar la longitud de la secuencia. Si su longitud de secuencia se centra en 8K o 32K, entonces la atención solo representa un poco más del diez por ciento, y el ochenta por ciento restante es la parte FFN.

Incluso si optimiza la atención al extremo, a 0, solo ha optimizado un poco más del diez por ciento de la latencia. Pero si alarga la longitud de la secuencia, la proporción de atención se hará cada vez más grande. Esto se compara con la atención completa, pero para la atención lineal, su proporción no cambia.

Debido a que FFN también es lineal y la atención lineal también es lineal, su proporción es de aproximadamente el 10%, que casi no cambia, incluso en el caso de 1M.

Pero si es atención completa, el cálculo de atención puede representar el 99% y el siguiente FFN solo representa el 1%. Entonces, la atención lineal solo tiene ventajas en textos largos.

Si la arquitectura lineal se convierte en la principal, entonces la búsqueda puede ser hardware de baja energía, solo reduciendo el consumo de energía. Incluidos los chips Spiking Neural Network (SNN) pueden ser más adecuados, y algunas personas realmente lo están haciendo.

Mirando Hacia el Camino a la AGI

¿Cuáles son sus expectativas para el efecto de código abierto del modelo?

La primera es el efecto de publicidad. Personalmente creo que, además de mostrar algunos músculos, lo más importante del código abierto es ver cómo todos pueden usarlo en el futuro. Creo que el código abierto de modelos pequeños puede ser lo que más estamos considerando hacer en el futuro.

Y cómo hacer alguna infraestructura para que todos puedan afinar también puede necesitar ser considerado. El código abierto es algo a largo plazo para nosotros en el futuro, y los modelos insignia deben seguir siendo de código abierto.

¿Es posible que una arquitectura de sangre pura que no sea híbrida se agote en el futuro?

Actualmente, no hay ningún método que pueda hacerlo mejor que el híbrido, especialmente en términos de velocidad. Agregar una pequeña porción de atención softmax, la ventaja de velocidad es muy obvia cuando la longitud de la secuencia no es particularmente larga, especialmente después de la aparición de la atención flash.

La investigación sobre la arquitectura de sangre pura todavía está en curso, pero es muy difícil, y no hay más frutos bajos. Tenemos algunas soluciones técnicas, pero la implementación no es simple y, en última instancia, depende de cuánto tiempo necesitemos lograr una longitud de secuencia.

Otra pregunta es, ¿existe una gran demanda de textos ultra largos? Aunque modelos como Claude han alcanzado un contexto de 200K, los usuarios parecen estar muy satisfechos con la longitud actual. Las aplicaciones de agentes pueden traer demanda de secuencias ultra largas en el futuro, pero todavía no hay un punto de referencia maduro.

Pero creo que este problema es como Nvidia desarrollando tarjetas gráficas de rendimiento avanzado para futuros juegos, aunque no sean necesarias ahora, es tecnología para el futuro.

Por ejemplo, la investigación profunda requiere que el modelo lea el contenido de docenas de sitios web, y el tiempo de procesamiento es del orden de decenas de minutos, lo que puede ser una dirección de aplicación para textos largos.

¿Cuál cree que podría ser la próxima gran cosa después de CoT?

Hemos pensado en esto. En primer lugar, el modelo de razonamiento actual es relativamente popular, y la corriente principal de este año seguirá siendo la parte de razonamiento. Después de eso, es difícil para nosotros pensar en algún cambio particularmente grande en el futuro de los modelos de lenguaje puro.

También he hablado con otros profesores, y su sentimiento es que todos volverán a reducir el costo del modelo, para que la velocidad de razonamiento se vuelva cada vez más rápida, y su precio se vuelva cada vez más bajo, y el costo se reduzca manteniendo el efecto.

Debido a que el techo se acerca rápidamente, la gran mayoría de los casos están verificando y llenando los vacíos en las capacidades de los modelos grandes. Pero si hay avances tecnológicos aún mayores, pueden ser relativamente raros en el corto plazo, y aún no los hemos visto.

Después de que MiniMax exploró la atención lineal, ¿cuál podría ser la próxima dirección para explorar?

Lo siguiente puede ser explorar la arquitectura de multimodal, específicamente si queremos hacer esta generación nativa y comprender la arquitectura unificada de modelos grandes.

Con AGI como punto final, ¿qué modelo con una complejidad computacional de O(n²) o O(n) sería una mejor respuesta?

Por supuesto, es O(n). Desde la perspectiva del antropomorfismo, las personas deben ser una complejidad O(n). Por ejemplo, si la complejidad de una persona es O(n²), entonces la velocidad a la que te hablo se volverá cada vez más lenta.

Debido a que para el transformador, su complejidad de inferencia es una complejidad computacional O(n²), es decir, la latencia de escupir el primer token y escupir el token número 100 es diferente.

Los humanos no podemos imaginar tal cosa, porque las personas nunca se han reiniciado desde que nacieron, y han estado escupiendo cosas todo el tiempo, por lo que la complejidad computacional de las personas es constante.

¿Es el hombre necesariamente la solución óptima para la inteligencia?

Solo podemos pensar así por el momento. También hay algunas personas que siguen la ruta de la inteligencia biónica, pero no hemos prestado demasiada atención a esas direcciones.

Con AGI como juego final, ¿qué áreas de mejora del modelo son las cosas más importantes?

Además del modelado del lenguaje, también está el problema de los métodos de aprendizaje. Cómo aprende y aprende del entorno, aprender de la interacción con el entorno es muy importante. Después de todo, la comprensión multimodal actual todavía carece mucho de datos.

E incluso el aprendizaje con pocos disparos de las máquinas está actualmente etiquetado, pero el aprendizaje humano no está etiquetado. Entonces, cómo unificar todo bajo un marco autoconstruido también es un problema.