Repensando Chips e Infraestructura AI Post-DeepSeek

La rápida innovación en la tecnología de IA, ejemplificada por los avances de DeepSeek, exige una reevaluación fundamental de cómo construimos los centros de datos, los chips y los sistemas para proporcionar la potencia computacional necesaria. Las innovaciones de ingeniería de DeepSeek han reducido significativamente los costos de la computación de IA, lo que ha provocado un debate más amplio sobre el futuro de la infraestructura de IA.

Si bien DeepSeek puede no haber ampliado drásticamente los límites de la tecnología de IA, su influencia en el mercado de la IA es profunda. Tecnologías como Mixture of Experts (MoE), Multi-Layer Attention (MLA) y Multi-Token Prediction (MTP) han ganado importancia junto con DeepSeek. Aunque no todas estas tecnologías fueron iniciadas por DeepSeek, su implementación exitosa ha impulsado una adopción generalizada. MLA, en particular, se ha convertido en un punto focal de discusión en varias plataformas, desde dispositivos de borde hasta la computación en la nube.

MLA y el Desafío de la Innovación Algorítmica

Elad Raz, CEO de NextSilicon, señaló recientemente que si bien MLA mejora la eficiencia de la memoria, también puede aumentar la carga de trabajo para los desarrolladores y complicar la aplicación de la IA en entornos de producción. Los usuarios de GPU podrían necesitar participar en la optimización de ‘código manual’ para MLA. Este ejemplo subraya la necesidad de repensar la implementación de chips de IA y arquitecturas de infraestructura en la era posterior a DeepSeek.

Para comprender la importancia de MLA, es esencial comprender los conceptos subyacentes de los Modelos de Lenguaje Grandes (LLM). Al generar respuestas a las entradas del usuario, los LLM dependen en gran medida de los vectores KV (claves y valores), que permiten que el modelo se centre en los datos relevantes. En los mecanismos de atención, el modelo compara las nuevas solicitudes con las claves para determinar el contenido más relevante.

Elad Raz utiliza una analogía de un libro, siendo la clave como ‘los títulos de los capítulos de un libro, que indican de qué trata cada parte, siendo el valor resúmenes más detallados debajo de esos títulos. Entonces, cuando un usuario ingresa la solicitud, solicita un término de búsqueda para ayudar a generar una respuesta. Está preguntando: ‘¿Bajo esta historia, qué capítulo es el más relevante?’’

MLA comprime estos títulos de capítulos (claves) y resúmenes (valores), acelerando el proceso de encontrar respuestas y aumentando la eficiencia. En última instancia, MLA ayuda a DeepSeek a reducir el uso de memoria en un 5-13%. Se puede encontrar información más detallada en el documento oficial de DeepSeek. La conferencia de desarrolladores de MediaTek incluso discutió el soporte para MLA en sus chips móviles Dimensity, lo que subraya la extensa influencia de DeepSeek.

Tecnologías como MLA representan innovaciones algorítmicas típicas en la era de la IA. Sin embargo, el rápido ritmo de desarrollo de la tecnología de IA conduce a un flujo constante de innovaciones, lo que a su vez crea nuevos desafíos, especialmente cuando estas innovaciones se adaptan a plataformas específicas. En el caso de MLA, los usuarios de GPU que no son de NVIDIA requieren codificación manual adicional para aprovechar la tecnología.

Si bien las tecnologías de DeepSeek demuestran la innovación y el valor de la era de la IA, el hardware y el software deben adaptarse a estas innovaciones. Según Elad Raz, dicha adaptación debe minimizar la complejidad para los desarrolladores y los entornos de producción. De lo contrario, el costo de cada innovación se vuelve prohibitivamente alto.

La pregunta entonces se convierte en: ‘¿Qué sucede si la próxima innovación algorítmica no se traduce bien y simplemente a las arquitecturas existentes?’

El Conflicto Entre el Diseño de Chips y la Innovación Algorítmica

En los últimos años, los fabricantes de chips de IA han informado constantemente que el diseño de chips de IA grandes lleva al menos 1-2 años. Esto significa que el diseño de chips debe comenzar mucho antes del lanzamiento al mercado de un chip. Dados los rápidos avances en la tecnología de IA, el diseño de chips de IA debe ser prospectivo. Centrarse únicamente en las necesidades actuales dará como resultado chips de IA obsoletos que no pueden adaptarse a las últimas innovaciones de aplicaciones.

La innovación de algoritmos de aplicaciones de IA ahora ocurre semanalmente. Como se mencionó en artículos anteriores, la potencia computacional requerida para que los modelos de IA logren las mismas capacidades disminuye de 4 a 10 veces al año. El costo de inferencia de los modelos de IA que logran una calidad similar a GPT-3 ha disminuido 1200 veces en los últimos tres años. Actualmente, los modelos con 2B parámetros pueden alcanzar el mismo nivel que el GPT-3 de 170B parámetros de antaño. Esta rápida innovación en las capas superiores de la pila de tecnología de IA presenta desafíos importantes para la planificación y el diseño tradicionales de la arquitectura de chips.

Elad Raz cree que la industria necesita reconocer las innovaciones como DeepSeek MLA como la norma para la tecnología de IA. ‘La computación de próxima generación necesita no solo optimizar para las cargas de trabajo actuales, sino también adaptarse a los avances futuros’. Esta perspectiva se aplica no solo a la industria de los chips, sino a toda la infraestructura de nivel medio a bajo de la pila de tecnología de IA.

‘DeepSeek y otras innovaciones han demostrado el rápido avance de la innovación algorítmica’, dijo Elad Raz. ‘Los investigadores y científicos de datos necesitan herramientas más versátiles y resilientes para impulsar nuevos conocimientos y descubrimientos. El mercado necesita plataformas de computación de hardware inteligentes y definidas por software que permitan a los clientes ‘reemplazar directamente’ las soluciones de aceleradores existentes, al tiempo que permiten a los desarrolladores portar su trabajo sin dolor’.

Para abordar esta situación, la industria debe diseñar una infraestructura de computación más inteligente, adaptable y flexible.

La flexibilidad y la eficiencia a menudo son objetivos contradictorios. Las CPU son muy flexibles, pero tienen una eficiencia de computación paralela significativamente menor que las GPU. Las GPU, con su programabilidad, pueden ser menos eficientes que los chips ASIC de IA dedicados.

Elad Raz señaló que NVIDIA espera que los racks de centros de datos de IA alcancen pronto los 600kW de consumo de energía. Para contextualizar, el 75% de los centros de datos empresariales estándar tienen un consumo máximo de energía de solo 15-20kW por rack. Independientemente de las posibles ganancias de eficiencia en la IA, esto plantea un desafío importante para los centros de datos que construyen sistemas de infraestructura de computación.

En opinión de Elad Raz, las GPU y los aceleradores de IA actuales pueden no ser suficientes para satisfacer las posibles demandas de la IA y la computación de alto rendimiento (HPC). ‘Si no repensamos fundamentalmente cómo mejorar la eficiencia de la computación, la industria corre el riesgo de alcanzar límites físicos y económicos. Este muro también tendrá efectos secundarios, limitando el acceso a la IA y la HPC para más organizaciones, obstaculizando la innovación incluso con los avances en algoritmos o las arquitecturas de GPU tradicionales’.

Recomendaciones y Requisitos para la Infraestructura de Computación de Próxima Generación

Basado en estas observaciones, Elad Raz propuso ‘cuatro pilares’ para definir la infraestructura de computación de próxima generación:

(1) Reemplazabilidad Plug-and-Play: ‘La historia ha demostrado que las transiciones de arquitectura complejas, como la migración de CPU a GPU, pueden tardar décadas en implementarse por completo. Por lo tanto, las arquitecturas de computación de próxima generación deben admitir una migración fluida’. Para la reemplazabilidad ‘plug-and-play’, Elad Raz sugiere que las nuevas arquitecturas de computación deben aprender de los ecosistemas x86 y Arm, logrando una adopción más amplia a través de la compatibilidad con versiones anteriores.

Los diseños modernos también deben evitar requerir que los desarrolladores reescriban grandes cantidades de código o creen dependencias de proveedores específicos. ‘Por ejemplo, el soporte para tecnologías emergentes como MLA debe estandarizarse, en lugar de requerir ajustes manuales adicionales como es el caso con las GPU que no son de NVIDIA. Los sistemas de próxima generación deben comprender y optimizar las nuevas cargas de trabajo de inmediato, sin requerir modificaciones manuales del código o ajustes significativos de la API’.

(2) Optimización del Rendimiento Adaptable en Tiempo Real: Elad Raz cree que la industria debería alejarse de los aceleradores de función fija. ‘La industria necesita construir sobre bases de hardware inteligentes y definidas por software que puedan autooptimizarse dinámicamente en tiempo de ejecución’.

‘Al aprender continuamente de las cargas de trabajo, los sistemas futuros pueden ajustarse en tiempo real, maximizando la utilización y el rendimiento sostenido, independientemente de la carga de trabajo específica de la aplicación. Esta adaptabilidad dinámica significa que la infraestructura puede proporcionar una eficiencia constante en escenarios del mundo real, ya sea que se trate de simulaciones de HPC, modelos complejos de IA u operaciones de bases de datos vectoriales’.

(3) Eficiencia Escalable: ‘Al desacoplar el hardware y el software y centrarse en la optimización inteligente en tiempo real, los sistemas futuros deberían lograr una mayor utilización y un menor consumo general de energía. Esto haría que la infraestructura sea más rentable y escalable para satisfacer las demandas cambiantes de las nuevas cargas de trabajo’.

(4) Diseño a Futuro: Este punto corresponde al requisito prospectivo para la infraestructura de IA, especialmente el diseño de chips. ‘Los algoritmos de vanguardia de hoy pueden estar obsoletos mañana’. ‘Ya sean redes neuronales de IA o modelos LLM basados en Transformer, la infraestructura de computación de próxima generación debe ser adaptable, garantizando que las inversiones en tecnología de las empresas sigan siendo resilientes durante los próximos años’.

Estas sugerencias ofrecen una perspectiva relativamente idealizada pero estimulante. Esta metodología guía debe considerarse para el desarrollo futuro de las tecnologías de IA y HPC, incluso si algunas contradicciones inherentes siguen siendo problemas de larga data en la industria. ‘Para liberar el potencial de la IA, HPC y otras cargas de trabajo futuras de computación y uso intensivo de datos, debemos repensar la infraestructura y adoptar soluciones dinámicas e inteligentes para apoyar la innovación y los pioneros’.