El avance implacable del desarrollo de la IA ha demostrado consistentemente que los modelos más grandes tienden a ser más inteligentes, pero sus demandas operativas también aumentan. Esto crea un desafío significativo, especialmente en regiones con acceso limitado a chips de IA avanzados. Sin embargo, independientemente de las limitaciones geográficas, existe una tendencia creciente entre los desarrolladores de modelos a adoptar arquitecturas de Mixture of Experts (MoE) junto con técnicas innovadoras de compresión. ¿El objetivo? Reducir drásticamente los recursos computacionales necesarios para implementar y ejecutar estos expansivos Large Language Models (LLMs). A medida que nos acercamos al tercer aniversario del auge de la IA generativa impulsado por ChatGPT, la industria finalmente está comenzando a considerar seriamente las implicaciones económicas de mantener estos modelos hambrientos de energía en funcionamiento.
Si bien los modelos MoE, como los de Mistral AI, han existido durante algún tiempo, su verdadero avance se ha producido en el último año. Hemos sido testigos de un aumento de nuevos LLM de código abierto de gigantes tecnológicos como Microsoft, Google, IBM, Meta, DeepSeek y Alibaba, todos aprovechando alguna forma de arquitectura MoE. El atractivo es sencillo: las arquitecturas MoE ofrecen una alternativa mucho más eficiente a las arquitecturas de modelos “densas” tradicionales.
Superando las limitaciones de memoria
La base de la arquitectura MoE se remonta a principios de la década de 1990, con la publicación de “Adaptive Mixtures of Local Experts”. La idea central gira en torno a la distribución de tareas a uno o más submodelos o “expertos” especializados, en lugar de depender de un único modelo masivo entrenado en un amplio espectro de datos.
En teoría, cada experto puede optimizarse meticulosamente para un dominio específico, desde la codificación y las matemáticas hasta la escritura creativa. Sin embargo, vale la pena señalar que la mayoría de los desarrolladores de modelos proporcionan detalles limitados sobre los expertos específicos dentro de sus modelos MoE, y el número de expertos varía de un modelo a otro. Crucialmente, solo una fracción del modelo general participa activamente en un momento dado.
Considere el modelo V3 de DeepSeek, que comprende 256 expertos enrutados junto con un experto compartido. Durante el procesamiento de tokens, solo se activan ocho expertos enrutados, más el compartido. Esta activación selectiva significa que los modelos MoE pueden no siempre lograr el mismo nivel de calidad que los modelos densos de tamaño similar. El modelo Qwen3-30B-A3B MoE de Alibaba, por ejemplo, tuvo un rendimiento consistentemente inferior al modelo denso Qwen3-32B en las pruebas de referencia de Alibaba.
Sin embargo, es esencial contextualizar esta ligera caída en la calidad frente a las importantes ganancias de eficiencia que ofrecen las arquitecturas MoE. La reducción de los parámetros activos da como resultado requisitos de ancho de banda de memoria que ya no son directamente proporcionales a la capacidad necesaria para almacenar los pesos del modelo. Esencialmente, si bien los modelos MoE aún pueden requerir una memoria sustancial, no necesariamente necesitan que sea la High Bandwidth Memory (HBM) más rápida y costosa.
Ilustremos esto con una comparación. Considere el modelo “denso” más grande de Meta, Llama 3.1 405B, y Llama 4 Maverick, un modelo comparable que emplea una arquitectura MoE con 17 mil millones de parámetros activos. Si bien numerosos factores, como el tamaño del lote, el rendimiento de punto flotante y el almacenamiento en caché de clave-valor, contribuyen al rendimiento en el mundo real, podemos aproximar los requisitos mínimos de ancho de banda multiplicando el tamaño del modelo en gigabytes a una precisión dada (1 byte por parámetro para modelos de 8 bits) por los tokens objetivo por segundo a un tamaño de lote de uno.
La ejecución de una versión cuantificada de 8 bits de Llama 3.1 405B requeriría más de 405 GB de vRAM y al menos 20 TB/s de ancho de banda de memoria para generar texto a 50 tokens por segundo. Los sistemas basados en HGX H100 de Nvidia, que hasta hace poco costaban 300.000 dólares o más, proporcionaban solo 640 GB de HBM3 y aproximadamente 26,8 TB/s de ancho de banda agregado. La ejecución del modelo completo de 16 bits habría requerido al menos dos de estos sistemas.
En contraste, Llama 4 Maverick, aunque consume la misma cantidad de memoria, requiere menos de 1 TB/s de ancho de banda para lograr un rendimiento comparable. Esto se debe a que solo 17 mil millones de parámetros de expertos del modelo participan activamente en la generación de la salida. Esto se traduce en un aumento de un orden de magnitud en la velocidad de generación de texto en el mismo hardware.
A la inversa, si el rendimiento puro no es una preocupación principal, muchos de estos modelos ahora se pueden ejecutar en memoria GDDR6, GDDR7 o incluso DDR más barata, aunque más lenta, como se ve en los últimos Xeons de Intel.
Los nuevos RTX Pro Servers de Nvidia, anunciados en Computex, están diseñados para este mismo escenario. En lugar de depender de HBM costosa y que consume mucha energía y que requiere un embalaje avanzado, cada una de las ocho GPU RTX Pro 6000 en estos sistemas está equipada con 96 GB de memoria GDDR7, el mismo tipo que se encuentra en las tarjetas de juego modernas.
Estos sistemas ofrecen hasta 768 GB de vRAM y 12,8 TB/s de ancho de banda agregado, más que suficiente para ejecutar Llama 4 Maverick a cientos de tokens por segundo. Si bien Nvidia no ha revelado los precios, la edición de estación de trabajo de estas tarjetas se vende al por menor a alrededor de $ 8,500, lo que sugiere que estos servidores podrían tener un precio inferior a la mitad del costo de un HGX H100 usado.
Sin embargo, MoE no significa el fin de las GPU apiladas HBM. Espere que Llama 4 Behemoth, suponiendo que alguna vez se envíe, requiera un bastidor lleno de GPU debido a su gran tamaño.
Si bien tiene aproximadamente la mitad de los parámetros activos que Llama 3.1 405B, cuenta con un total de 2 billones de parámetros. Actualmente, no existe un solo servidor de GPU convencional en el mercado que pueda acomodar el modelo completo de 16 bits y una ventana de contexto de un millón de tokens o más.
¿El renacimiento de la CPU en la IA?
Dependiendo de la aplicación específica, es posible que una GPU no siempre sea necesaria, particularmente en regiones donde el acceso a aceleradores de alta gama está restringido.
Intel mostró una plataforma Xeon 6 de doble socket equipada con MCRDIMM de 8800 MT/s en abril. Esta configuración logró un rendimiento de 240 tokens por segundo en Llama 4 Maverick, con una latencia de salida promedio de menos de 100 ms por token.
En términos más simples, la plataforma Xeon podría mantener 10 tokens por segundo o más por usuario para aproximadamente 24 usuarios simultáneos.
Intel no reveló las cifras de rendimiento de un solo usuario, ya que son menos relevantes en escenarios del mundo real. Sin embargo, las estimaciones sugieren un rendimiento máximo de alrededor de 100 tokens por segundo.
No obstante, a menos que no haya mejores alternativas o requisitos específicos, la economía de la inferencia basada en CPU sigue siendo muy dependiente del caso de uso.
Reducción de peso: poda y cuantificación
Las arquitecturas MoE pueden reducir el ancho de banda de memoria necesario para servir modelos grandes, pero no reducen la cantidad de memoria necesaria para almacenar sus pesos. Incluso con una precisión de 8 bits, Llama 4 Maverick requiere más de 400 GB de memoria para ejecutarse, independientemente del número de parámetros activos.
Las técnicas de poda emergentes y los métodos de cuantificación pueden reducir potencialmente a la mitad ese requisito sin sacrificar la calidad.
Nvidia ha sido un defensor de la poda, lanzando versiones podadas de los modelos Llama 3 de Meta a los que se les han eliminado los pesos redundantes.
Nvidia también fue una de las primeras compañías en admitir tipos de datos de punto flotante de 8 bits en 2022, y nuevamente con punto flotante de 4 bits con el lanzamiento de su arquitectura Blackwell en 2024. Se espera que los primeros chips de AMD que ofrezcan soporte nativo para FP4 se lancen pronto.
Si bien no es estrictamente esencial, la compatibilidad con hardware nativo para estos tipos de datos generalmente reduce la probabilidad de encontrar cuellos de botella computacionales, particularmente cuando se sirve a escala.
Hemos sido testigos de un número creciente de desarrolladores de modelos que adoptan tipos de datos de menor precisión, con Meta, Microsoft y Alibaba ofreciendo versiones cuantificadas de ocho bits e incluso cuatro bits de sus modelos.
La cuantificación implica comprimir los pesos del modelo desde su precisión nativa, típicamente BF16, a FP8 o INT4. Esto reduce efectivamente los requisitos de ancho de banda de memoria y capacidad de los modelos a la mitad o incluso a las tres cuartas partes, a costa de cierta calidad.
Las pérdidas asociadas con la transición de 16 bits a ocho bits a menudo son insignificantes, y varios constructores de modelos, incluido DeepSeek, han comenzado a entrenar con una precisión FP8 desde el principio. Sin embargo, reducir la precisión en otros cuatro bits puede resultar en una degradación significativa de la calidad. En consecuencia, muchos enfoques de cuantificación posterior al entrenamiento, como GGUF, no comprimen todos los pesos por igual, dejando algunos en niveles de precisión más altos para minimizar la pérdida de calidad.
Google demostró recientemente el uso del entrenamiento consciente de la cuantificación (QAT) para reducir sus modelos Gemma 3 en un factor de 4x mientras mantenía niveles de calidad cercanos a BF16 nativo.
QAT simula operaciones de baja precisión durante el entrenamiento. Al aplicar esta técnica durante aproximadamente 5,000 pasos en un modelo no calificado, Google pudo reducir la caída en la perplejidad, una métrica para medir las pérdidas relacionadas con la cuantificación, en un 54 por ciento cuando se convierte a INT4.
Otro enfoque de cuantificación basado en QAT, conocido como Bitnet, apunta a niveles de precisión aún más bajos, comprimiendo modelos a solo 1,58 bits, o aproximadamente una décima parte de su tamaño original.
La sinergia de las tecnologías
La combinación de MoE y la cuantificación de 4 bits ofrece ventajas significativas, particularmente cuando el ancho de banda es limitado.
Para otros que no están limitados por el ancho de banda, sin embargo, cualquiera de las dos tecnologías, ya sea MoE o la cuantificación, puede reducir sustancialmente el costo del equipo y la operación para ejecutar modelos más grandes y potentes; esto asumiendo que se puede encontrar un servicio valioso para que lo realicen.
Y si no, al menos puede consolarse de que no está solo: una encuesta reciente de IBM reveló que solo una de cada cuatro implementaciones de IA ha cumplido con el retorno de la inversión prometido.