Huawei Technologies, una empresa que enfrenta importantes obstáculos tecnológicos debido a las sanciones estadounidenses, ha logrado, según los informes, un avance en el entrenamiento de modelos de inteligencia artificial (IA). Los investigadores que trabajan en el modelo de lenguaje grande (LLM) de Huawei, Pangu, afirman haber desarrollado un enfoque mejorado que supera la metodología original de DeepSeek. Este método innovador aprovecha el hardware propietario de Huawei, lo que reduce la dependencia de la empresa de las tecnologías estadounidenses, un objetivo crucial en el panorama geopolítico actual.
El surgimiento de Mixture of Grouped Experts (MoGE)
La piedra angular del avance de Huawei radica en el concepto de Mixture of Grouped Experts (MoGE). Esta novedosa técnica, detallada en un artículo publicado por el equipo Pangu de Huawei, se presenta como una versión mejorada de la técnica Mixture of Experts (MoE). MoE ha demostrado ser fundamental en la creación de modelos de IA rentables, como lo demuestra el éxito de DeepSeek.
MoE ofrece ventajas para los parámetros de modelos grandes, lo que lleva a una mayor capacidad de aprendizaje. Sin embargo, los investigadores de Huawei identificaron ineficiencias derivadas de la activación desigual de los "expertos", componentes cruciales en el entrenamiento de la IA, que pueden dificultar el rendimiento al ejecutar tareas en varios dispositivos simultáneamente. El MoGE de Huawei aborda estratégicamente estos desafíos.
Abordar las ineficiencias en los modelos MoE tradicionales
El sistema MoGE está intrincadamente diseñado para optimizar la distribución de la carga de trabajo. La idea central es "agrupar" a los expertos durante el proceso de selección, lo que lleva a una distribución más equilibrada de la carga de trabajo. Al distribuir de manera más equitativa la carga computacional, los investigadores informaron una mejora notable en el rendimiento de los entornos de computación paralela, un aspecto clave del entrenamiento moderno de la IA.
El concepto de "expertos" en el entrenamiento de la IA se refiere a submodelos o componentes especializados dentro de un modelo más grande y completo. Cada experto está meticulosamente diseñado para manejar tareas o tipos de datos muy específicos. Este enfoque aprovecha la variada experiencia especializada, lo que permite que el sistema de IA general mejore significativamente su rendimiento general.
Implicaciones para el avance de la IA en China
Este avance es particularmente oportuno. Las empresas chinas de IA, a pesar de enfrentar restricciones estadounidenses a la importación de chips de IA avanzados como los de Nvidia, están buscando agresivamente métodos para impulsar la eficiencia del entrenamiento e inferencia de modelos. Estos métodos incluyen no solo mejoras algorítmicas, sino también la integración sinérgica de hardware y software.
Los investigadores de Huawei probaron rigurosamente la arquitectura MoGE en su unidad de procesamiento neuronal (NPU) Ascend, diseñada específicamente para acelerar las tareas de IA. Los resultados indicaron que MoGE logró un equilibrio de carga experto superior y una ejecución más eficiente, tanto para las fases de entrenamiento como de inferencia del modelo. Esta es una validación significativa de los beneficios de optimizar la pila de hardware y software simultáneamente.
Comparación de Pangu con los principales modelos de IA
El modelo Pangu de Huawei, fortalecido por la arquitectura MoGE y las NPU Ascend, se comparó con los principales modelos de IA. Estos incluyeron DeepSeek-V3, Qwen2.5-72B de Alibaba Group Holding y Llama-405B de Meta Platforms. Los resultados de la evaluación comparativa mostraron que Pangu logró un rendimiento de vanguardia en una variedad de evaluaciones comparativas generales en inglés, y sobresalió en todas las evaluaciones comparativas chinas. Pangu también mostró una mayor eficiencia en el procesamiento del entrenamiento de contexto largo, un área de importancia crítica para las tareas sofisticadas de procesamiento del lenguaje natural.
Además, el modelo Pangu demostró capacidades excepcionales en tareas generales de comprensión del lenguaje, con fortalezas particulares en las tareas de razonamiento. Esta capacidad para comprender los matices y extraer significado del lenguaje complejo demuestra los avances que Huawei ha logrado en la IA.
Significación estratégica de Huawei
El progreso de Huawei en la arquitectura de modelos de IA tiene una importancia estratégica. Dadas las sanciones en curso, la empresa con sede en Shenzhen está buscando estratégicamente disminuir su dependencia de las tecnologías estadounidenses. Los chips Ascend desarrollados por Huawei se consideran alternativas nacionales viables a los procesadores de Nvidia y son un componente clave de esta independencia.
Pangu Ultra, un modelo de lenguaje grande con 135 mil millones de parámetros optimizados para NPU, enfatiza la efectividad de la optimización arquitectónica y sistémica de Huawei al tiempo que muestra las capacidades de sus NPU. Demostrar la efectividad de su integración de hardware y software es una parte importante de la exhibición de las capacidades de IA de Huawei.
Proceso de entrenamiento detallado
Según Huawei, el proceso de entrenamiento se divide en tres etapas principales: pre-entrenamiento, extensión de contexto largo y post-entrenamiento. El pre-entrenamiento implica inicialmente entrenar el modelo con un conjunto de datos masivo de 13.2 billones de tokens. La extensión de contexto largo luego expande la capacidad del modelo para manejar textos más largos y complejos y se basa en el reconocimiento inicial de datos. Esta fase utiliza un procesamiento distribuido a gran escala en 8.192 chips Ascend.
Huawei reveló que el modelo y el sistema pronto estarán disponibles para su clientela comercial, lo que abrirá nuevas oportunidades para la integración y el desarrollo con sus socios.
Inmersión profunda en Mixture of Experts (MoE) y sus limitaciones
Para apreciar completamente la importancia del MoGE de Huawei, es crucial comprender los cimientos sobre los que se construye: la arquitectura Mixture of Experts (MoE). MoE representa un cambio de paradigma en cómo se diseñan y entrenan los modelos de IA grandes, ofreciendo una vía para escalar el tamaño y la complejidad del modelo sin un aumento proporcional en el costo computacional.
En una red neuronal tradicional, cada entrada es procesada por cada neurona en cada capa. Si bien este enfoque puede producir una alta precisión, se vuelve computacionalmente prohibitivo para modelos muy grandes. MoE, en contraste, introduce el concepto de "expertos": redes neuronales más pequeñas y especializadas que se enfocan en subconjuntos específicos de los datos de entrada.
Una red de "puerta" enruta dinámicamente cada entrada a los expertos más relevantes. Esta activación selectiva permite un cálculo disperso, lo que significa que solo una fracción de los parámetros del modelo participan para cualquier entrada dada. Esta dispersión reduce drásticamente el costo computacional de la inferencia (usar el modelo para la predicción) y el entrenamiento. Además, dado que diferentes expertos pueden actuar sobre diferentes partes de los datos de entrada, permite una mayor especialización en el modelo.
A pesar de las ventajas de MoE, se deben abordar varias limitaciones para desbloquear todo su potencial. La activación desigual de los expertos es una preocupación primordial. En muchas implementaciones de MoE, algunos expertos se utilizan en gran medida, mientras que otros permanecen relativamente inactivos. Este desequilibrio surge de las características inherentes de los datos y el diseño de la red de puerta.
Este desequilibrio puede conducir a ineficiencias en los entornos de computación paralela. Dado que la carga de trabajo no se distribuye uniformemente entre los expertos, algunas unidades de procesamiento se dejan subutilizadas mientras que otras se ven abrumadas. Esta disparidad dificulta la escalabilidad de MoE y reduce su rendimiento general. Además, este desequilibrio a menudo surge de sesgos en los datos de entrenamiento, lo que lleva a una subrepresentación y subentrenamiento de los expertos menos activos. Esto resulta en un modelo subóptimo a largo plazo.
Otro problema común al manejar MoE incluye la complejidad añadida al diseñar la red de puerta. La red de puerta requiere técnicas sofisticadas para garantizar que los expertos se seleccionen adecuadamente, de lo contrario, el MoE podría no funcionar según las expectativas y causar sobrecarga innecesaria.
Grouped Experts (MoGE): Abordar los desafíos de MoE
La arquitectura Mixture of Grouped Experts (MoGE) de Huawei ofrece una alternativa refinada a MoE tradicional al centrarse en el equilibrio de carga y la ejecución paralela eficiente. El método implica agrupar a los expertos estratégicamente, lo que altera el proceso de enrutamiento de los datos de entrada, lo que lleva a una distribución de la carga de trabajo más uniforme.
Al agrupar a los expertos durante la selección, MoGE se asegura de que cada grupo de expertos reciba una carga de trabajo más equilibrada. En lugar de enrutar cada entrada de forma independiente, la red de puerta ahora dirige grupos de entradas a grupos de expertos. Este enfoque promueve una distribución más equitativa de la carga computacional.
El mecanismo de agrupación también ayuda a mitigar los efectos de los sesgos de datos. Al garantizar que todos los expertos dentro de un grupo estén capacitados en un conjunto diverso de entradas, MoGE reduce el riesgo de subrepresentación y subentrenamiento. Además, la agrupación de expertos permite una mejor utilización de los recursos. Dado que cada grupo maneja una carga de trabajo más consistente, se vuelve más fácil asignar recursos computacionales de manera eficiente, lo que lleva a un mejor rendimiento general.
El resultado final es un mejor equilibrio de carga experto y una ejecución más eficiente tanto para el entrenamiento como inferencia del modelo. Esto se traduce en tiempos de entrenamiento más rápidos, menores costos computacionales y un rendimiento general mejorado.
La NPU Ascend: Aceleración de hardware para IA
La NPU (unidad de procesamiento neuronal) Ascend juega un papel clave en la estrategia de IA de Huawei. Estos procesadores están diseñados específicamente para acelerar las tareas de IA, incluido el entrenamiento e inferencia de modelos. Ofrecen una variedad de características optimizadas para cargas de trabajo de aprendizaje profundo, como un alto ancho de banda de memoria, unidades de procesamiento especializadas para la multiplicación de matrices e interfaces de comunicación de baja latencia. Además, las NPU Ascend de Huawei admiten una variedad de tipos de datos y niveles de precisión, lo que permite un control granular sobre el rendimiento y la precisión.
La combinación sinérgica de MoGE y Ascend NPU crea una plataforma poderosa para la innovación en IA. MoGE optimiza el lado del software al mejorar el equilibrio de carga y la ejecución paralela, mientras que Ascend NPU proporciona la aceleración de hardware necesaria para realizar estos beneficios. Este enfoque integrado permite a Huawei superar los límites del rendimiento y la eficiencia de la IA.
La NPU Ascend se caracteriza por una alta densidad de computación y eficiencia energética. Estas características son fundamentales para implementar modelos de IA en una variedad de entornos, desde potentes servidores en la nube hasta dispositivos periféricos con presupuestos de energía limitados.
Evaluaciones comparativas y métricas de rendimiento
Los resultados de la evaluación comparativa de Huawei demuestran la efectividad de la arquitectura MoGE y la NPU Ascend. Al comparar Pangu con los principales modelos de IA como DeepSeek-V3, Qwen2.5-72B y Llama-405B, Huawei demostró que su tecnología logra un rendimiento de vanguardia en una variedad de tareas.
El éxito de Pangu en las evaluaciones comparativas generales en inglés y chino destaca su versatilidad y adaptabilidad. El dominio del modelo en el entrenamiento de contexto largo es particularmente notable, ya que refleja las capacidades en el manejo de datos del mundo real. Además, el sólido rendimiento de Pangu en las tareas de razonamiento subraya su capacidad para comprender y procesar relaciones complejas.
Estas evaluaciones comparativas no son meros ejercicios académicos, ofrecen evidencia tangible de los avances tecnológicos realizados por Huawei. Refuerzan la afirmación de la compañía de estar a la vanguardia de la innovación en IA y fortalecen su posición en el mercado global.
Implicaciones para el futuro de Huawei
Los avances de Huawei en el entrenamiento de modelos de IA tienen implicaciones críticas en la visión estratégica de la compañía para establecer la soberanía tecnológica en la inteligencia artificial. A medida que la compañía minimiza su dependencia de las tecnologías estadounidenses en medio del conflicto comercial en curso, el desarrollo de chips Ascend sirve como alternativas a los procesadores de Nvidia y AMD. El Pangu Ultra, un LLM con 135 mil millones de parámetros para NPU, destaca la efectividad de la optimización arquitectónica y sistémica de Huawei al mostrar las capacidades de sus chips de vanguardia.
Se espera que estos esfuerzos contribuyan a la competitividad general de Huawei a largo plazo, ya que se esfuerza por atender a un mercado más grande para la IA, particularmente dentro de China. Al continuar enfocando las inversiones en investigación y desarrollo, Huawei espera impulsarse como el líder en el espacio de la IA, superando las limitaciones actuales del mercado.
Investigación futura
Las continuas mejoras de Huawei en la arquitectura de modelos de IA a través de optimizaciones a nivel algorítmico y de sistema, junto con desarrollos de hardware como el chip Ascend, marcan su importancia en el liderazgo de la curva tecnológica en la inteligencia artificial. Si bien evaluaciones comparativas como el Pangu demuestran que es un modelo de vanguardia, todavía hay mucho margen de mejora. Un mayor refinamiento de la arquitectura MoGE puede permitirle impulsar cálculos más grandes y complejos. Un mayor trabajo en la especialización de la arquitectura de la NPU Ascend puede acelerar aún más los procesos de aprendizaje profundo y reducir los costos. La investigación futura verá los continuos esfuerzos para construir mejores modelos de IA y mejorar los existentes.