Percée IA Huawei : Surpasse DeepSeek avec ses Puces

Huawei Technologies, une entreprise confrontée à d’importants obstacles technologiques en raison des sanctions américaines, aurait réalisé une percée dans la formation de modèles d’intelligence artificielle (IA). Des chercheurs travaillant sur le grand modèle linguistique (LLM) de Huawei, Pangu, affirment avoir développé une approche améliorée qui surpasse la méthodologie originale de DeepSeek. Cette méthode innovante exploite le propre matériel propriétaire de Huawei, réduisant la dépendance de l’entreprise aux technologies américaines, un objectif crucial dans le paysage géopolitique actuel.

L’Émergence du Mixture of Grouped Experts (MoGE)

La pierre angulaire de l’avancement de Huawei réside dans le concept de Mixture of Grouped Experts (MoGE). Cette nouvelle technique, détaillée dans un article publié par l’équipe Pangu de Huawei, est présentée comme une version améliorée de la technique Mixture of Experts (MoE). MoE s’est avéré déterminant dans la création de modèles d’IA rentables, comme l’a démontré le succès de DeepSeek.

MoE offre des avantages pour les grands paramètres de modèle, ce qui conduit à une capacité d’apprentissage améliorée. Cependant, les chercheurs de Huawei ont identifié des inefficacités découlant de l’activation inégale des “experts”, des composants essentiels dans la formation de l’IA, qui peuvent entraver les performances lors de l’exécution de tâches sur plusieurs appareils simultanément. Le MoGE de Huawei relève stratégiquement ces défis.

Remédier aux Inefficacités des Modèles MoE Traditionnels

Le système MoGE est conçu de manière complexe pour optimiser la distribution de la charge de travail. L’idée centrale est de “grouper” les experts pendant le processus de sélection, ce qui conduit à une distribution plus équilibrée de la charge de travail. En répartissant plus équitablement la charge de calcul, les chercheurs ont signalé une amélioration notable des performances des environnements informatiques parallèles, un aspect clé de la formation moderne de l’IA.

Le concept d’”experts” dans la formation de l’IA fait référence à des sous-modèles ou à des composants spécialisés au sein d’un modèle plus vaste et plus complet. Chaque expert est méticuleusement conçu pour gérer des tâches ou des types de données très spécifiques. Cette approche exploite une expertise spécialisée variée, ce qui permet au système d’IA global d’améliorer considérablement ses performances globales.

Implications pour l’Avancement de l’IA en Chine

Cette avancée arrive à point nommé. Les entreprises chinoises d’IA, malgré les restrictions américaines sur l’importation de puces d’IA avancées comme celles de Nvidia, recherchent activement des méthodes pour améliorer l’efficacité de la formation et de l’inférence des modèles. Ces méthodes comprennent non seulement des améliorations algorithmiques, mais aussi l’intégration synergique du matériel et des logiciels.

Les chercheurs de Huawei ont rigoureusement testé l’architecture MoGE sur leur unité de traitement neuronal (NPU) Ascend, spécialement conçue pour accélérer les tâches d’IA. Les résultats ont indiqué que MoGE avait obtenu un meilleur équilibrage de la charge des experts et une exécution plus efficace, tant pour les phases de formation que d’inférence du modèle. Il s’agit d’une validation significative des avantages de l’optimisation simultanée de la pile matérielle et logicielle.

Comparaison de Pangu aux Principaux Modèles d’IA

Le modèle Pangu de Huawei, renforcé par l’architecture MoGE et les NPU Ascend, a été comparé aux principaux modèles d’IA. Il s’agissait notamment de DeepSeek-V3, de Qwen2.5-72B d’Alibaba Group Holding et de Llama-405B de Meta Platforms. Les résultats de la comparaison ont montré que Pangu obtenait des performances de pointe sur une gamme de benchmarks généraux en anglais, et qu’il excellait sur tous les benchmarks chinois. Pangu a également fait preuve d’une plus grande efficacité dans le traitement de la formation de contexte long, un domaine d’une importance capitale pour les tâches sophistiquées de traitement du langage naturel.

De plus, le modèle Pangu a démontré des capacités exceptionnelles dans les tâches générales de compréhension du langage, avec des forces particulières dans les tâches de raisonnement. Cette capacité à saisir les nuances et à extraire le sens d’un langage complexe démontre les progrès réalisés par Huawei en matière d’IA.

Importance Stratégique de Huawei

Les progrès de Huawei dans l’architecture des modèles d’IA ont une importance stratégique. Compte tenu des sanctions en cours, l’entreprise basée à Shenzhen cherche stratégiquement à réduire sa dépendance aux technologies américaines. Les puces Ascend développées par Huawei sont considérées comme des alternatives nationales viables aux processeurs de Nvidia et sont un élément clé de cette indépendance.

Pangu Ultra, un grand modèle linguistique avec 135 milliards de paramètres optimisés pour les NPU, souligne l’efficacité de la rationalisation architecturale et systémique de Huawei tout en présentant les capacités de ses NPU. Démontrer l’efficacité de son intégration matériel-logiciel est un élément important de la présentation des capacités de Huawei en matière d’IA.

Processus de Formation Détaillé

Selon Huawei, le processus de formation est divisé en trois étapes principales : la pré-formation, l’extension du contexte long et la post-formation. La pré-formation consiste à former initialement le modèle sur un ensemble de données massif de 13,2 billions de jetons. L’extension du contexte long élargit ensuite la capacité du modèle à gérer des textes plus longs et plus complexes et s’appuie sur la reconnaissance initiale des données. Cette phase utilise un traitement distribué à grande échelle sur 8 192 puces Ascend.

Huawei a révélé que le modèle et le système seront bientôt mis à la disposition de sa clientèle commerciale, ce qui ouvrira de nouvelles opportunités d’intégration et de développement avec ses partenaires.

Plongée Profonde Dans le Mixture of Experts (MoE) et ses Limitations

Pour bien comprendre l’importance du MoGE de Huawei, il est essentiel de comprendre les fondements sur lesquels il s’appuie : l’architecture Mixture of Experts (MoE). MoE représente un changement de paradigme dans la façon dont les grands modèles d’IA sont conçus et formés, offrant une voie pour augmenter la taille et la complexité des modèles sans une augmentation proportionnelle du coût de calcul.

Dans un réseau neuronal traditionnel, chaque entrée est traitée par chaque neurone de chaque couche. Bien que cette approche puisse donner une grande précision, elle devient prohibitive sur le plan du calcul pour les très grands modèles. MoE, au contraire, introduit le concept d’”experts” - des réseaux neuronaux plus petits et spécialisés qui se concentrent sur des sous-ensembles spécifiques des données d’entrée.

Un réseau de “porte” achemine dynamiquement chaque entrée vers le ou les experts les plus pertinents. Cette activation sélective permet un calcul clairsemé, ce qui signifie que seule une fraction des paramètres du modèle sont engagés pour une entrée donnée. Cette rareté réduit considérablement le coût de calcul de l’inférence (utilisation du modèle pour la prédiction) et de la formation. De plus, comme différents experts peuvent agir sur différentes parties des données d’entrée, cela permet une plus grande spécialisation dans le modèle.

Malgré les avantages de MoE, plusieurs limitations doivent être prises en compte pour libérer tout son potentiel. L’activation inégale des experts est une préoccupation majeure. Dans de nombreuses implémentations MoE, certains experts sont fortement utilisés, tandis que d’autres restent relativement inactifs. Ce déséquilibre découle des caractéristiques inhérentes des données et de la conception du réseau de porte.

Ce déséquilibre peut entraîner des inefficacités dans les environnements informatiques parallèles. Étant donné que la charge de travail n’est pas répartie uniformément entre les experts, certaines unités de traitement sont sous-utilisées tandis que d’autres sont surchargées. Cette disparité entrave l’évolutivité de MoE et réduit ses performances globales. De plus, ce déséquilibre découle souvent de biais dans les données de formation, ce qui entraîne une sous-représentation et une sous-formation des experts moins actifs. Il en résulte un modèle sous-optimal à long terme.

Un autre problème courant lors de la gestion de MoE est la complexité supplémentaire lors de la conception du réseau de porte. Le réseau de porte nécessite des techniques sophistiquées pour garantir que les experts sont correctement sélectionnés, sinon, le MoE pourrait ne pas répondre aux attentes et entraîner des frais généraux inutiles.

Grouped Experts (MoGE) : Relever les Défis de MoE

L’architecture Mixture of Grouped Experts (MoGE) de Huawei offre une alternative raffinée au MoE traditionnel en se concentrant sur l’équilibrage de la charge et l’exécution parallèle efficace. La méthode consiste à regrouper stratégiquement les experts, ce qui modifie le processus de routage des données d’entrée, ce qui conduit à une distribution plus uniforme de la charge de travail.

En regroupant les experts pendant la sélection, MoGE garantit que chaque groupe d’experts reçoit une charge de travail plus équilibrée. Au lieu de router chaque entrée indépendamment, le réseau de porte dirige désormais des groupes d’entrées vers des groupes d’experts. Cette approche favorise une distribution plus équitable de la charge de calcul.

Le mécanisme de regroupement aide également à atténuer les effets des biais de données. En veillant à ce que tous les experts au sein d’un groupe soient formés sur un ensemble diversifié d’entrées, MoGE réduit le risque de sous-représentation et de sous-formation. De plus, le regroupement des experts permet une meilleure utilisation des ressources. Étant donné que chaque groupe gère une charge de travail plus cohérente, il devient plus facile d’allouer efficacement les ressources de calcul, ce qui conduit à de meilleures performances globales.

Le résultat final est un meilleur équilibrage de la charge des experts et une exécution plus efficace pour la formation et l’inférence des modèles. Cela se traduit par des temps de formation plus rapides, des coûts de calcul plus faibles et des performances globales améliorées.

Le NPU Ascend : Accélération Matérielle pour l’IA

Le NPU (Neural Processing Unit) Ascend joue un rôle clé dans la stratégie d’IA de Huawei. Ces processeurs sont spécialement conçus pour accélérer les tâches d’IA, y compris la formation et l’inférence des modèles. Ils offrent une variété de fonctionnalités optimisées pour les charges de travail d’apprentissage profond, telles qu’une bande passante mémoire élevée, des unités de traitement spécialisées pour la multiplication matricielle et des interfaces de communication à faible latence. De plus, les NPU Ascend de Huawei prennent en charge une gamme de types de données et de niveaux de précision, permettant un contrôle précis des performances et de la précision.

La combinaison synergique de MoGE et d’Ascend NPU crée une plate-forme puissante pour l’innovation en matière d’IA. MoGE optimise le côté logiciel en améliorant l’équilibrage de la charge et l’exécution parallèle, tandis qu’Ascend NPU fournit l’accélération matérielle nécessaire pour réaliser ces avantages. Cette approche intégrée permet à Huawei de repousser les limites des performances et de l’efficacité de l’IA.

Le NPU Ascend est caractérisé par une densité de calcul et une efficacité énergétique élevées. Ces caractéristiques sont essentielles pour déployer des modèles d’IA dans une variété de paramètres, des serveurs cloud puissants aux appareils périphériques avec des budgets de puissance limités.

Benchmarks et Métriques de Performance

Les résultats des benchmarks de Huawei démontrent l’efficacité de l’architecture MoGE et du NPU Ascend. En comparant Pangu aux principaux modèles d’IA comme DeepSeek-V3, Qwen2.5-72B et Llama-405B, Huawei a montré que sa technologie atteint des performances de pointe sur une variété de tâches.

Le succès de Pangu sur les benchmarks généraux en anglais et en chinois souligne sa polyvalence et son adaptabilité. La maîtrise du modèle dans la formation de contexte long est particulièrement remarquable car elle reflète les capacités dans le traitement des données du monde réel. De plus, la forte performance de Pangu sur les tâches de raisonnement souligne sa capacité à comprendre et à traiter des relations complexes.

Ces benchmarks ne sont pas de simples exercices académiques, ils offrent des preuves tangibles des progrès technologiques réalisés par Huawei. Ils renforcent l’affirmation de l’entreprise d’être à l’avant-garde de l’innovation en matière d’IA et renforcent sa position sur le marché mondial.

Implications pour l’Avenir de Huawei

Les avancées de Huawei dans la formation de modèles d’IA ont des implications essentielles dans la vision stratégique de l’entreprise d’établir une souveraineté technologique dans l’intelligence artificielle. Alors que l’entreprise réduit sa dépendance aux technologies américaines au milieu du conflit commercial en cours, le développement des puces Ascend sert d’alternative aux processeurs de Nvidia et d’AMD. Le Pangu Ultra, un LLM doté de 135 milliards de paramètres pour les NPU, met en évidence l’efficacité de la rationalisation architecturale et systémique de Huawei en mettant en valeur les capacités de ses puces de pointe.

On s’attend à ce que ces efforts contribuent à la compétitivité globale de Huawei à long terme, car elle s’efforce de répondre à un marché plus vaste pour l’IA, en particulier en Chine. En continuant à concentrer les investissements sur la recherche et le développement, Huawei espère se propulser en tant que leader dans le domaine de l’IA, en surmontant les contraintes actuelles du marché.

Recherches Futures

Les améliorations continues de Huawei dans l’architecture des modèles d’IA via des optimisations au niveau du système et des algorithmes, parallèlement aux développements matériels tels que la puce Ascend, marquent son importance dans la direction de la courbe technologique dans l’intelligence artificielle. Bien que les benchmarks comme le Pangu prouvent qu’il s’agit d’un modèle de pointe, il reste encore beaucoup d’améliorations à apporter. Un perfectionnement supplémentaire de l’architecture MoGE peut lui permettre de passer à des calculs plus vastes et plus complexes. Davantage de travail dans la spécialisation de l’architecture du NPU Ascend peut accélérer davantage les processus d’apprentissage profond et réduire les coûts. Les futures enquêtes porteront sur les efforts continus pour construire de meilleurs modèles d’IA et améliorer ceux qui existent déjà.