L’aube de 2025 a été témoin d’un événement sismique dans le domaine de l’intelligence artificielle : le dévoilement de DeepSeek-R1 par l’équipe chinoise DeepSeek. Ce modèle de langage open-source de 671 milliards de paramètres s’est rapidement imposé comme un concurrent redoutable, rivalisant avec les principaux modèles d’OpenAI dans des domaines cruciaux tels que les mathématiques, la programmation et le raisonnement logique. La capacité de DeepSeek-R1 à s’attaquer à des problèmes complexes était particulièrement remarquable, grâce à son utilisation de l’apprentissage par renforcement. La licence MIT du modèle a également perturbé le paysage en démantelant les barrières commerciales. Les répercussions des débuts de DeepSeek-R1 se sont fait sentir dans tout le monde de la technologie et même sur les marchés financiers, déclenchant, selon certaines sources, une baisse significative des actions liées à l’IA dans la semaine suivant sa publication.
DeepSeek-R1 a marqué un bond considérable en avant pour le mouvement chinois de l’IA open-source dans le domaine des modèles de langage haut de gamme. Ce défi imprévu a incité les leaders mondiaux de l’IA des États-Unis et de Chine à accélérer leurs initiatives, révélant leurs stratégies tant en termes de technologie que de positionnement sur le marché. Cela a déclenché une course à l’IA autour du modèle DeepSeek-R1.
Examinons comment les principaux acteurs de l’arène de l’IA – Meta, Google, OpenAI, Anthropic, Alibaba et Baidu – ont réagi à cette nouvelle concurrence.
Meta : Tirer parti de l’échelle et de l’efficacité avec LLaMA 4
Meta, un chef de file de la communauté des modèles open-source, a réagi à DeepSeek R1 en introduisant LLaMA 4. En avril 2025, Meta a lancé LLaMA 4, son modèle le plus puissant à ce jour, fournissant un accès API via des plateformes telles que Cloudflare. LLaMA 4 utilise une architecture Mixture-of-Experts (MoE), qui divise le modèle en sous-modèles et n’en active qu’une fraction lors de chaque inférence. Cette conception équilibre les paramètres à grande échelle avec l’efficacité de l’inférence.
La série LLaMA 4 comprend plusieurs sous-modèles, dont “Scout”, avec 109 milliards de paramètres totaux et seulement 17 milliards de paramètres actifs, ce qui lui permet de fonctionner sur une seule carte H100. Le modèle “Maverick” possède 400 milliards de paramètres totaux (128 experts) mais seulement 17 milliards de paramètres actifs, nécessitant un cluster DGX. Cette conception permet à LLaMA 4 de prendre en charge des fenêtres de contexte allant jusqu’à 10 millions de jetons, ce qui en fait l’un des premiers modèles open-source à offrir cette capacité. Ceci est particulièrement utile pour résumer de longs documents et analyser de grands référentiels de code.
LLaMA 4 maintient des temps de réponse rapides et prend en charge les entrées multimodales pour les images, l’audio et la vidéo, grâce à son architecture MoE. Meta a choisi une stratégie d’efficacité, renforçant ses capacités multimodales et rationalisant ses opérations, afin de consolider sa position dans le secteur open-source tandis que DeepSeek se concentre sur les capacités d’inférence.
Google : L’évolution de Gemini vers des agents intelligents autonomes
Face à la pression combinée d’OpenAI et de DeepSeek, Google a opté pour une stratégie d’innovation technologique. En février 2025, Google a présenté la série Gemini 2.0, comprenant les versions Flash, Pro et Lite, signalant une évolution vers des capacités d’”agent intelligent”.
Les capacités d’agent de Gemini 2.0 représentent une avancée significative. Le modèle peut comprendre plusieurs modalités et utiliser activement les moteurs de recherche, les bacs à sable de code et la navigation Web. Le projet Mariner de Google permet des opérations de navigateur Chrome basées sur l’IA, permettant à l’IA de remplir des formulaires et de cliquer sur des boutons.
Google a également introduit le protocole Agent2Agent, qui permet à différents agents intelligents de communiquer et de travailler ensemble, afin de prendre en charge son écosystème d’agents. De plus, il a créé Agent Garden, un outil et un kit de développement pour encourager les développeurs tiers à participer.
Google redéfinit les principaux scénarios de la prochaine ère en se concentrant sur la collaboration d’agents intelligents à mesure que l’IA évolue vers des capacités basées sur des outils et autonomes, au lieu de se concentrer sur la course aux paramètres avec DeepSeek et OpenAI. L’évolution de Gemini représente un changement stratégique et pas seulement une mise à niveau du modèle.
OpenAI : Itérer les modèles et intégrer les écosystèmes pour la fiabilité et le leadership
OpenAI a accéléré ses itérations de modèles et ses déploiements de produits en réponse à DeepSeek R1. En février 2025, OpenAI a lancé GPT-4.5, une version provisoire de GPT-4, qui améliore la cohérence logique et l’exactitude factuelle, tout en ouvrant la voie à GPT-5.
GPT-4.5 est considéré comme le dernier modèle majeur qui n’inclut pas le raisonnement en chaîne de pensée. GPT-5 combinera les caractéristiques du modèle de raisonnement expérimental o3-mini et de la série GPT pour créer un “modèle cognitif général” unifié. OpenAI a également déclaré que GPT-5 aura des niveaux d’intelligence et des capacités d’utilisation des outils hautement réglables.
OpenAI a décidé d’autoriser les utilisateurs gratuits de ChatGPT à utiliser la version de base de GPT-5, tandis que les utilisateurs payants auront accès à des fonctionnalités plus avancées afin de réduire le risque que les utilisateurs passent à des alternatives open-source. Cette stratégie vise à maintenir l’engagement des utilisateurs avec une large couverture.
OpenAI intègre également des fonctionnalités telles que des plugins, des navigateurs et des exécuteurs de code dans le modèle de base GPT, au lieu de les garder séparés, afin de créer une “IA complète”. OpenAI relève le défi de R1 en intégrant et en augmentant systématiquement la densité de l’intelligence.
Anthropic : Approfondir l’intelligence robuste avec un raisonnement mixte et des budgets de réflexion
Anthropic a introduit Claude 3.7 Sonnet en février 2025, qui se concentre sur le “raisonnement mixte” et les “budgets de réflexion”. Les utilisateurs peuvent choisir le “mode standard” pour des réponses rapides ou activer le “mode étendu” pour une réflexion plus approfondie, étape par étape.
Cette méthode est similaire à “réfléchir davantage” lorsque les gens sont confrontés à des tâches difficiles, car elle permet à l’IA de prendre plus de temps pour raisonner afin d’améliorer la précision. Anthropic permet également aux utilisateurs de définir le “temps de réflexion” pour équilibrer la profondeur du raisonnement et les coûts d’appel.
Claude 3.7 surpasse son prédécesseur, 3.5, dans les tâches difficiles telles que la programmation et le raisonnement, et est l’un des rares modèles du secteur à se concentrer sur la transparence du processus de raisonnement. Ses capacités de codage ont également atteint un taux de précision de 70,3 % lors des évaluations les plus récentes.
Claude 3.7 démontre l’engagement d’Anthropic envers une “intelligence contrôlable” en se concentrant sur la création de modèles avec des schémas de pensée explicables, stables et personnalisables, au lieu de poursuivre l’empilement de paramètres. Anthropic progresse régulièrement à son propre rythme dans la “course au raisonnement” menée par R1.
Alibaba : Construire un écosystème open-source chinois avec Qwen
L’Académie Damo d’Alibaba a rapidement mis à jour sa famille de modèles Qwen juste une semaine après la sortie de DeepSeek R1, publiant la série Qwen 2.5 en février 2025 et la nouvelle série Qwen 3 fin avril, démontrant une forte réactivité des produits et une vision stratégique.
La série Qwen 3 comprend des versions de modèle allant de 600 millions à 235 milliards de paramètres. Il utilise une architecture MoE pour maintenir les performances du modèle tout en utilisant moins de ressources informatiques. Le modèle phare, Qwen3-235B-A22B, ne nécessite que quatre GPU haute performance pour le déploiement en optimisant les paramètres d’activation, ce qui réduit considérablement la barrière à l’entrée pour les entreprises souhaitant implémenter des modèles de grande taille. Dans plusieurs tests standard, les performances globales de Qwen 3 dépassent celles des meilleurs modèles internationaux tels que DeepSeek R1, OpenAI o1 et Gemini 2.5 Pro.
Alibaba met fortement l’accent sur la construction d’un écosystème open-source, en plus de la compétitivité technologique. Qwen 3 est entièrement open-source sous la licence Apache 2.0, avec des poids ouverts, du code de formation et des outils de déploiement, prenant en charge les applications multilingues (119 langues) et multimodales, dans le but de créer un modèle fondamental qui peut être utilisé et personnalisé directement par les développeurs mondiaux.
La stratégie “technologie + écosystème” d’Alibaba complète le style de percée léger de DeepSeek. L’un met l’accent sur l’itération rapide et l’inférence de pointe, tandis que l’autre met l’accent sur la construction d’écosystèmes et l’équilibre entre l’échelle et la diversité. Qwen s’impose progressivement comme le “hub écosystémique” des grands modèles open-source sur le marché intérieur, une réponse constante à la perturbation de l’industrie causée par DeepSeek.
Baidu : Améliorer la multimodalité et les outils de plugin avec la mise à niveau d’ERNIE Bot
Baidu a considérablement mis à niveau son modèle phare, ERNIE Bot, en mars, publiant ERNIE Bot 4.5 et ERNIE X1 pour des tests publics. ERNIE X1 est positionné comme un “modèle de pensée profonde”, se concentrant sur l’amélioration de la capacité de l’IA à comprendre, planifier et exécuter des tâches complexes.
ERNIE 4.5 est le premier grand modèle multimodal natif de Baidu, prenant en charge la modélisation conjointe du texte, des images, de l’audio et de la vidéo. Cette version réduit également considérablement la génération d’hallucinations et améliore la compréhension du code et le raisonnement logique, dépassant les niveaux de GPT-4.5 dans de multiples tâches de scénario chinois.
Baidu construit un “écosystème d’outils d’IA” plus utile. Le modèle X1 peut utiliser des fonctions de recherche, de Q&R de documents, de lecture de PDF, d’exécution de code, de reconnaissance d’image, d’accès au Web et de requête d’informations commerciales pour véritablement réaliser la “capacité pratique” de l’IA, faisant écho à la route d’agent de Google Gemini.
Baidu a également annoncé qu’il ouvrirait le code source de certains paramètres du modèle ERNIE d’ici la fin du mois de juin 2025 et qu’il étendrait davantage l’intégration des applications avec les clients d’entreprise. La série ERNIE passe d’un produit en boucle fermée à un écosystème de plateforme, attirant les développeurs et les entreprises via des API et des systèmes de plugins.
Au lieu de concurrencer directement R1 et Qwen dans l’espace open-source, Baidu tire parti de sa profonde accumulation de contenu chinois, de services de recherche et de graphiques de connaissances pour intégrer en profondeur le modèle à des scénarios de produits tels que la recherche, le bureau et le flux d’informations, créant ainsi un portefeuille de produits d’IA plus localisé.
En résumé, la sortie de DeepSeek R1 a été plus qu’une simple percée technologique ; elle a été un catalyseur dans l’arène mondiale de l’IA. Elle a forcé les géants à améliorer les performances d’inférence, a stimulé les entreprises nationales à se disputer l’open source et a incité les entreprises américaines à accélérer le développement d’agents, l’intégration et la multimodalité.
Bien que les réponses des géants chinois et américains de l’IA diffèrent, leurs objectifs sont les mêmes : créer des modèles de grande taille plus solides, plus fiables et plus flexibles et remporter la triple compétition de la technologie, de l’écosystème et des utilisateurs. Ce processus est loin d’être terminé. Au fur et à mesure que GPT-5, Gemini 3, Claude 4, et même DeepSeek R2 et Qwen 4 sont lancés les uns après les autres, l’IA mondiale entre dans une nouvelle étape de “montée en spirale”.
Pour les utilisateurs et développeurs d’entreprise, cette concurrence apportera plus de choix, des coûts inférieurs et des outils de modèle de grande taille plus puissants. Les capacités mondiales d’IA se répandent et se démocratisent à un rythme sans précédent, et la prochaine percée technologique décisive est peut-être déjà en route.