La révolution MCP : Redéfinir l'IA

L’avènement de ChatGPT a marqué le début d’une quête incessante d’avancées dans les grands modèles de langage (LLM), une caractéristique déterminante du paysage de l’IA. L’accent initial mis sur la taille des paramètres s’est progressivement déplacé vers des applications pratiques, mais des défis importants persistent pour les entreprises qui cherchent à exploiter la puissance de l’IA. Les coûts élevés associés à la puissance de calcul et la nature fragmentée de l’écosystème des applications d’IA restent des points de douleur essentiels. Les entreprises constatent souvent que leurs investissements substantiels dans l’IA ne se traduisent pas par les rendements escomptés, ce qui conduit à un ‘dilemme du retour sur investissement’ persistant.

L’aube des MCP et A2A : Un changement de paradigme

L’émergence des protocoles Model Context Protocol (MCP) et Agent2Agent (A2A) en 2025 marque un moment charnière dans l’évolution du développement d’applications d’IA. MCP vise à standardiser les interfaces pour briser les silos de données, permettant aux LLM d’accéder efficacement aux ressources externes et de faciliter un flux de données transparent entre les systèmes et les plateformes. A2A favorise en outre une interaction transparente entre les agents, encourageant la collaboration et la communication pour former des systèmes cohérents et intégrés.

Le passage de MCP à A2A souligne l’importance croissante de ‘l’ouverture’ en tant que moteur clé de l’écosystème des applications d’IA. Cette ouverture englobe à la fois l’interopérabilité technique et l’esprit de collaboration. D’un point de vue plus large, cette transformation reflète une progression naturelle dans le développement technologique : une transition de l’enthousiasme initial à la mise en œuvre pratique, et de l’innovation isolée à l’évolution collaborative de l’écosystème.

Historiquement, la valeur des LLM a été attribuée de manière disproportionnée à l’échelle des paramètres et aux capacités autonomes. Aujourd’hui, MCP et A2A abordent la question cruciale de l’interconnectivité entre les applications d’IA et remodèlent la dynamique concurrentielle de l’écosystème LLM. Le développement d’applications d’IA évolue d’une approche ‘loup solitaire’ à un modèle d’interconnexion. Cela nécessite une réévaluation de la valeur de l’IA pour les CTO, déplaçant l’attention de la simple poursuite de la taille du modèle et des stratégies ‘tout-en-un’ vers l’exploitation de plateformes qui connectent diverses capacités d’IA. L’objectif est d’intégrer organiquement l’IA dans les processus commerciaux et les systèmes de production existants, d’améliorer l’efficacité globale grâce à la collaboration et à la standardisation, de résoudre les problèmes critiques avec un minimum de ressources de calcul et de surmonter le ‘dilemme du retour sur investissement’.

Le fléau du calcul gaspillé et des scénarios mal alignés

L’incapacité à surmonter le goulot d’étranglement des investissements élevés et des faibles rendements a longtemps entravé la mise en œuvre des LLM. Ce phénomène reflète des contradictions profondes dans le développement de l’IA. Premièrement, il y a un gaspillage important de puissance de calcul. Les données indiquent que les centres de calcul à usage général au niveau de l’entreprise fonctionnent à seulement 10 à 15 % d’utilisation, laissant de vastes quantités de ressources de calcul inutilisées. Deuxièmement, il y a un désalignement des scénarios où les performances du modèle ne répondent pas aux besoins réels des scénarios commerciaux.

Un problème courant est le ‘surdimensionnement’ de l’utilisation de grands modèles pour des tâches légères. Certaines entreprises s’appuient excessivement sur des LLM à usage général pour des applications simples. De plus, la nature unique des scénarios commerciaux crée des dilemmes. L’utilisation de grands modèles entraîne des coûts de calcul élevés et de longs temps d’inférence. Opter pour des modèles plus petits peut ne pas satisfaire les exigences commerciales. Ce conflit est particulièrement évident dans les scénarios commerciaux nécessitant des connaissances spécialisées du domaine.

Prenons l’exemple du scénario de mise en relation des talents et des emplois dans le secteur du recrutement. Les entreprises ont besoin de modèles dotés de capacités de raisonnement approfondies pour comprendre les relations complexes entre les CV et les descriptions de poste, tout en exigeant des temps de réponse rapides. Les longs temps d’inférence des LLM à usage général peuvent considérablement dégrader l’expérience utilisateur, en particulier en cas de demandes d’utilisateurs à forte concurrence.

Pour équilibrer les performances et l’efficacité, la distillation de modèles a gagné du terrain ces dernières années. Le lancement de DeepSeek-R1 plus tôt cette année a encore mis en évidence la valeur de cette technique. Dans le traitement des tâches de raisonnement complexes, la distillation de modèles capture le schéma de ‘chaîne de pensée’ de DeepSeek-R1, permettant aux modèles étudiants légers d’hériter de ses capacités de raisonnement plutôt que de simplement imiter les résultats de la production.

Par exemple, Zhaopin, une plateforme de recrutement de premier plan, a utilisé DeepSeek-R1 (plus de 600 milliards de paramètres) comme modèle d’enseignement pour distiller la chaîne de pensée et la logique de prise de décision utilisées dans les tâches de mise en relation des talents et des emplois. Ils ont utilisé la plateforme de développement de modèles Qianfan de Baidu AI Cloud pour distiller le modèle d’enseignement et le transférer au modèle ERNIE Speed (plus de 10 milliards de paramètres), le modèle étudiant. Cette approche a permis d’obtenir des performances comparables à celles du modèle d’enseignement (DeepSeek-R1 a atteint une précision de 85 % dans les résultats de la liaison de raisonnement, tandis que le modèle étudiant a atteint plus de 81 %), a amélioré la vitesse d’inférence à un niveau acceptable et a réduit les coûts à 30 % de l’original tout en obtenant des vitesses 1x plus rapides que le DeepSeek-R1 à part entière.

Actuellement, les entreprises adoptent généralement deux approches de la distillation de modèles : la construction d’un système technique complet, de l’infrastructure et des GPU aux cadres de formation, ou l’utilisation de solutions basées sur une plateforme comme la plateforme de développement de modèles Qianfan ou d’autres fournisseurs. Yao Sijia, expert en applications d’IA chez Zhaopin, a déclaré que bien que Zhaopin possède son propre cadre de formation, ils ont choisi la plateforme de développement de modèles Qianfan pour la distillation de modèles en raison de trois considérations principales :

  • Prise en charge complète : La plateforme de développement de modèles Qianfan offre une prise en charge de pointe de l’industrie pour la distillation de modèles, optimisant en profondeur toute la chaîne technique autour des scénarios de distillation.
  • Contrôle des coûts : Par rapport à l’achat et à la maintenance du matériel de manière indépendante, la plateforme de développement de modèles Qianfan offre des avantages significatifs en termes de contrôle des coûts et d’allocation des ressources plus flexible.
  • Compréhension approfondie des scénarios commerciaux : L’équipe de solutions professionnelles de Baidu comprend en profondeur les exigences fondamentales telles que la ‘mise en relation précise’ et la ‘réponse à forte concurrence’ dans le domaine du recrutement et collabore avec les entreprises pour explorer des solutions.

Yao Sijia a ajouté que Zhaopin continuera à innover dans les scénarios d’IA + recrutement, en utilisant la technologie d’apprentissage par renforcement et d’ajustement fin (RFT) de Qianfan pour améliorer encore les performances du modèle. Ils prévoient d’explorer si le modèle d’enseignement peut être encore amélioré et si de meilleurs mécanismes de récompense peuvent optimiser les modèles étudiants déjà distillés pour améliorer la précision. Qianfan est la première plateforme en Chine à produire des méthodes d’apprentissage par renforcement de pointe telles que RFT et GRPO. En transformant ces méthodes d’apprentissage par renforcement de pointe en solutions applicables, Qianfan offre à des entreprises comme Zhaopin davantage de possibilités d’optimisation des performances du modèle.

Cependant, la distillation de modèles n’optimise que les performances d’un seul modèle. Dans les scénarios commerciaux complexes, il est nécessaire de faire correspondre précisément diverses capacités d’IA aux scénarios.

Prenons l’exemple d’un smartphone. Dans les scénarios de reconnaissance d’intention comme les assistants d’appel, des modèles légers sont généralement utilisés pour identifier rapidement les problèmes des utilisateurs. Pour les scénarios de questions-réponses sur les connaissances générales comme les requêtes météorologiques et la récupération d’actualités, des modèles de taille moyenne sont généralement utilisés pour fournir rapidement des réponses précises et informatives. Dans les scénarios d’analyse de données et de raisonnement logique qui nécessitent une réflexion approfondie, de grands modèles sont généralement utilisés.

Cela signifie qu’un smartphone doit appeler de manière flexible plusieurs LLM dans différents scénarios de demande des utilisateurs. Pour les fabricants de téléphones, cela pose des défis tels que des coûts de sélection de modèles élevés et des processus d’appel complexes en raison des différents protocoles d’interface de modèle.

Pour résoudre ces problèmes de l’industrie, la plateforme de développement de modèles Qianfan a produit des interfaces de routage de modèles. Par rapport à l’utilisation directe des modèles d’usine d’origine, elle offre des capacités de développement personnalisées et d’appel d’API prêtes à l’emploi, aidant les entreprises à économiser la charge de travail d’ingénierie et le temps de développement tout en réduisant les coûts. De plus, la plateforme de développement de modèles Qianfan prend en charge les appels flexibles pour les utilisateurs à grande échelle, garantissant la vitesse et la stabilité même en cas de demandes d’appel à haute fréquence et à forte concurrence.

Au niveau du modèle, les capacités techniques telles que la distillation de modèles et l’appel multi-modèles aident de plus en plus d’entreprises à optimiser l’allocation des ressources, permettant aux capacités d’IA de correspondre précisément aux scénarios commerciaux tout en réduisant les coûts. Au niveau de l’application, MCP et A2A, qui ont attiré une attention considérable de l’industrie, réduisent encore les coûts d’essai et d’erreur de l’IA, aident les entreprises à optimiser les paradigmes de collaboration des applications et modifient le modèle inefficace de ‘réinventer la roue’ dans le développement d’agents traditionnels.

Un ‘coup de poing combiné’ des modèles aux applications est la réponse parfaite pour aider les LLM à surmonter le ‘dilemme du retour sur investissement’.

De fermé à ouvert : Abaisser la barrière à l’expérimentation de l’IA

Depuis 2023, le mot clé pour la mise en œuvre des applications d’IA est progressivement passé à Agent. En 2024, presque toutes les entreprises discutent des applications et du développement d’Agent. Cependant, les agents de cette époque manquaient de véritables capacités de planification et étaient principalement basés sur des perspectives de flux de travail, reliant les LLM aux applications de base en cousant ou en procéduralisant les composants grâce à des règles définies par des experts.

Avec la récente montée en puissance des protocoles MCP et A2A, 2025 est devenue la véritable ‘Année Zéro de l’Agent’. En particulier, l’impact de MCP sur le domaine de l’IA est comparable à celui du protocole TCP/IP sur Internet.

Zhou Ze’an, PDG de Biyao Technology, a déclaré dans une interview à InfoQ que la valeur fondamentale de MCP pour le domaine de l’IA se reflète dans trois dimensions :

  • Normalisation de l’appel d’outils LLM : Dans le passé, chaque entreprise avait sa propre implémentation de Function Call, avec des différences significatives entre elles. MCP établit une norme d’accès unifiée, permettant une véritable normalisation des schémas de planification des applications entre les clients et les serveurs. De plus, MCP permet l’interaction non seulement entre les LLM qui prennent en charge Function Call, mais aussi avec les LLM qui n’ont pas cette fonctionnalité.
  • Résoudre les défis de la collaboration des outils : La norme unifiée du protocole MCP rend la construction de services d’Agent plus diversifiée. Les développeurs doivent tenir compte non seulement de leurs propres agents et services MCP, mais aussi de la manière d’intégrer des capacités externes pour obtenir des fonctions d’agent plus puissantes.
  • Contrôle de l’ensemble du contexte via les LLM, ce qui entraîne une interaction plus conviviale : Lors de la construction de processus, il peut utiliser un plus large éventail de sources de données pour résoudre des tâches complexes qui étaient auparavant impossibles.

‘En général, le protocole MCP abaisse considérablement la barrière à l’adoption de la technologie de l’IA par les entreprises. Dans le passé, le processus d’intégration technique pour accéder aux agents était complexe. Désormais, les entreprises n’ont plus besoin de comprendre en profondeur les détails complexes de l’implémentation technique, mais doivent seulement clarifier leurs besoins commerciaux’, a déclaré Zhou Ze’an. Biyao Technology a pleinement ouvert les capacités de traitement de documents de son LLM vertical du secteur des ressources humaines auto-développé ‘Bole’ via le protocole MCP, y compris les contrats, les CV et les PPT, et est devenu l’un des premiers développeurs d’entreprise à lancer des composants MCP sur la plateforme de développement d’applications Qianfan. Actuellement, toute entreprise ou développeur individuel peut directement appeler ses capacités professionnelles sur la plateforme Qianfan.

‘Baidu aidera les développeurs à adopter activement et complètement MCP.’ Lors de la conférence des développeurs d’IA de Baidu Create2025 qui s’est tenue le 25 avril, la plateforme Qianfan a officiellement lancé des services MCP de niveau entreprise. Le fondateur de Baidu, Li Yanhong, a présenté le cas de la plateforme Qianfan adoptant MCP, permettant aux développeurs d’accéder de manière flexible à 1 000 serveurs MCP, y compris la recherche d’IA, les cartes et Wenku de Baidu, lors de la création d’agents. De plus, Qianfan a lancé un outil low-code pour la création de serveurs MCP, permettant aux développeurs de développer facilement leurs propres serveurs MCP sur Qianfan et de les publier sur la place MCP Qianfan en un seul clic. Ces serveurs MCP seront également rapidement indexés par la recherche Baidu, ce qui leur permettra d’être découverts et utilisés par davantage de développeurs.

En fait, Qianfan n’a cessé de résoudre le problème du dernier kilomètre de la mise en œuvre de l’IA avant l’essor du protocole MCP, aidant les entreprises efficacement et avec de faibles barrières à profiter des avantages de la technologie de l’IA et fournissant des solutions matures pour de nombreux secteurs.

Par exemple, dans le secteur de la maison intelligente, les entreprises sont généralement confrontées à un problème courant : comment fournir des services intelligents précis pour des modèles de produits massifs ? Avec la mise en œuvre accélérée des LLM, de plus en plus d’entreprises utilisent des agents pour fournir rapidement aux utilisateurs des réponses précises et personnalisées. Cependant, cela pose également un nouveau défi : comment développer et gérer de nombreux agents ? Les marques de maisons intelligentes ont généralement de nombreuses catégories et modèles de produits différents. La construction d’un agent pour chaque produit séparément entraînerait non seulement des coûts de développement élevés, mais aussi des coûts de gestion et de maintenance importants aux étapes ultérieures.

Par exemple, une grande marque de maisons intelligentes a utilisé la plateforme de développement d’applications Qianfan de Baidu AI Cloud pour traiter les noms de fichiers comme des tranches indépendantes et intégrer les informations de tranche de nom de fichier dans chaque tranche à grain fin. Au lieu de construire un agent pour chaque produit séparément, ils n’avaient qu’à trier la base de connaissances correspondante et à définir les noms des modèles de produits. Ensuite, ils pouvaient utiliser la stratégie d’analyse automatique du cadre RAG de la plateforme Qianfan pour obtenir une correspondance précise des modèles de produits et des points de connaissances.

La plateforme de développement d’applications Qianfan fournit également à la marque un ensemble d’outils d’exploitation pour construire un centre intelligent en constante évolution. Grâce à la fonction de rétroaction des données, tous les enregistrements d’interaction des utilisateurs sont transformés en éléments d’optimisation. Le personnel d’exploitation peut afficher les problèmes à haute fréquence en temps réel et intervenir immédiatement sur les points de connaissances non couverts, formant ainsi une boucle fermée ‘exploitation - rétroaction - optimisation’. De plus, la plateforme de développement d’applications Qianfan et Xiaodu AI Assistant ont conjointement construit un cadre d’interaction vocale. En s’appuyant sur ce cadre, la marque peut permettre au matériel de ‘parler’ directement avec les utilisateurs, ce qui permet une expérience interactive plus naturelle, efficace et personnalisée.

De MCP à A2A, l’ouverture est devenue un nouveau mot clé dans l’écosystème des applications LLM. L’ouverture est également l’intention originale de la plateforme Qianfan. Dès le premier jour de sa sortie en 2023, Qianfan a adopté la posture la plus ouverte pour accéder à une multitude de LLM tiers. Actuellement, Qianfan a accès à plus de 100 modèles de plus de 30 fournisseurs de modèles, couvrant 11 types de capacités telles que le texte, l’image et le raisonnement approfondi, y compris des modèles tiers tels que DeepSeek, LLaMA, Tongyi et Vidu. Il fournit également une gamme complète de LLM Wenxin, y compris le nouveau modèle multi-modal natif Wenxin 4.5 Turbo et le modèle de réflexion approfondie Wenxin X1 Turbo, ainsi que le modèle de réflexion approfondie Wenxin X1 précédemment publié.

Pour les entreprises qui souhaitent mettre en œuvre rapidement la technologie de l’IA, Baidu AI Cloud devient progressivement le premier choix. Les données du marché sont la meilleure preuve. Actuellement, la plateforme Qianfan dessert plus de 400 000 clients, avec un taux de pénétration de plus de 60 % dans les entreprises centrales. Selon le China Large Model Bidding Project Monitoring and Insight Report (2025Q1), Baidu a réalisé un double premier en termes de nombre de projets d’appel d’offres de grands modèles et de montant des offres gagnantes au premier trimestre : remportant 19 projets d’appel d’offres de grands modèles avec un montant de projet divulgué de plus de 450 millions de yuans, et les projets de grands modèles gagnants provenaient presque tous de clients d’entreprises centrales détenues par l’État dans des secteurs tels que l’énergie et la finance.

Le bulletin de notes de Baidu AI Cloud envoie également un signal au monde extérieur : dans cette bataille à long terme pour la mise en œuvre de la technologie de l’IA, seules les solutions qui comprennent vraiment les problèmes de l’industrie et peuvent aider les entreprises à réduire les coûts d’essai et d’erreur sont les plus vitales.