Baidu : ERNIE X1 et 4.5 défient l'IA

Baidu, un acteur majeur du paysage technologique chinois, a lancé deux mises à jour importantes de son modèle de fondation ERNIE (Enhanced Representation through Knowledge Integration). Ces nouvelles itérations, ERNIE X1 et ERNIE 4.5, représentent la réponse stratégique de Baidu au paysage mondial de l’IA de plus en plus concurrentiel, en particulier aux progrès réalisés par les entreprises chinoises et américaines. Ces modèles ne sont pas de simples mises à niveau incrémentielles ; ils sont conçus pour rivaliser directement avec certains des systèmes d’IA les plus avancés disponibles, offrant des capacités qui, selon Baidu, égalent ou surpassent celles de leurs rivaux. Les deux modèles sont accessibles aux utilisateurs via le chatbot ERNIE Bot, et Baidu prévoit une intégration progressive dans sa gamme de produits plus large, y compris son produit phare Baidu Search.

Le timing de cette sortie est crucial. Le secteur de l’IA générative connaît une période d’innovation rapide et de rivalité intense, avec un accent particulier sur la dynamique entre la Chine et les États-Unis. DeepSeek, une startup chinoise d’IA, a attiré l’attention de l’industrie début 2025 avec R1, un modèle de raisonnement open-source qui aurait surpassé les principaux modèles d’IA à un coût nettement inférieur. Cette initiative a propulsé DeepSeek devant ses concurrents en Chine et aux États-Unis, y compris Baidu. Baidu, cependant, a été l’une des premières entreprises chinoises à introduire un concurrent de ChatGPT, ERNIE Bot.

ERNIE X1 et ERNIE 4.5 : Un aperçu détaillé des nouveaux modèles de Baidu

ERNIE X1 et ERNIE 4.5, bien que tous deux développés par Baidu, sont des modèles de fondation distincts adaptés à différentes applications :

  • ERNIE X1 : Ce modèle est positionné comme un moteur de raisonnement à haute efficacité, défiant directement des modèles comme DeepSeek R1 et o3 mini d’OpenAI. Il est conçu pour les tâches nécessitant un traitement logique complexe et une résolution de problèmes en plusieurs étapes.

  • ERNIE 4.5 : Ce modèle est une grande IA multimodale, capable de traiter et de comprendre diverses formes de médias - texte, images, audio et vidéo. Il est en concurrence avec des modèles comme GPT-4o et Gemini de Google.

L’émergence du R1 de DeepSeek a entraîné un changement de priorités pour les principaux acteurs de l’IA comme Google, OpenAI, Anthropic et xAI. Ces entreprises ont commencé à se concentrer sur l’efficacité et l’abordabilité, en plus de la taille brute du modèle. L’introduction d’ERNIE X1 par Baidu, en particulier, signifie son entrée dans cette course mondiale à l’IA, offrant des performances comparables à R1 et à d’autres modèles, potentiellement à un prix encore plus compétitif.

Baidu souligne que 2025 est une année charnière pour l’évolution des grands modèles de langage et des technologies connexes. Le communiqué de presse de l’entreprise souligne son engagement continu à investir dans l’intelligence artificielle, les centres de données et l’infrastructure cloud, dans le but d’améliorer encore ses capacités d’IA et de développer des modèles de nouvelle génération encore plus puissants.

ERNIE X1 : Plongée dans le raisonnement approfondi

ERNIE X1 est un modèle de langage spécialement conçu pour le « raisonnement approfondi ». Cela le distingue des modèles de langage traditionnels qui excellent dans la génération de réponses rapides et basées sur des schémas. Les modèles de raisonnement, en revanche, sont conçus pour disséquer des problèmes complexes en une série d’étapes logiques. Ils évaluent diverses solutions potentielles et affinent leurs réponses avant de présenter un résultat final. Cela les rend particulièrement bien adaptés aux tâches qui impliquent une planification en plusieurs étapes, une déduction logique et une résolution de problèmes complexes.

Baidu attribue les prouesses de raisonnement d’ERNIE X1 à plusieurs techniques avancées, notamment :

  • Progressive Reinforcement Learning : Cela suggère un processus d’apprentissage itératif où le modèle améliore continuellement ses performances grâce à la rétroaction.
  • End-to-End Training : Cela implique une approche d’entraînement holistique où l’ensemble du modèle est optimisé simultanément, plutôt que par étapes distinctes.
  • Chains of Thought and Action : Cette technique permet probablement au modèle de suivre une séquence d’étapes logiques, imitant les processus de pensée humaine.
  • Unified Multi-faceted Reward System : Cela suggère un système sophistiqué pour évaluer et récompenser les performances du modèle sur divers aspects du raisonnement.

Bien que Baidu n’ait pas divulgué de détails techniques exhaustifs, ces méthodes mettent l’accent sur l’apprentissage itératif, la compréhension contextuelle et le raisonnement structuré - des forces qui caractérisent également d’autres modèles de raisonnement performants.

Dans les applications pratiques, Baidu affirme qu’ERNIE X1 présente des « capacités améliorées de compréhension, de planification, de réflexion et d’évolution ». L’entreprise souligne sa compétence dans des domaines tels que :

  • Literary Creation : Génération de formats de texte créatifs.
  • Manuscript Writing : Aide à la rédaction de documents plus longs.
  • Dialogue : Engagement dans des conversations naturelles et cohérentes.
  • Logical Reasoning : Résolution de problèmes nécessitant une déduction logique.
  • Complex Calculations : Exécution d’opérations mathématiques complexes.
  • ‘Chinese Knowledge’ : Cette capacité non spécifiée fait probablement référence à une compréhension approfondie de la langue, de la culture et du contexte chinois.

Par conséquent, ERNIE X1 est envisagé pour alimenter une gamme diversifiée d’applications, notamment :

  • Search Engines : Amélioration des résultats de recherche avec une compréhension plus nuancée.
  • Document Summarization and Q&A : Fourniture de résumés concis et de réponses précises aux questions.
  • Image Understanding and Generation : Interprétation et création de contenu visuel.
  • Code Interpretation : Analyse et compréhension du code de programmation.
  • Webpage Analysis : Extraction d’informations clés à partir de pages Web.
  • Mind Mapping : Création de représentations visuelles d’idées et de concepts.
  • Academic Research : Aide aux tâches de recherche dans diverses disciplines.
  • Business and Franchise Information Search : Fourniture d’informations pertinentes pour les demandes commerciales.

ERNIE X1 : Comparaison avec la concurrence

Bien que Baidu n’ait pas publié de scores de référence spécifiques ni d’évaluations détaillées pour ERNIE X1, il affirme que les performances du modèle sont « comparables à » DeepSeek R1, tout en étant proposé à « seulement la moitié du prix ». À l’heure actuelle, Baidu n’a pas fourni de comparaisons avec d’autres modèles de raisonnement sur le marché. Ce manque de données comparatives détaillées rend difficile l’évaluation complète de la position concurrentielle d’ERNIE X1, mais l’affirmation de performances comparables à un coût inférieur est certainement remarquable.

ERNIE 4.5 : Adopter des capacités multimodales natives

ERNIE 4.5 est présenté par Baidu comme un « modèle multimodal natif ». Cela signifie qu’il est conçu pour intégrer et comprendre de manière transparente diverses formes de médias - texte, images, audio et vidéo - dans un cadre unifié. Contrairement à de nombreux systèmes d’IA qui traitent différents types de médias séparément, ERNIE 4.5 est conçu pour combiner ces modalités et même convertir entre elles (par exemple, du texte en audio et vice versa).

Baidu souligne qu’ERNIE 4.5 « réalise une optimisation collaborative grâce à la modélisation conjointe de multiples modalités, démontrant des capacités de compréhension multimodale exceptionnelles ». Cela suggère une approche sophistiquée où le modèle apprend à comprendre et à relier les informations entre différents types de médias.

En plus de ses prouesses multimodales, ERNIE 4.5 possède des « compétences linguistiques raffinées », améliorant ses capacités de compréhension et de génération, ainsi que ses capacités de raisonnement logique, de mémoire et de codage. Baidu met également l’accent sur la « forte intelligence » et la « conscience contextuelle » du modèle, en particulier sa capacité à reconnaître les contenus nuancés tels que les mèmes Internet et les dessins satiriques. Cela indique une volonté de comprendre non seulement le sens littéral du contenu, mais aussi son contexte culturel et social.

De plus, Baidu affirme qu’ERNIE 4.5 est moins sujet aux « hallucinations » - un problème courant en IA où les modèles génèrent des informations fausses ou trompeuses qui peuvent sembler plausibles à première vue. Il s’agit d’une amélioration cruciale, car les hallucinations peuvent nuire à la fiabilité et à la crédibilité des systèmes d’IA.

Baidu attribue ces avancées à plusieurs technologies clés, notamment :

  • Spatiotemporal Representation Compression : Cela fait probablement référence à des techniques permettant de représenter et de traiter efficacement les informations qui changent dans le temps et l’espace, telles que le contenu vidéo.
  • Knowledge-Centric Training Data Construction : Cela suggère une concentration sur la construction d’ensembles de données d’entraînement riches en connaissances factuelles.
  • Self-Feedback Enhanced Post-Training : Cela implique un mécanisme par lequel le modèle peut apprendre de ses propres sorties et améliorer ses performances au fil du temps.
  • Heterogeneous Multimodal Mixture-of-Experts (MoE) : Cette approche utilise des modèles « experts » plus petits et spécialisés qui ne sont activés qu’en cas de besoin. Cela optimise les performances et réduit les coûts de calcul. Les modèles MoE sont souvent plus petits et plus rentables que les modèles traditionnels basés sur des transformateurs, mais ils peuvent atteindre des performances comparables, voire supérieures, ce qui en fait une option attrayante pour le développement de l’IA.

Pour l’avenir, des rapports indiquent que Baidu prévoit de publier ERNIE 5 plus tard en 2025, promettant de « grandes améliorations » de ses capacités multimodales. Cela suggère un engagement continu à repousser les limites de l’IA multimodale.

ERNIE 4.5 : Une analyse comparative

Baidu a directement comparé les capacités multimodales d’ERNIE 4.5 à celles de GPT-4o d’OpenAI. L’entreprise affirme qu’ERNIE 4.5 a surpassé GPT-4o dans presque tous les benchmarks, à l’exception de MMU (Massive Multi-discipline Understanding). MMU évalue les modèles sur un large éventail de tâches de niveau universitaire qui nécessitent des connaissances approfondies du sujet et un raisonnement délibéré. Cela suggère que si ERNIE 4.5 excelle dans de nombreux domaines, GPT-4o peut encore avoir un avantage dans les tâches nécessitant des connaissances académiques spécialisées.

Baidu présente également des résultats de référence indiquant qu’ERNIE 4.5 surpasse GPT-4o et GPT-4.5 d’OpenAI, ainsi que V3 de DeepSeek, dans plusieurs autres domaines, notamment :

  • C-Eval : Ce benchmark évalue les connaissances avancées et les capacités de raisonnement dans diverses disciplines, des sciences humaines aux sciences et à l’ingénierie. Les bonnes performances d’ERNIE 4.5 ici suggèrent une large compréhension de divers sujets.
  • CMMLU : Ce benchmark évalue les connaissances et les capacités de raisonnement dans le contexte spécifique de la langue et de la culture chinoises. Le succès d’ERNIE 4.5 ici met en évidence sa compétence dans ce domaine.
  • GSM8K : Ce benchmark évalue le raisonnement en plusieurs étapes à l’aide de problèmes mathématiques de niveau primaire. Les performances d’ERNIE 4.5 indiquent de solides capacités de raisonnement mathématique.
  • DROP : Ce benchmark mesure les capacités de compréhension en lecture d’un LLM. Les résultats d’ERNIE 4.5 suggèrent un niveau élevé de compréhension du texte.

Il est important de reconnaître, cependant, que de nombreux benchmarks où ERNIE 4.5 a démontré des performances supérieures étaient spécifiquement axés sur la langue et la culture chinoises. Cela peut expliquer en partie pourquoi GPT-4o et GPT-4.5, des modèles développés par une entreprise américaine, n’ont pas aussi bien performé. Néanmoins, ERNIE 4.5 a également surpassé DeepSeek-V3, un modèle développé par une entreprise chinoise, sur bon nombre de ces benchmarks, ce qui indique un véritable avantage concurrentiel dans le contexte chinois.

Inversement, ERNIE 4.5 n’aurait pas aussi bien performé sur certains autres benchmarks, notamment :

  • MMLU-Pro : Ce benchmark évalue la compréhension du langage sur un ensemble de tâches plus large et plus difficile. GPT-4.5 a surpassé ERNIE 4.5 ici, suggérant un avantage potentiel dans la compréhension générale du langage.
  • GPQA : Ce benchmark comprend un ensemble de données de questions à choix multiples rédigées par des experts en biologie, physique et chimie. GPT-4.5 a de nouveau surpassé ERNIE 4.5, indiquant une meilleure maîtrise des connaissances scientifiques spécialisées.
  • Math-500 : Ce benchmark teste la capacité à résoudre des problèmes mathématiques difficiles de niveau lycée. DeepSeek-V3 et GPT-4.5 ont tous deux surpassé ERNIE 4.5, suggérant un besoin d’amélioration supplémentaire dans le raisonnement mathématique avancé.
  • LiveCodeBench : Ce benchmark mesure les capacités de codage. GPT-4.5 a surpassé ERNIE 4.5, indiquant un avantage potentiel dans la génération et la compréhension du code.

Malgré les performances supérieures de GPT-4.5 sur certains benchmarks, Baidu souligne qu’ERNIE 4.5 est proposé à seulement 1 % du prix du modèle d’OpenAI. Cette différence de coût significative pourrait faire d’ERNIE 4.5 une option très attrayante pour les entreprises et les développeurs à la recherche d’une solution d’IA multimodale rentable.

Accéder à ERNIE X1 et ERNIE 4.5

ERNIE 4.5 est actuellement accessible via son API et sur la plateforme MaaS (Model-as-a-Service) de Baidu AI Cloud, Qianfan. Les prix d’entrée commencent à 0,004 RMB par millier de jetons, et les prix de sortie commencent à 0,016 RMB par millier de jetons. Baidu déclare qu’ERNIE X1 sera disponible sur la plateforme « bientôt », avec des prix d’entrée commençant à 0,002 RMB par millier de jetons et des prix de sortie commençant à 0,008 RMB par millier de jetons.

Les utilisateurs peuvent également interagir avec les deux modèles via le chatbot de Baidu, ERNIE Bot, offrant une interface pratique et conviviale pour explorer leurs capacités.

La structure de prix spécifique et les détails de disponibilité soulignent l’engagement de Baidu à rendre ces modèles d’IA avancés accessibles à un large éventail d’utilisateurs, des développeurs individuels aux grandes entreprises. Le prix compétitif, en particulier pour ERNIE X1, positionne Baidu comme un concurrent sérieux sur le marché mondial de l’IA, offrant une alternative intéressante aux modèles des géants technologiques américains.