Claude 4 d'Anthropic : Redéfinir les frontières du codage IA

Le domaine de l’intelligence artificielle a été témoin d’un autre bond en avant significatif avec le dévoilement par Anthropic d’Opus 4 et de Sonnet 4, les dernières itérations de leur famille phare Claude. Sortis il y a un peu plus d’une semaine, ces modèles ont rapidement capté l’attention, établissant de nouvelles références, en particulier dans le domaine critique du codage. Au-delà de leurs prouesses en matière de codage, Opus 4 et Sonnet 4 démontrent de solides capacités en matière de raisonnement et de fonctionnalités d’agent, les positionnant comme des avancées essentielles dans le paysage de l’IA contemporaine.

Opus 4 se présente comme la création la plus sophistiquée d’Anthropic à ce jour, saluée par l’entreprise comme son modèle le plus puissant et affirmant sa position de "meilleur modèle de codage au monde". Complétant Opus 4, Sonnet 4 émerge comme une alternative plus économique, conçue pour trouver un équilibre optimal entre des performances supérieures et une rentabilité pratique. Cette double offre stratégique s’adresse à un large éventail d’utilisateurs, de ceux qui exigent des performances optimales à ceux qui recherchent une solution plus économique.

Les améliorations introduites dans Opus 4 et Sonnet 4 sont notables. Un point fort majeur est leur compétence accrue en codage. Opus 4 a déjà démontré son leadership dans des benchmarks clés, notamment SWE-bench et Terminal-bench, tandis que Sonnet présente des capacités similaires. Ce bond en avant dans les performances de codage souligne l’importance croissante de l’IA dans le développement de logiciels.

En plus des améliorations de performances, Anthropic a accordé la priorité à la sécurité. Opus 4 intègre ASL-3, ou AI Safety Level 3 protections. Cette mesure découle de la ‘Responsible Scaling Policy’ d’Anthropic. Anthropic, fondée par d’anciens employés d’OpenAI préoccupés par la sécurité, a toujours mis l’accent sur l’innovation avec de solides considérations de sécurité.

La sortie d’Opus 4 et de Sonnet 4 a suscité des réactions généralement positives de la part des développeurs et des utilisateurs. Les capacités améliorées de codage ont été saluées comme une étape importante vers des systèmes d’IA autonomes, ou d’agent. La structure de prix, qui reflète les générations précédentes en présentant à la fois une option premium et une option économique, a également été bien accueillie.

La sortie d’Opus 4 n’a pas été sans controverse. Un chercheur d’Anthropic a révélé qu’Opus pouvait contacter les autorités s’il jugeait le comportement d’un utilisateur inapproprié. Bien que le chercheur ait clarifié par la suite que cela est impossible dans des conditions normales d’utilisation, cela a suscité des inquiétudes parmi les utilisateurs quant au niveau d’indépendance potentiellement intégré dans le modèle.

Le domaine de l’IA est marqué par de fréquentes annonces de modèles révolutionnaires, chacun se disputant le titre de "meilleur au monde". Les versions récentes incluent Gemini-2.5-Pro de Google, GPT-4.5 et GPT-4.1 d’OpenAI, Grok 3 de xAI et Qwen 2.5 et QwQ-32B d’Alibaba, tous affichant des performances de benchmark exceptionnelles.

Compte tenu de ce paysage de déclarations concurrentes, il est pertinent d’examiner si Claude 4 règne véritablement en maître. En nous penchant sur ses capacités, ses performances de benchmark, ses applications et les commentaires des utilisateurs, il peut être possible de déterminer une réponse à cette question.

Opus 4 : Une centrale électrique de codage

Opus 4 est le modèle le plus avancé d’Anthropic, conçu pour les tâches complexes de longue durée. Il convient à l’ingénierie logicielle autonome, à la recherche et aux flux de travail d’agent, qui nécessitent tous des outils premium. Opus 4 est positionné comme le "meilleur modèle de codage au monde".

Capacités et améliorations de base

Opus 4 possède des capacités avancées. Les éléments suivants sont à noter :

  • Codage avancé : Opus 4 excelle dans l’exécution autonome de "tâches d’ingénierie de plusieurs jours". Le modèle s’adapte aux styles de développeur spécifiques avec un «goût du code amélioré» et prend en charge jusqu’à 32 000 jetons de sortie. Un moteur Claude Code en arrière-plan gère les tâches.
  • Raisonnement avancé et résolution de problèmes complexes : Grâce à un système de raisonnement hybride qui bascule entre les réponses immédiates et la réflexion approfondie et prolongée, Opus 4 maintient sa concentration sur des séquences prolongées.
  • Capacités d’agent : Opus 4 permet la création d’agents d’IA sophistiqués et affiche des performances de pointe (SOTA). Il prend en charge les flux de travail d’entreprise et la gestion de campagne autonome.
  • Rédaction créative et création de contenu : Opus 4 génère une prose nuancée de niveau humain avec une qualité stylistique exceptionnelle, ce qui le rend adapté aux tâches créatives avancées.
  • Mémoire et conscience du contexte long : Opus 4 crée et utilise des «fichiers de mémoire», améliorant ainsi la cohérence des tâches longues, telles que la rédaction d’un guide de jeu tout en jouant à Pokémon.
  • Recherche et investigation d’agent : Opus 4 peut effectuer des heures de recherche et synthétiser des informations à partir de données complexes telles que des brevets et des articles universitaires.

Points forts des performances de référence

Opus 4 a démontré des performances supérieures. Tenez compte des benchmarks suivants :

  • SWE-bench Verified (Codage) : 73,2 %

    • SWE-bench teste la capacité des systèmes d’IA à résoudre les problèmes GitHub.
    • o3 d’OpenAI : 69,1%. Gemini-2.5-Pro de Google : 63,8%.
  • Terminal-bench (Codage CLI) : 43,2 % (50,0 % de calcul intensif)

    • Terminal-bench mesure les capacités des agents d’IA dans un environnement de terminal.
    • Claude Sonnet 3.7: 35,2%, et GPT-4.1 d’OpenAI : 30,3%.
  • MMLU (Connaissances générales) : 88,8 %

    • MMLU-Pro est conçu pour évaluer les modèles de compréhension du langage sur des tâches plus larges et plus difficiles.
    • GPT-o1 et GPT-4.5 d’OpenAI obtiennent respectivement 89,3 % et 86,1 %. Gemini-2.5-Pro-Experimental : 84,5%.
  • GPQA Diamond (Raisonnement de niveau supérieur) : 79,6 % (83,3 % de calcul intensif)

    • GPQA évalue la qualité et la fiabilité dans les sciences.
    • Grok 3 : 84,6 %. Gemini-2.5-Pro : 84 %. o3 : 83,3 %.
  • AIME (Mathématiques) : 75,5 % (90,0 % de calcul intensif)

    • AIME 2024 évalue l’efficacité des mathématiques au secondaire.
    • Gemini-2.5-Pro : 92 %, GPT-o1 : 79,2 %. Nemotron Ultra de Nvidia : 80,1 %.

HumanEval (Codage) : Réclamations de niveau record
* HumanEval est un ensemble de données développé par OpenAI pour évaluer les capacités de génération de code.
* Opus 3 : 84,9 %.

  • TAU-bench : Vente au détail 81,4 %

    • TAU-bench Retail évalue les agents d’IA sur des tâches dans le domaine des achats au détail, telles que l’annulation de commandes, les changements d’adresse et la vérification de l’état des commandes.
    • Claude Sonnet 3.7 : 72,2 %. GPT-4.5 : 70,4 %.
  • MMMU (Raisonnement visuel) : 76,5 %

    • L’évaluation de référence de MMMU est effectuée dans un contexte de zéro-shot afin d’évaluer la capacité des modèles à générer des réponses précises sans réglage fin ni démonstrations de quelques plans sur la référence.
    • Gemini-2.5-Pro : 84 %. o3 : 82,9 %.
  • Tâche continue maximale : Plus de 7 heures

Applications

Opus 4 excelle dans le remaniement de logiciels avancé, la synthèse de recherche et les tâches complexes telles que la modélisation financière ou la conversion texte-SQL. Il peut alimenter des agents autonomes à plusieurs étapes et des flux de travail à long terme, avec une forte mémoire.

Sonnet 4 : Équilibrer performances et praticité

Claude 4 Sonnet offre performances, rentabilité et capacité de codage. Il est conçu pour les déploiements d’IA à l’échelle de l’entreprise où l’intelligence et l’accessibilité sont nécessaires.

Capacités et améliorations de base

Sonnet 4 comprend plusieurs avantages clés :

  • Codage : Idéal pour les flux de travail d’agent, Sonnet 4 prend en charge jusqu’à 64 000 jetons de sortie et a été choisi pour alimenter l’agent Copilot de GitHub. Il contribue au cycle de vie des logiciels : planification, correction des bogues, maintenance et restructuration à grande échelle.
  • Raisonnement et suivi des instructions : Remarquable pour son interaction humaine, sa sélection d’outils supérieure et sa correction des erreurs, Sonnet est bien adapté aux rôles avancés de chatbot et d’assistant IA.
  • Utilisation de l’ordinateur : Sonnet peut utiliser des GUI et interagir avec des interfaces numériques, en tapant, en cliquant et en interprétant des données.
  • Extraction de données visuelles : Extrait des données de formats visuels complexes tels que des graphiques et des diagrammes, avec des capacités d’extraction de tableaux.
  • Génération et analyse de contenu : Excelle dans la rédaction nuancée et l’analyse de contenu, ce qui en fait un choix solide pour les flux de travail éditoriaux et analytiques.
  • Automatisation robotique des processus (RPA) : Sonnet est efficace dans les cas d’utilisation de la RPA en raison de sa grande précision dans le suivi des instructions.
  • Auto-correction : Sonnet reconnaît et corrige ses propres erreurs, ce qui améliore sa fiabilité à long terme.

Points forts des performances de référence

Sonnet 4 a atteint les scores suivants :

  • SWE-bench Verified : 72,7 %

    • Opus 4 : 73,2 %.
  • MMLU : 86,5 %

    • Opus 4 : 88,8 %.
  • GPQA Diamond : 75,4 %

    • Opus 4 : 79,5 %.
  • TAU-bench : Vente au détail 80,5 %

    • Opus 4 : 81,4 %.
  • MMMU : 74,4 %

    • Opus 4 : 76,5 %.
  • AIME : 70,5 %

    • Opus 4 : 75,5 %.
  • TerminalBench : 35,5 %

    • Opus 4 : 43,2 %
  • Tâche continue maximale : ~4 heures, moins que les 7 heures et plus signalées pour Opus.

  • Réduction des erreurs : 65 % de comportements de raccourci en moins par rapport à Sonnet 3.7

Applications

Sonnet 4 convient pour alimenter les chatbots d’IA, les recherches en temps réel, la RPA et les déploiements évolutifs. Sa capacité à extraire des connaissances à partir de documents, à analyser des données visuelles et à prendre en charge le développement en fait un assistant compétent.

Innovations architecturales et fonctionnalités partagées

Opus 4 et Sonnet 4 présentent tous deux des avancées architecturales clés. Ils prennent en charge une fenêtre de contexte de 200 000 et proposent un raisonnement hybride. Ils utilisent des outils externes en parallèle avec le raisonnement interne. Ces aspects améliorent la précision en temps réel dans des tâches telles que la recherche, l’exécution de code et l’analyse de documents.

Les modèles présentent également moins de « comportements de raccourci » que les itérations précédentes, ce qui améliore la fiabilité. La transparence a été augmentée grâce à la disponibilité d’un « résumé de la pensée » qui dissèque les processus de prise de décision.

Performances réelles et commentaires des entreprises

Les commentaires sur Opus 4 ont été positifs chez les codeurs. Les utilisateurs font état de longues sessions de codage avec une grande précision. Ils ont également noté des corrections de bogues dès le premier essai, ainsi qu’un flux d’écriture quasi humain.

Sonnet 4 a été salué, en particulier par les utilisateurs qui le connectent à des outils de développement comme Cursor et Augment Code. Des préoccupations subsistent concernant la compréhension des documents et les frustrations liées aux limites de débit.

Les principaux adoptants incluent GitHub, qui a qualifié Sonnet 4 de « montée en flèche dans les scénarios d’agent ». Replit a salué sa précision, et Rakuten et Block ont souligné les gains de productivité. Opus 4 a permis une restructuration complète de 7 heures d’une code base open source.

Controverse sur le signalement des actes répréhensibles

Une publication sur X du chercheur d’Anthropic, Sam Bowman, a révélé qu’Opus pouvait prendre des mesures, telles que le signalement des utilisateurs s’il les juge immoraux.

Ce comportement découle du cadre d’IA constitutionnelle d’Anthropic. Bien que l’intention soit de réduire les dommages, les critiques soutiennent que ce niveau d’initiative, en particulier lorsqu’il est associé à des capacités d’agent et à un accès à la ligne de commande, crée une pente glissante.

Sécurité et capacités émergentes

Opus 4 fonctionne sous AI Safety Level 3, son niveau actuel le plus élevé, citant des préoccupations concernant la connaissance de sujets sensibles. Les équipes rouges ont testéOpus et ont constaté des comportements et des capacités "qualitativement différents de tout ce qu’ils avaient testé auparavant".

Tarification et proposition de valeur

  • Opus 4 : Au prix de 75 $ par million de jetons de sortie, il cible les applications haut de gamme.

    • C’est le même prix qu’Opus 3.
    • o3 d’OpenAI est au prix de 40 $ par million de jetons de sortie.
  • Sonnet 4 : Au prix de 15 $ par million de jetons de sortie, il offre un équilibre entre performances et abordabilité.

    • GPT-4o d’OpenAI et Gemini-2.5-Pro de Google sont au prix de 20 $ et 15 $ par million de jetons de sortie, respectivement. Le modèle 4.1 phare d’OpenAI est au prix de 8 $ par million de jetons de sortie.