Claude 3.7 : L'Agent de Codage d'Anthropic

Claude 3.7 Sonnet : Une Nouvelle Référence en Matière de Codage

La récente sortie de Claude 3.7 Sonnet, il y a à peine deux semaines, en est une preuve convaincante. Cette dernière itération a pulvérisé les records existants en matière de performances de codage. Simultanément, Anthropic a dévoilé Claude Code, un agent d’IA en ligne de commande conçu pour accélérer le développement d’applications pour les programmeurs. Ajoutant à cet élan, Cursor, un éditeur de code alimenté par l’IA qui utilise par défaut le modèle Claude d’Anthropic, aurait grimpé en flèche pour atteindre un chiffre d’affaires annuel récurrent impressionnant de 100 millions de dollars en seulement 12 mois.

L’accent délibéré d’Anthropic sur le codage coïncide avec la reconnaissance croissante par les entreprises du potentiel de transformation des agents de codage IA. Ces agents permettent à la fois aux développeurs expérimentés et aux personnes sans expertise en codage de créer des applications avec une rapidité et une efficacité sans précédent. Comme l’a déclaré Guillermo Rauch, PDG de Vercel, une entreprise en pleine expansion permettant aux développeurs (y compris les non-codeurs) de déployer des applications frontales, “Anthropic continue de se hisser au sommet”. La décision de Vercel, l’année dernière, de remplacer son principal modèle de codage, GPT d’OpenAI, par Claude d’Anthropic, après une évaluation approfondie de leurs performances sur des tâches de codage cruciales, souligne ce point.

Claude 3.7 Sonnet, lancé le 24 février, a démontré qu’il prenait la tête de presque tous les benchmarks de codage. Il a obtenu un remarquable 70,3 % sur le très réputé benchmark SWE-bench, une mesure des capacités de développement logiciel d’un agent. Ce score dépasse largement ceux de ses concurrents les plus proches, o1 d’OpenAI (48,9 %) et DeepSeek-R1 (49,2 %). De plus, Claude 3.7 présente des performances supérieures sur les tâches agentiques.

Ces résultats de benchmark ont été rapidement validés par les communautés de développeurs grâce à des tests en conditions réelles. Les discussions en ligne, en particulier sur des plateformes comme Reddit, comparant Claude 3.7 à Grok 3 (le dernier modèle de xAI d’Elon Musk), favorisent systématiquement le modèle d’Anthropic pour les tâches de codage. Un commentateur de premier plan a résumé le sentiment : “D’après ce que j’ai testé, Claude 3.7 semble être le meilleur pour écrire du code (du moins pour moi)”. Il est très important de remarquer que même Manus, le nouvel agent polyvalent chinois qui a pris le monde d’assaut plus tôt cette semaine, a déclaré qu’il était meilleur que Deep Research d’Open AI et d’autres tâches autonomes, était largement basé sur Claude.

Focus Stratégique : Le Pari d’Anthropic sur l’Entreprise

L’accent inébranlable d’Anthropic sur les capacités de codage est loin d’être accidentel. Des projections divulguées rapportées par The Information suggèrent qu’Anthropic vise un chiffre d’affaires stupéfiant de 34,5 milliards de dollars d’ici 2027. Cela représente une augmentation de 86 fois par rapport à ses niveaux actuels. Une part substantielle (environ 67 %) de ce chiffre d’affaires projeté devrait provenir de l’activité API, les applications de codage d’entreprise servant de principal moteur de croissance. Bien qu’Anthropic n’ait pas divulgué de chiffres de revenus précis, elle a signalé une augmentation remarquable de 1 000 % des revenus de codage au cours du dernier trimestre de 2024. Ajoutant à cet élan financier, Anthropic a récemment annoncé une levée de fonds de 3,5 milliards de dollars, valorisant l’entreprise à un impressionnant 61,5 milliards de dollars.

Cette stratégie centrée sur le codage s’aligne sur les conclusions de l’Economic Index d’Anthropic. L’indice a révélé qu’une part significative de 37,2 % des requêtes adressées à Claude relevait de la catégorie “informatique et mathématiques”. Ces requêtes englobaient principalement des tâches d’ingénierie logicielle telles que la modification de code, le débogage et le dépannage réseau.

L’approche d’Anthropic se démarque dans le paysage concurrentiel, où les rivaux sont souvent pris dans un tourbillon d’activités, tentant de répondre à la fois aux marchés des entreprises et des consommateurs avec un large éventail de fonctionnalités. OpenAI, tout en conservant une forte avance grâce à sa reconnaissance et à son adoption précoces par les consommateurs, est confronté au défi de servir à la fois les utilisateurs réguliers et les entreprises avec un éventail diversifié de modèles et de fonctionnalités. Google, de même, poursuit une stratégie consistant à offrir un vaste portefeuille de produits.

L’approche comparativement disciplinée d’Anthropic se reflète également dans ses décisions en matière de produits. Plutôt que de courir après des parts de marché grand public, l’entreprise a privilégié des fonctionnalités de niveau entreprise telles que l’intégration GitHub, les journaux d’audit, les autorisations personnalisables et les contrôles de sécurité spécifiques au domaine. Six mois auparavant, elle a introduit une fenêtre contextuelle massive de 500 000 jetons pour les développeurs, un contraste frappant avec la décision de Google de limiter sa fenêtre de 1 million de jetons aux testeurs privés. Cette orientation stratégique a abouti à une offre complète, centrée sur le codage, qui trouve de plus en plus d’écho auprès des entreprises.

L’introduction récente par l’entreprise de fonctionnalités permettant aux non-codeurs de publier des applications générées par l’IA au sein de leurs organisations, couplée à la mise à niveau de la console de la semaine dernière, qui offre des capacités de collaboration améliorées (y compris des prompts et des modèles partageables), illustre encore cette tendance. Cette démocratisation reflète une stratégie de “cheval de Troie” : donner d’abord aux développeurs les moyens de construire des fondations solides, puis élargir l’accès à l’ensemble des employés de l’entreprise, pour finalement atteindre la direction.

Expérimentation Pratique avec Claude : Un Test Concret

Pour évaluer les capacités réelles de ces agents de codage, une expérience pratique a été menée, axée sur la construction d’une base de données pour stocker des articles. Trois approches distinctes ont été employées : Claude 3.7 Sonnet via l’application d’Anthropic, l’agent de codage de Cursor et Claude Code.

En utilisant Claude 3.7 directement via l’application d’Anthropic, les conseils fournis étaient remarquablement perspicaces, en particulier pour quelqu’un sans grande expérience en codage. Le modèle a présenté plusieurs options, allant de solutions robustes utilisant des bases de données PostgreSQL à des alternatives plus légères comme Airtable. En optant pour la solution légère, Claude a méthodiquement guidé le processus d’extraction des articles à partir d’une API et de leur intégration dans Airtable à l’aide d’un service de connecteur. Bien que le processus ait pris environ deux heures, principalement en raison de problèmes d’authentification, il a abouti à un système fonctionnel. Essentiellement, au lieu d’écrire de manière autonome tout le code, Claude a fourni un plan complet pour atteindre le résultat souhaité.

Cursor, avec sa dépendance par défaut aux modèles de Claude, a présenté une expérience d’éditeur de code à part entière et a montré une plus grande inclination à l’automatisation. Cependant, il nécessitait une autorisation à chaque étape, ce qui entraînait un flux de travail quelque peu itératif.

Claude Code a offert une approche différente, fonctionnant directement dans le terminal et utilisant SQLite pour créer une base de données locale remplie d’articles provenant d’un flux RSS. Cette solution s’est avérée plus simple et plus fiable pour atteindre l’objectif final, bien que moins robuste et moins riche en fonctionnalités que l’implémentation Airtable. Cela met en évidence les compromis inhérents et souligne l’importance de sélectionner un agent de codage en fonction des exigences spécifiques du projet.

La principale conclusion de cette expérience est que, même en tant que non-développeur, il était possible de construire des applications de base de données fonctionnelles en utilisant les trois approches. Cela aurait été pratiquement inimaginable il y a seulement un an. Et, notamment, les trois approches reposaient sur les capacités sous-jacentes de Claude.

L’Écosystème des Agents de Codage : Cursor et Au-Delà

L’indicateur le plus convaincant du succès d’Anthropic est peut-être la croissance phénoménale de Cursor, un éditeur de code IA. Les rapports indiquent que Cursor a accumulé 360 000 utilisateurs, dont plus de 40 000 sont des clients payants, en seulement 12 mois. Cette trajectoire de croissance rapide positionne potentiellement Cursor comme l’entreprise SaaS la plus rapide à atteindre ce jalon.

Le succès de Cursor est intrinsèquement lié à Claude. Comme l’a observé Sam Witteveen, co-fondateur de Red Dragon (un développeur indépendant d’agents IA), “Il faut penser que leur client numéro un est Cursor. La plupart des gens sur [Cursor] utilisaient déjà le modèle Claude Sonnet - les modèles 3.5 -. Et maintenant, il semble que tout le monde migre vers 3.7.”

La relation entre Anthropic et son écosystème s’étend au-delà des entreprises individuelles comme Cursor. En novembre, Anthropic a introduit son Model Context Protocol (MCP) en tant que norme ouverte, permettant aux développeurs de construire des outils qui interagissent de manière transparente avec les modèles Claude. Cette norme a été largement adoptée au sein de la communauté des développeurs.

Witteveen a expliqué l’importance de cette approche : “En lançant cela comme un protocole ouvert, ils disent en quelque sorte : ‘Hé, tout le monde, allez-y. Vous pouvez développer tout ce que vous voulez qui correspond à ce protocole. Nous allons prendre en charge ce protocole.’”

Cette stratégie crée un cercle vertueux : les développeurs construisent des outils spécifiquement pour Claude, améliorant sa proposition de valeur pour les entreprises, ce qui, à son tour, stimule l’adoption et attire davantage de développeurs.

Le Paysage Concurrentiel : Microsoft, OpenAI, Google et l’Open Source

Alors qu’Anthropic s’est taillé une niche avec son approche ciblée, les concurrents poursuivent diverses stratégies avec plus ou moins de succès.

Microsoft maintient une forte présence grâce à son GitHub Copilot, qui compte 1,3 million d’utilisateurs payants et a été adopté par plus de 77 000 organisations en environ deux ans. Des entreprises de premier plan telles que Honeywell, State Street, TD Bank Group et Levi’s figurent parmi ses utilisateurs. Cette adoption généralisée est largement attribuée aux relations existantes de Microsoft avec les entreprises et à son avantage de premier arrivé, découlant de son investissement précoce dans OpenAI et de l’utilisation des modèles d’OpenAI pour alimenter Copilot.

Cependant, même Microsoft a reconnu les forces d’Anthropic. En octobre, il a permis aux utilisateurs de GitHub Copilot de sélectionner les modèles d’Anthropic comme alternative aux offres d’OpenAI. De plus, les modèles récents d’OpenAI, o1 et le plus récent o3 (qui mettent l’accent sur le raisonnement par la pensée étendue), n’ont pas démontré d’avantages particuliers dans le codage ou les tâches agentiques.

Google a fait son propre mouvement en offrant récemment son Code Assist gratuitement, mais cela semble être davantage une manœuvre défensive plutôt qu’une initiative stratégique.

Le mouvement open source représente une autre force significative dans ce paysage. Les modèles Llama de Meta ont suscité une traction considérable auprès des entreprises, avec des entreprises majeures comme AT&T, DoorDash et Goldman Sachs déployant des modèles basés sur Llama pour diverses applications. L’approche open source offre aux entreprises un plus grand contrôle, des options de personnalisation et des avantages en termes de coûts que les modèles fermés ne peuvent souvent pas égaler.

Plutôt que de considérer cela comme une menace directe, Anthropic semble se positionner comme complémentaire à l’open source. Les clients d’entreprise peuvent tirer parti de Claude en conjonction avec des modèles open source en fonction de leurs besoins spécifiques, en adoptant une approche hybride qui maximise les forces de chacun.

En fait, de nombreuses grandes entreprises ont adopté une approche multimodale, utilisant le modèle le mieux adapté à une tâche donnée. Intuit, par exemple, s’est initialement appuyé sur OpenAI par défaut pour ses applications de déclaration de revenus, mais est ensuite passé à Claude en raison de ses performances supérieures dans certains scénarios. Cette expérience a conduit Intuit à développer un framework d’orchestration IA qui a facilité le passage transparent entre les modèles.

La plupart des autres entreprises ont depuis adopté une pratique similaire, en employant le modèle le plus approprié pour chaque cas d’utilisation spécifique, intégrant souvent les modèles via de simples appels API. Alors qu’un modèle open source comme Llama peut convenir dans certains cas, Claude est souvent le choix préféré pour les tâches nécessitant une grande précision, telles que les calculs.

Implications pour les Entreprises : Naviguer vers les Agents de Codage

Pour les décideurs d’entreprise, ce paysage en évolution rapide présente à la fois des opportunités et des défis.

La sécurité reste une préoccupation primordiale, mais un rapport indépendant récent a identifié Claude 3.7 Sonnet comme le modèle le plus sûr à ce jour, étant le seul testé qui s’est avéré “à l’épreuve des jailbreaks”. Cette posture de sécurité, combinée au soutien d’Anthropic par Google et Amazon (et à l’intégration dans AWS Bedrock), le positionne favorablement pour l’adoption par les entreprises.

La prolifération des agents de codage ne transforme pas seulement la façon dont les applications sont développées ; elle démocratise le processus. Selon GitHub, 92 % des développeurs américains travaillant dans des entreprises utilisaient déjà des outils de codage alimentés par l’IA au travail il y a 18 mois. Ce chiffre a probablement augmenté de manière significative depuis lors.

Witteveen a souligné le rapprochement entre les membres techniques et non techniques de l’équipe : “Le défi que les gens rencontrent [parce qu’ils] ne sont pas codeurs est qu’ils ne connaissent pas beaucoup la terminologie. Ils ne connaissent pas les meilleures pratiques.” Les agents de codage IA répondent de plus en plus à ce défi, permettant une collaboration plus efficace.

Pour l’adoption par les entreprises, Witteveen préconise une approche équilibrée : “C’est l’équilibre entre la sécurité et l’expérimentation en ce moment. Clairement, du côté des développeurs, les gens commencent à construire de vraies applications avec ces outils.”

L’émergence des agents de codage IA marque un changement fondamental dans le développement de logiciels d’entreprise. Lorsqu’ils sont déployés efficacement, ces outils ne supplantent pas les développeurs, mais transforment plutôt leurs rôles, leur permettant de se concentrer sur l’architecture et l’innovation plutôt que sur les détails de mise en œuvre.

L’approche disciplinée d’Anthropic, qui se concentre spécifiquement sur les capacités de codage alors que les concurrents poursuivent de multiples priorités, semble produire des avantages significatifs. D’ici la fin de 2025, cette période pourrait être rétrospectivement considérée comme le moment charnière où les agents de codage IA sont devenus des outils d’entreprise indispensables, avec Claude en tête.

Pour les décideurs techniques, l’impératif est clair : initier rapidement l’expérimentation avec ces outils ou risquer de se laisser distancer par les concurrents qui les utilisent déjà pour accélérer considérablement les cycles de développement. Cette situation rappelle les débuts de la révolution iPhone, où les entreprises ont d’abord tenté de restreindre les appareils “non autorisés” de leurs réseaux d’entreprise, pour finalement adopter des politiques BYOD (Bring Your Own Device) lorsque la demande des employés est devenue écrasante. Certaines entreprises, comme Honeywell, ont récemment tenté de manière similaire de mettre fin à l’utilisation “sauvage” d’outils de codage IA non approuvés par l’informatique.

Les entreprises intelligentes mettent déjà en place des environnements de bac à sable sécurisés pour faciliter l’expérimentation contrôlée. Les organisations qui établissent des garde-fous clairs tout en favorisant l’innovation récolteront les fruits de l’enthousiasme des employés et des informations sur la manière dont ces outils peuvent le mieux répondre à leurs besoins uniques, se positionnant ainsi en avance sur les concurrents qui résistent au changement. Et Claude d’Anthropic, du moins pour le moment, est un bénéficiaire majeur de ce mouvement de transformation.