Un test de raisonnement non conventionnel
Anthropic, une entreprise de recherche en IA de premier plan, s’est lancée dans une expérience unique pour tester les capacités de son dernier modèle d’IA, Claude 3.7 Sonnet. Au lieu des benchmarks traditionnels, Anthropic a choisi une approche plus non conventionnelle : laisser l’IA jouer à Pokémon Red sur un stream Twitch en direct. Cette initiative a captivé l’attention d’un public diversifié, les spectateurs se connectant pour assister aux progrès lents mais délibérés de l’IA à travers le titre classique de Game Boy.
Pourquoi Pokémon ? Un défi étonnamment complexe
À première vue, Pokémon Red, un jeu conçu principalement pour les enfants, peut sembler un choix étrange pour évaluer une IA de pointe. Cependant, le jeu présente un ensemble étonnamment complexe de défis qui nécessitent un raisonnement logique, une résolution de problèmes et une planification stratégique. Ce sont précisément les domaines dans lesquels Anthropic vise à repousser les limites du développement de l’IA.
La nature ouverte du jeu, avec sa myriade d’énigmes, d’obstacles et d’interactions de personnages interconnectés, offre un environnement riche pour tester la capacité de l’IA à :
- Comprendre et répondre aux instructions en langage naturel : L’IA doit interpréter les commandes textuelles et les retours d’information de l’environnement du jeu.
- Formuler des objectifs à court et à long terme : Du choix du bon Pokémon pour une bataille à la navigation sur des itinéraires complexes, l’IA doit planifier à l’avance.
- S’adapter aux situations inattendues : Le jeu est plein de rencontres aléatoires et d’événements imprévisibles, forçant l’IA à ajuster ses stratégies à la volée.
- Apprendre de l’expérience : L’IA doit se souvenir des succès et des échecs passés pour améliorer ses performances au fil du temps.
Progrès lents et réguliers : le voyage de l’IA
Le livestream a révélé un voyage fascinant, bien que souvent lent, de Claude 3.7 Sonnet à travers le monde de Pokémon. Le gameplay de l’IA est caractérisé par un mélange d’exploits impressionnants de raisonnement et de moments de perplexité totale.
Dans les premières étapes, l’IA a eu du mal avec les tâches les plus élémentaires. Quitter la ville de départ, une tâche qu’un joueur humain pourrait accomplir en quelques minutes, s’est avérée être un obstacle important pour Claude. Elle a passé des heures à se débattre avec les commandes et la disposition spatiale du jeu, se retrouvant souvent coincée dans les coins ou interagissant à plusieurs reprises avec les mêmes objets.
Cependant, au fur et à mesure que le stream progressait, l’IA a commencé à démontrer une compréhension croissante des mécanismes du jeu. Elle a appris à :
- Naviguer à travers différentes zones.
- S’engager dans des combats avec d’autres dresseurs de Pokémon.
- Capturer des Pokémon sauvages.
- Utiliser des objets de manière stratégique.
- Même vaincre plusieurs champions d’arène, une étape majeure dans le jeu.
Moments de brillance et de frustration
Les moments de brillance de l’IA sont souvent entrecoupés de périodes d’inactivité frustrante ou de décisions apparemment illogiques. Il y a eu des cas où Claude :
- Est devenue obsédée par des objets apparemment insignifiants, comme un mur de roche, passant des heures à essayer d’interagir avec lui avant de finalement raisonner pour le contourner.
- A fait des choix déroutants au combat, comme utiliser des mouvements inefficaces ou passer à des Pokémon plus faibles.
- S’est retrouvée coincée dans des boucles, répétant les mêmes actions encore et encore sans faire de progrès.
Ces moments mettent en évidence les défis inhérents au développement d’une IA capable de vraiment comprendre et d’interagir avec des environnements complexes et dynamiques. Bien que Claude 3.7 Sonnet ait fait des progrès significatifs en matière de raisonnement et de résolution de problèmes, il lui reste encore un long chemin à parcourir avant de pouvoir égaler la compréhension intuitive et l’adaptabilité d’un joueur humain.
Un clin d’œil au passé : ‘Twitch Plays Pokémon’
Cette expérience attire inévitablement des comparaisons avec le phénomène viral ‘Twitch Plays Pokémon’, qui a captivé Internet il y a plusieurs années. Dans cette expérience, des milliers de spectateurs de Twitch ont collaboré pour contrôler un seul personnage dans Pokémon Red, en utilisant des commandes textuelles dans le chat. Le résultat a été une partie chaotique mais finalement réussie, pilotée par l’intelligence collective (et les trolls occasionnels) de la communauté en ligne.
L’expérience d’Anthropic, cependant, représente un écart significatif par rapport à ce modèle collaboratif. Ici, l’IA joue en solo, essayant de relever les défis du jeu sans aucune intervention humaine. Ce passage d’un gameplay humain collectif à un contrôle individuel de l’IA a suscité des réactions mitigées de la part des spectateurs. Certains s’émerveillent des progrès technologiques affichés, tandis que d’autres déplorent la perte de l’expérience partagée et de l’humour imprévisible qui caractérisaient ‘Twitch Plays Pokémon’.
Une perspective plus large : implications pour le développement de l’IA
Au-delà de la valeur de divertissement, l’expérience Pokémon d’Anthropic a des implications plus larges pour le domaine du développement de l’IA. Elle fournit des informations précieuses sur les forces et les faiblesses des modèles d’IA actuels, en particulier dans les domaines suivants :
- Traitement du langage naturel : La capacité de l’IA à comprendre et à répondre aux informations textuelles dans le jeu est cruciale pour son succès.
- Apprentissage par renforcement : L’IA apprend par essais et erreurs, améliorant progressivement ses performances en fonction des récompenses et des punitions qu’elle reçoit dans le jeu.
- Généralisation : La capacité de l’IA à appliquer ce qu’elle a appris dans une situation à des situations nouvelles et non familières est essentielle à ses progrès à long terme.
En étudiant comment Claude 3.7 Sonnet relève les défis de Pokémon Red, les chercheurs d’Anthropic peuvent mieux comprendre comment développer des systèmes d’IA plus robustes, adaptables et capables de gérer les complexités du monde réel.
L’avenir de l’IA et des jeux
L’intersection de l’IA et des jeux vidéo est un domaine en évolution rapide, avec des applications potentielles bien au-delà du divertissement. Les jeux offrent un environnement contrôlé et mesurable pour tester et affiner les algorithmes d’IA, et les leçons apprises peuvent être appliquées à un large éventail de problèmes du monde réel, tels que :
- Robotique : Entraîner des robots à naviguer dans des environnements complexes et à interagir avec des objets.
- Véhicules autonomes : Développer des voitures autonomes capables de prendre des décisions sûres et fiables dans des conditions de circulation imprévisibles.
- Soins de santé : Créer des outils de diagnostic et des plans de traitement personnalisés alimentés par l’IA.
- Éducation : Concevoir des systèmes de tutorat intelligents capables de s’adapter aux besoins individuels des élèves.
Alors que la technologie de l’IA continue de progresser, nous pouvons nous attendre à voir des applications encore plus sophistiquées et surprenantes de l’IA dans les jeux vidéo, et au-delà. L’expérience Pokémon d’Anthropic n’est qu’un petit pas dans ce voyage passionnant, mais elle offre un aperçu du potentiel de l’IA à transformer la façon dont nous vivons, travaillons et jouons.
Le jeu est peut-être conçu pour les enfants, mais il s’avère être un outil très utile pour la recherche en IA. Les défis de l’environnement obligent l’IA à développer des compétences de raisonnement et offrent de nombreuses opportunités d’apprentissage. Bien que l’IA soit loin d’être parfaite, elle a montré que les modèles s’améliorent dans la résolution d’énigmes complexes.
L’expérience a rappelé des souvenirs de ‘Twitch Plays Pokemon’, où des milliers de personnes ont travaillé ensemble. Maintenant, l’IA relève ces défis en solo, montrant à quel point la technologie a progressé. C’est un grand changement par rapport au gameplay humain collaboratif vers une machine qui joue, et cela montre à quel point l’IA se développe.