ChatGPT peut-il déjouer le test de Turing ?

La notion que ChatGPT réussisse avec succès le test de Turing est de plus en plus perçue comme une issue inévitable. En effet, certains chercheurs sont déjà convaincus qu’il a accompli cet exploit.

L’évolution des chatbots, illustrée par ChatGPT, présente une augmentation remarquable de l’intelligence, du naturel et des qualités humaines. Cette progression est logique, étant donné que les humains sont les architectes des grands modèles de langage (LLM) qui forment le fondement de ces chatbots IA. Alors que ces outils affinent leurs capacités de "raisonnement" et imitent la parole humaine avec une plus grande précision, une question cruciale se pose : sont-ils suffisamment avancés pour passer le test de Turing ?

Pendant des décennies, le test de Turing a été un point de repère essentiel dans l’évaluation de l’intelligence des machines. Actuellement, les chercheurs soumettent activement les LLM comme ChatGPT à cette évaluation rigoureuse. Un résultat positif représenterait une étape monumentale dans le domaine du développement de l’IA.

Alors, ChatGPT est-il capable de passer le test de Turing ? Certains chercheurs affirment que oui. Cependant, les résultats restent ouverts à l’interprétation. Le test de Turing n’offre pas un résultat binaire simple, ce qui rend les résultats quelque peu ambigus. De plus, même si ChatGPT devait passer le test de Turing, cela ne fournirait pas une indication définitive des qualités "humaines" inhérentes à un LLM.

Plongeons dans les complexités.

Décortiquer le test de Turing

L’essence du test de Turing est remarquablement simple.

Conçu par le mathématicien britannique Alan Turing, une figure pionnière de l’informatique, le Jeu de l’imitation, comme on l’appelait initialement, sert de test décisif pour l’intelligence des machines. Le test de Turing implique qu’un évaluateur humain engage des conversations avec un humain et une machine, sans savoir lequel est lequel. Si l’évaluateur est incapable de distinguer la machine de l’humain, la machine est réputée avoir passé le test de Turing. Dans un cadre de recherche, ce test est effectué plusieurs fois avec divers évaluateurs.

Il est crucial de reconnaître que ce test ne vérifie pas définitivement si un LLM possède le même niveau d’intelligence qu’un humain. Au lieu de cela, il évalue la capacité du LLM à se faire passer de manière convaincante pour un humain.

Le processus de pensée des LLM

Les LLM, de par leur nature même, sont dépourvus de cerveau physique, de conscience ou d’une compréhension globale du monde. Ils sont dépourvus de conscience de soi et ne possèdent pas de véritables opinions ou croyances.

Ces modèles sont entraînés sur de vastes ensembles de données comprenant un large éventail de sources d’information, notamment des livres, des articles en ligne, des documents et des transcriptions. Lorsqu’un utilisateur fournit une entrée textuelle, le modèle d’IA utilise ses capacités de "raisonnement" pour discerner la signification et l’intention les plus probables derrière l’entrée. Par la suite, le modèle génère une réponse basée sur cette interprétation.

À la base, les LLM fonctionnent comme des moteurs sophistiqués de prédiction de mots. Tirant parti de leurs vastes données d’entraînement, ils calculent les probabilités pour le "token" initial (généralement un seul mot) de la réponse, en s’appuyant sur leur vocabulaire. Ce processus itératif se poursuit jusqu’à ce qu’une réponse complète soit formulée. Bien que cette explication soit simplifiée, elle capture l’essence de la façon dont les LLM génèrent des réponses basées sur des probabilités statistiques plutôt que sur une véritable compréhension du monde.

Par conséquent, il est inexact de suggérer que les LLM "pensent" au sens conventionnel du terme.

Preuves empiriques : ChatGPT et le test de Turing

De nombreuses études ont exploré les performances de ChatGPT au test de Turing, et beaucoup ont donné des résultats positifs. Cela a conduit certains informaticiens à affirmer que les LLM tels que GPT-4 et GPT-4.5 ont maintenant dépassé le seuil du test de Turing.

La plupart de ces évaluations se concentrent sur le modèle GPT-4 d’OpenAI, qui alimente la majorité des interactions ChatGPT. Une étude menée par l’UC San Diego a révélé que les évaluateurs humains étaient fréquemment incapables de différencier GPT-4 d’un humain. Dans cette étude, GPT-4 a été identifié à tort comme un humain dans 54 % des cas. Cependant, cette performance était toujours inférieure à celle des humains réels, qui ont été correctement identifiés comme humains 67 % du temps.

Suite à la sortie de GPT-4.5, les chercheurs de l’UC San Diego ont reproduit l’étude. Cette fois, le LLM a été identifié comme humain dans 73 % des cas, dépassant ainsi les performances des humains réels. L’étude a également indiqué que LLaMa-3.1-405B de Meta était capable de réussir le test.

Des études similaires menées indépendamment de l’UC San Diego ont également attribué des notes de passage à GPT. Une étude de 2024 de l’Université de Reading a impliqué GPT-4 générant des réponses aux évaluations à domicile pour les cours de premier cycle. Les correcteurs n’étaient pas au courant de l’expérience et n’ont signalé qu’une seule soumission sur 33. ChatGPT a reçu des notes supérieures à la moyenne pour les 32 entrées restantes.

Ces études sont-elles concluantes ? Pas entièrement. Certains critiques soutiennent que ces résultats de recherche sont moins impressionnants qu’il n’y paraît. Ce scepticisme nous empêche de déclarer définitivement que ChatGPT a réussi le test de Turing.

Néanmoins, il est évident que si les générations précédentes de LLM, telles que GPT-4, réussissaient occasionnellement le test de Turing, les résultats positifs sont de plus en plus fréquents à mesure que les LLM continuent de progresser. Avec l’émergence de modèles de pointe comme GPT-4.5, nous approchons rapidement d’un point où les modèles peuvent systématiquement réussir le test de Turing.

OpenAI envisage un avenir où il deviendra impossible de distinguer l’humain de l’IA. Cette vision se reflète dans l’investissement du PDG d’OpenAI, Sam Altman, dans un projet de vérification humaine impliquant un dispositif de balayage oculaire connu sous le nom de The Orb.

L’auto-évaluation de ChatGPT

Lorsqu’on lui a demandé s’il pouvait réussir le test de Turing, ChatGPT a répondu par l’affirmative, avec cependant les réserves qui ont déjà été évoquées. Lorsqu’on lui a posé la question : "ChatGPT peut-il réussir le test de Turing ?", le chatbot IA (utilisant le modèle 4o) a déclaré que "ChatGPT peut réussir le test de Turing dans certains scénarios, mais pas de manière fiable ou universelle". Le chatbot a conclu que "Il pourrait réussir le test de Turing avec un utilisateur moyen dans des conditions occasionnelles, mais un interrogateur déterminé et réfléchi pourrait presque toujours le démasquer."

Limites du test de Turing

Certains informaticiens considèrent maintenant le test de Turing comme obsolète et de valeur limitée dans l’évaluation des LLM. Gary Marcus, un psychologue américain, spécialiste des sciences cognitives, auteur et commentateur de l’IA, a résumé succinctement ce point de vue dans un récent article de blog, déclarant que "comme moi (et beaucoup d’autres) l’avons dit pendant des années, le test de Turing est un test de la crédulité humaine, pas un test d’intelligence."

Il est également important de se rappeler que le test de Turing se concentre sur la perception de l’intelligence plutôt que sur l’intelligence réelle. Cette distinction est cruciale. Un modèle comme ChatGPT 4o peut réussir le test simplement en imitant la parole humaine. De plus, le succès d’un LLM au test dépendra du sujet de discussion et de l’évaluateur. ChatGPT pourrait exceller dans une conversation informelle, mais avoir du mal avec des interactions nécessitant une véritable intelligence émotionnelle. De plus, les systèmes d’IA modernes sont de plus en plus utilisés pour des applications au-delà de la simple conversation, en particulier à mesure que nous progressons vers un monde d’IA agentique.

Cela ne veut pas dire que le test de Turing est totalement hors de propos. Il reste un point de repère historique important, et il est remarquable que les LLM soient capables de le réussir. Cependant, le test de Turing n’est pas la mesure ultime de l’intelligence des machines.

Au-delà du test de Turing : à la recherche d’un meilleur benchmark

Le test de Turing, bien qu’historiquement significatif, est de plus en plus considéré comme une mesure inadéquate de la véritable intelligence artificielle. L’accent mis sur l’imitation de la conversation humaine néglige des aspects cruciaux de l’intelligence, tels que la résolution de problèmes, la créativité et l’adaptabilité. La dépendance du test à la tromperie soulève également des préoccupations éthiques, car il encourage les systèmes d’IA à feindre des qualités humaines plutôt qu’à développer une véritable intelligence.

La nécessité de nouvelles mesures

À mesure que la technologie de l’IA progresse, la nécessité de benchmarks plus complets et pertinents devient de plus en plus évidente. Ces nouvelles mesures devraient remédier aux lacunes du test de Turing et fournir une évaluation plus précise des capacités de l’IA. Voici quelques orientations potentielles pour les futurs benchmarks :

  • Résolution de problèmes du monde réel : Tests qui exigent des systèmes d’IA qu’ils résolvent des problèmes complexes du monde réel, tels que la conception d’un réseau énergétique durable ou le développement d’un remède contre une maladie.
  • Tâches créatives : Évaluations qui évaluent la capacité d’une IA à générer un contenu original et imaginatif, comme l’écriture d’un roman, la composition de musique ou la création d’œuvres d’art.
  • Adaptabilité et apprentissage : Mesures qui mesurent la capacité d’une IA à apprendre de nouvelles expériences et à s’adapter à des environnements changeants.
  • Considérations éthiques : Évaluations qui évaluent la capacité d’une IA à prendre des décisions éthiques et à éviter les biais.

Exemples de benchmarks émergents

Plusieurs nouveaux benchmarks émergent pour remédier aux limites du test de Turing. Ceux-ci inclus:

  • Le Winograd Schema Challenge : Ce test se concentre sur la capacité d’une IA à comprendre les pronoms ambigus dans les phrases.
  • Le AI2 Reasoning Challenge : Ce benchmark évalue la capacité d’une IA à raisonner et à répondre à des questions basées sur des textes complexes.
  • Le Commonsense Reasoning Challenge : Ce test évalue la compréhension par une IA des connaissances du bon sens et sa capacité à faire des déductions.

L’avenir de l’évaluation de l’IA

L’avenir de l’évaluation de l’IA impliquera probablement une combinaison de différents benchmarks, chacun conçu pour évaluer des aspects spécifiques de l’intelligence. Ces benchmarks devraient être en constante évolution pour suivre le rythme des progrès rapides de la technologie de l’IA. De plus, il est essentiel d’impliquer diverses parties prenantes, notamment des chercheurs, des décideurs politiques et le public, dans le développement et l’évaluation des benchmarks de l’IA.

Aller au-delà du mimétisme

En fin de compte, l’objectif de la recherche sur l’IA devrait être de développer des systèmes qui sont non seulement intelligents, mais aussi bénéfiques pour l’humanité. Cela nécessite d’aller au-delà de la poursuite du mimétisme humain et de se concentrer sur le développement de systèmes d’IA capables de résoudre des problèmes du monde réel, d’améliorer la créativité et de promouvoir une prise de décision éthique. En adoptant de nouveaux benchmarks et en nous concentrant sur ces objectifs plus larges, nous pouvons libérer tout le potentiel de l’IA et créer un avenir où l’IA et les humains travaillent ensemble pour créer un monde meilleur.