IA et TUS : Évaluation des LLM

Introduction

Ces dernières années, les avancées technologiques telles que l’intelligence artificielle (IA) et les grands modèles linguistiques (LLM) ont apporté des changements potentiels aux méthodes d’enseignement médical et d’évaluation des connaissances. En particulier, ces développements peuvent rendre l’information médicale plus accessible et l’évaluation plus interactive.

Des études antérieures ont exploré les performances des LLM dans divers examens de licence médicale tels que l’examen américain de licence médicale (USMLE) et l’examen japonais de licence médicale (JMLE), mais ces examens diffèrent considérablement du TUS en termes de structure et de contenu. Le TUS se concentre sur les sciences fondamentales et les sciences cliniques, et porte une attention particulière au contexte médical turc, ce qui offre une occasion unique d’évaluer les capacités des LLM dans un environnement d’évaluation unique. Cette étude vise à combler cette lacune en évaluant les performances de quatre LLM de premier plan dans le TUS. De plus, cette étude explore l’impact potentiel de ces résultats sur la conception des programmes, la formation médicale assistée par l’IA et l’avenir de l’évaluation médicale en Turquie. Plus précisément, nous examinons comment les performances des LLM peuvent éclairer le développement de ressources éducatives et de stratégies d’évaluation plus efficaces, adaptées aux programmes médicaux turcs. Cette enquête contribue non seulement à la compréhension des performances spécifiques aux langues, mais aussi à une discussion plus large sur la manière d’intégrer efficacement l’IA dans l’enseignement et l’évaluation médicaux à l’échelle mondiale.

Les résultats de ces études indiquent que ChatGPT et des LLM similaires peuvent jouer un rôle important dans l’enseignement médical et le processus d’évaluation des connaissances. L’IA et les LLM dans les méthodes de recherche d’informations médicales et d’évaluation peuvent permettre le développement d’approches innovantes et de méthodes d’apprentissage, en particulier dans l’enseignement médical. Cette étude vise à approfondir l’étude de l’impact des LLM sur l’enseignement médical et l’évaluation des connaissances en évaluant les performances de ChatGPT 4, Gemini 1.5 Pro et Cohere-Command R+ dans l’examen d’entrée aux programmes de formation spécialisée en médecine en Turquie.

Cette étude explore les applications des modèles d’intelligence artificielle (IA) avancés, en particulier ChatGPT 4, Gemini 1.5 Pro, Command R+ et Llama 3 70B, dans l’enseignement et l’évaluation médicaux, en mettant l’accent sur leurs performances dans la résolution de problèmes d’examens de spécialité médicale. L’étude évalue la capacité de ces modèles à effectuer une analyse complète et systématique des questions de l’examen d’entrée aux programmes de formationspécialisée en médecine en Turquie, soulignant le potentiel de l’IA en médecine lors de la prise en compte de facteurs tels que la capacité d’interprétation et la précision. Les résultats suggèrent que les modèles d’IA peuvent contribuer de manière significative au processus d’enseignement et d’évaluation médicaux, ouvrant ainsi la voie à de nouvelles applications et à de nouveaux domaines de recherche. Le but principal de cet article est d’évaluer les progrès rapides des technologies de l’IA et de comparer la réactivité des différents modèles d’IA. L’étude a mené une analyse comparative de ChatGPT 4, Gemini 1.5 Pro, Command R+ et Llama 3 70B en évaluant leurs performances dans les 240 questions du premier semestre de l’examen d’entrée aux programmes de formation spécialisée en médecine en Turquie en 2021.

Cette comparaison vise à élucider la trajectoire et les distinctions du développement des technologies de l’IA, en mettant l’accent sur leur utilité dans des domaines spécialisés tels que l’enseignement médical et la préparation aux examens. L’objectif ultime est de fournir des informations qui aident les utilisateurs à sélectionner les outils d’apprentissage les mieux adaptés à leurs besoins spécifiques.

Méthodes

Les questions ont été posées aux LLM en turc. Les questions ont été obtenues sur le site web officiel du Centre de sélection et de placement des étudiants, sous la forme de questions à choix multiples (avec cinq options de A à E), avec une seule meilleure réponse. Les réponses ont été fournies par les LLM en turc.

Le processus d’évaluation était basé sur les réponses correctes publiées par le Centre de sélection et de placement des étudiants. L’article mentionne : ‘Les réponses ‘correctes’ aux questions du modèle d’intelligence artificielle sont définies en fonction des réponses publiées par le Centre de sélection et de placement des étudiants. Seules les réponses qui ont été identifiées comme correctes en fonction des instructions dans le texte de la question sont acceptées comme ‘correctes’.’ Étant donné que les questions et les réponses sont en turc, le processus d’évaluation impliquait la comparaison des réponses turques du LLM avec la clé de réponses turque officielle fournie par le Centre de sélection et de placement des étudiants.

Ensemble de données d’enseignement médical

Cette étude a utilisé ChatGPT 4, Gemini 1.5 Pro, Command R+ et Llama 3 70B pour tester les capacités des modèles d’IA dans l’évaluation des connaissances médicales et des cas. L’étude a été menée sur les questions de l’examen d’entrée aux programmes de formation spécialisée en médecine en Turquie, qui a eu lieu le 21 mars 2021. L’examen d’entrée aux programmes de formation spécialisée en médecine en Turquie est un examen organisé par le Centre de sélection et de placement des étudiants et comprend 240 questions. Les questions de connaissances de base de la première catégorie testent les connaissances et l’éthique nécessaires pour terminer une formation médicale. La deuxième catégorie est celle des questions de cas, qui couvrent de nombreuses maladies qui mesurent la pensée analytique et les capacités de raisonnement.

Classification de la difficulté des questions

Les niveaux de difficulté des questions ont été classés en fonction des données officielles sur les performances des candidats publiées par le Centre de sélection et de placement des étudiants. Plus précisément, le taux de bonnes réponses signalé par le Centre pour chaque question a été utilisé pour classer les questions en cinq niveaux de difficulté :

  • Niveau 1 (le plus facile) : Questions avec un taux de bonnes réponses de 80 % ou plus.
  • Niveau 2 : Questions avec un taux de bonnes réponses entre 60 % et 79,9 %.
  • Niveau 3 (moyen) : Questions avec un taux de bonnes réponses entre 40 % et 59,9 %.
  • Niveau 4 : Questions avec un taux de bonnes réponses entre 20 % et 39,9 %.
  • Niveau 5 (le plus difficile) : Questions avec un taux de bonnes réponses de 19,9 % ou moins.

Les réponses ‘correctes’ aux questions du modèle d’intelligence artificielle sont définies en fonction des réponses publiées par le Centre de sélection et de placement des étudiants. Seules les réponses qui ont été identifiées comme correctes en fonction des instructions dans le texte de la question sont acceptées comme ‘correctes’. De plus, le niveau de difficulté de chaque question est classé de 1 à 5 en fonction du taux de bonnes réponses publié par le Centre de sélection et de placement des étudiants. Les questions avec un taux de bonnes réponses de 80 % ou plus sont considérées comme les plus faciles (niveau 1), tandis que les questions avec un taux de bonnes réponses de 19,9 % ou moins sont considérées comme les plus difficiles (niveau 5).

Domaines de connaissances et de cas

L’examen d’entrée aux programmes de formation spécialisée en médecine en Turquie est une étape essentielle pour les diplômés en médecine en Turquie qui souhaitent se spécialiser. Il évalue les candidats dans deux domaines clés : les connaissances et les cas. Il est essentiel de comprendre la distinction entre ces domaines pour une préparation adéquate. Le domaine des connaissances se concentre sur l’évaluation de la compréhension théorique et des connaissances factuelles du candidat dans le domaine médical qu’il a choisi. Il teste la maîtrise des concepts et des principes fondamentaux et établit des informations médicales pertinentes pour la profession. Il représente le domaine spécifique des connaissances médicales testées, telles que les sciences médicales de base (anatomie, biochimie, physiologie, etc.) et les sciences cliniques (médecine interne, chirurgie, pédiatrie, etc.) Le domaine des cas, d’autre part, représente des scénarios ou des situations réels qui appliquent des connaissances, tels que la résolution de problèmes, la pensée analytique, la pensée critique, la prise de décision et l’application de concepts à des situations réelles.

Ingénierie des invites

L’ingénierie des invites consiste à concevoir et à affiner des invites en langage naturel afin d’obtenir des réponses spécifiques d’un modèle linguistique ou d’un système d’IA. En avril 2024, nous avons recueilli des réponses en interrogeant directement les modèles linguistiques via leurs interfaces web respectives.

Afin de garantir une évaluation équitable des capacités brutes de chaque modèle, une approche rigoureuse et contrôlée a été mise en œuvre dans la manière dont les questions ont été présentées aux LLM. Chaque question a été saisie individuellement et les sessions ont été réinitialisées avant de poser une nouvelle question, afin d’empêcher les modèles d’apprendre ou de s’adapter en fonction des interactions précédentes.

Analyse des données

Toutes les analyses ont été effectuées à l’aide des logiciels Microsoft Office Excel et Python. Pour comparer les performances des LLM sur différentes difficultés de questions, des tests du chi-deux non appariés ont été effectués. Un seuil de valeur p < 0,05 a été utilisé pour déterminer la signification statistique. L’analyse a évalué si la précision du modèle variait en fonction du niveau de difficulté de la question.

Considérations éthiques

Cette étude a utilisé uniquement des informations disponibles sur Internet et n’a pas impliqué de sujets humains. Par conséquent, l’approbation du comité d’éthique de l’Université de Baskent n’était pas requise.

Résultats

Le nombre moyen de bonnes réponses des candidats qui ont participé à l’examen des sciences médicales fondamentales de la première période de l’examen d’entrée aux programmes de formation spécialisée en médecine en Turquie en 2021 était de 51,63. Le nombre moyen de bonnes réponses à l’examen des sciences médicales cliniques était de 63,95. Le nombre moyen de bonnes réponses à l’examen des sciences médicales cliniques est supérieur à celui de l’examen des sciences médicales fondamentales. Parallèlement à cette situation, les technologies d’intelligence artificielle ont également répondu avec plus de succès à l’examen des sciences médicales cliniques.

Performance de l’IA

Les performances de la plateforme d’IA sont évaluées à l’aide des mêmes indicateurs que les candidats humains.

  • ChatGPT 4 :

    ChatGPT 4 a obtenu un score moyen de 103 bonnes réponses dans la partie des sciences médicales fondamentales et de 110 bonnes réponses dans la partie des sciences médicales cliniques. Cela représente une précision globale de 88,75 %, ce qui est significativement supérieur à la moyenne des candidats humains dans les deux parties (p < 0,001).

  • Llama 3 70B :

    Llama 3 70B a obtenu un score moyen de 95 bonnes réponses dans la partie des sciences médicales fondamentales et de 95 bonnes réponses dans la partie des sciences médicales cliniques. Cela représente une précision globale de 79,17 %, ce qui est également significativement supérieur à la performance humaine moyenne (p < 0,01).

  • Gemini 1.5 Pro :

    Gemini 1.5 Pro a obtenu un score moyen de 94 bonnes réponses dans la partie des sciences médicales fondamentales et de 93 bonnes réponses dans la partie des sciences médicales cliniques. Cela représente une précision globale de 78,13 %, ce qui est significativement supérieur à la performance humaine moyenne (p < 0,01).

  • Command R+ :

    Command R+ a obtenu un score moyen de 60 bonnes réponses dans la partie des sciences médicales fondamentales et de 60 bonnes réponses dans la partie des sciences médicales cliniques. Cela représente une précision globale de 50 %, ce qui n’est pas significativement différent de la performance humaine moyenne dans la partie des sciences médicales fondamentales (p = 0,12), mais significativement inférieur dans la partie des sciences médicales cliniques (p < 0,05).

Les performances de la plateforme d’IA sont évaluées à l’aide des mêmes indicateurs que les candidats humains.

La figure 3 compare la précision des différents LLM en fonction de la difficulté des questions - ChatGPT 4 : Le modèle le plus performant. La précision augmente à mesure que la difficulté des questions augmente, atteignant près de 70 % même pour les questions les plus difficiles - Llama 3 70B : Modèle avec des performances modérées. La précision augmente puis diminue à mesure que la difficulté des questions augmente. Sa précision est d’environ 25 % pour les questions les plus difficiles. Gemini 1.5 70B : Il a des performances similaires à Llama 3 70B. La précision augmente puis diminue à mesure que la difficulté des questions augmente. Sa précision est d’environ 20 % pour les questions les plus difficiles. Command R+ : Le modèle le moins performant. Sa précision diminue à mesure que la difficulté des questions augmente et reste d’environ 15 % pour les questions les plus difficiles

En résumé, ChatGPT 4 est le modèle le moins affecté par la difficulté des questions et a la précision globale la plus élevée. Llama 3 70B et Gemini 1.5 Pro ont des performances modérées, tandis que Command R+ a un taux de réussite inférieur à celui des autres modèles. La précision des modèles diminue à mesure que la difficulté des questions augmente. Cela montre que les LLM ont encore besoin d’améliorations pour comprendre et répondre correctement aux questions complexes

Dans le tableau 1, le modèle ChatGPT 4 se distingue comme le modèle le plus performant avec un taux de réussite de 88,75 %. Cela montre qu’il a une forte capacité à comprendre et à répondre avec précision aux questions. Le modèle Llama 3 70B arrive en deuxième position avec un taux de réussite de 79,17 %. Bien qu’il soit en deçà du modèle ChatGPT 4, il affiche toujours un niveau élevé de compétence dans la réponse aux questions. Le modèle Gemini 1.5 Pro suit de près avec un taux de réussite de 78,13 %. Ses performances sont comparables à celles du modèle Llama 3 70B, ce qui montre qu’il possède de solides capacités de réponse aux questions. D’autre part, le modèle Command R+ est à la traîne par rapport aux autres modèles, avec un taux de réussite de 50 %. Cela suggère qu’il peut avoir des difficultés avec des questions spécifiques ou qu’il a besoin d’un réglage plus fin pour améliorer ses performances. La distribution des bonnes réponses sur différents niveaux de difficulté. Par exemple, tous les modèles ont bien performé sur les questions faciles (niveau de difficulté 1), le modèle ChatGPT 4 obtenant un score parfait. Sur les questions de difficulté modérée (niveaux 2 et 3), les modèles ChatGPT 4 et Llama 3 70B ont continué à bien performer.

En revanche, le modèle Gemini 1.5 Pro a commencé à montrer quelques faiblesses. Sur les questions difficiles (niveaux 4 et 5), les performances de tous les modèles ont diminué, le modèle Command R+ étant celui qui a le plus de difficultés. Dans l’ensemble, ces résultats donnent un aperçu précieux des forces et des faiblesses de chaque modèle d’IA et peuvent éclairer les futurs efforts de développement et d’amélioration

Dans le tableau 3, la biochimie dans les sciences médicales fondamentales a obtenu un score parfait pour ChatGPT 4, ce qui témoigne de sa capacité exceptionnelle à répondre aux questions dans ce domaine. Llama 3 70B et Gemini 1.5 Pro ont également bien performé, mais Command R+ a été à la traîne avec une précision de 50 %. Les modèles les plus performants en pharmacologie, pathologie et microbiologie (ChatGPT 4 et Llama 3 70B) présentent une forte cohérence en matière d’informations, avec une précision comprise entre 81 % et 90 %. Gemini 1.5 Pro et Command R+ sont à la traîne, mais ont tout de même bien performé. L’anatomie et la physiologie ont posé quelques défis aux modèles. ChatGPT 4 et Meta AI-Llama 3 70B ont bien performé, tandis que Gemini 1.5 Pro et Command R+ ont été à la traîne avec une précision inférieure à 70 %.

En sciences médicales cliniques, la pédiatrie était importante pour tous les modèles, ChatGPT 4 obtenant un score proche de la perfection (90 %). Llama 3 70B a suivi de près, et même Command R+ a atteint une précision de 43 %. Les performances en médecine interne et en chirurgie générale étaient supérieures à celles des meilleurs modèles, avec une précision comprise entre 79 % et 90 %. Gemini 1.5 Pro et Command R+ sont à la traîne, mais ont tout de même bien performé. Les spécialités telles que l’anesthésie et la réanimation, la médecine d’urgence, la neurologie et la dermatologie ont soumis moins de questions, mais les modèles ont généralement bien performé. ChatGPT 4 et Llama 3 70B ont fait preuve d’une précision exceptionnelle dans ces domaines

En ce qui concerne la comparaison des modèles, ChatGPT 4 est le modèle le plus performant dans la plupart des domaines, avec une précision globale de 88,75 %. Sa force réside dans sa capacité à répondre avec précision aux questions des sciences médicales fondamentales et des sciences médicales cliniques. Llama 3 70B suit de près avec une précision globale de 79,17 %. Bien qu’il ne corresponde pas tout à fait aux performances de ChatGPT 4, il affiche toujours une forte cohérence en matière de connaissances dans tous les domaines. Gemini 1.5 Pro et Command R+ sont à la traîne, avec une précision globale de 78,13 % et 50 %, respectivement. Bien qu’ils aient montré des promesses dans certains domaines, ils ont eu du mal à maintenir la cohérence dans tous les domaines

En bref, ChatGPT 4 est actuellement le modèle le mieux adapté pour répondre aux questions des sciences médicales dans divers domaines. Gemini 1.5 Pro et Command R+ montrent un potentiel, mais nécessitent des améliorations significatives pour rivaliser avec les modèles les plus performants

Dans le tableau 4, en ce qui concerne le domaine des connaissances, ChatGPT 4 a affiché une précision de 86,7 % (85/98) dans le domaine des sciences médicales fondamentales, ce qui est supérieur à celui des autres modèles. ChatGPT 4 a de nouveau obtenu les meilleures performances, avec une précision de 89,7 % (61/68) dans le domaine des sciences médicales cliniques. En ce qui concerne le domaine des cas, ChatGPT 4 a affiché une précision de 81,8 % (18/22) dans le domaine des sciences médicales fondamentales. Dans le domaine des sciences médicales cliniques, ChatGPT 4 a eu des performances similaires avec une précision de 94,2 % (49/52)

Les comparaisons par paires des modèles montrent que ChatGPT 4 a constamment surperformé les autres modèles dans les deux domaines et types de questions. Llama 3 70B et Gemini 1.5 Pro ont des performances similaires, tandis que Command R+ est à la traîne. D’après cette analyse, nous pouvons conclure que ChatGPT 4 affiche des performances supérieures dans les domaines des connaissances et des cas, ainsi que dans les domaines des sciences médicales fondamentales et des sciences médicales cliniques.

Analyse statistique

Les performances des LLM ont été analysées à l’aide des logiciels Microsoft Office Excel et Python (version 3.10.2). Pour comparer les performances des modèles sur différents niveaux de difficulté des questions, des tests du chi-deux non appariés ont été effectués. Des tableaux de contingence ont été construits pour les réponses correctes et incorrectes de chaque modèle d’IA par niveau de difficulté, et un test du chi-deux a été appliqué pour déterminer s’il existait des différences statistiquement significatives dans les performances entre les niveaux de difficulté. Un seuil de valeur p < 0,05 a été utilisé pour déterminer la signification statistique. La valeur p de ChatGPT 4 était de 0,00028 et était significative à p < 0,05, ce qui indique qu’il existait une différence significative dans les performances entre les différents niveaux de difficulté. La valeur p de Gemini 1.5 Pro était de 0,047 et était significative à p < 0,05, ce qui indique qu’il existait une différence significative dans les performances entre les différents niveaux de difficulté. La valeur p de Command R+ était de 0,197 et n’était pas significative à p < 0,05, ce qui indique qu’il n’existait pas de différence significative dans les performances entre les différents niveaux de difficulté. La valeur p de Llama 3 70B : 0,118, valeur p : 0,118 et n’était pas significative à p < 0,05, ce qui indique qu’il n’existait pas de différence significative dans les performances entre les différents niveaux de difficulté.

La correction des ChatGPT 4 et Gemini 1.5 Pro sur différentes difficultés de questions a montré une différence statistiquement significative, ce qui indique que leurs performances varient considérablement en fonction de la difficulté des questions. Command R+ et Llama 3 70B n’ont pas montré de différences significatives dans les performances entre les niveaux de difficulté, ce qui indique que les performances sont plus cohérentes quelle que soit la difficulté des questions. Ces résultats peuvent indiquer que différents modèles ont des forces et des faiblesses variables dans la gestion de la complexité et des sujets associés à différents niveaux de difficulté.

Discussion

Le TUS est un examen national crucial pour les diplômés en médecine en Turquie qui souhaitent poursuivre une formation spécialisée. L’examen comprend des questions à choix multiples couvrant les sciences fondamentales et les sciences cliniques, et dispose d’un système de classement centralisé qui détermine le classement pour les programmes de spécialité

Lors de l’évaluation des performances des grands modèles linguistiques sur le TUS, GPT-4 est le modèle le plus performant. De même, ChatGPT est un modèle d’IA puissant qui présente des performances proches ou supérieures à celles des humains dans le domaine chirurgical, répondant correctement à 71 % et 68 % des questions à choix multiples SCORE et Data-B, respectivement. De plus, ChatGPT a excellé dans les examens de santé publique, dépassant les taux de réussite actuels et fournissant des informations uniques. Ces résultats mettent en évidence les excellentes performances de GPT-4 et de ChatGPT dans l’évaluation médicale, démontrant leur potentiel pour améliorer l’enseignement médical et les aides au diagnostic potentielles.

Pour les éducateurs et les examinateurs médicaux, la précision croissante des LLM soulève des questions importantes concernant la conception et l’évaluation des examens. Si les modèles d’IA peuvent résoudre les examens médicaux normalisés avec une grande précision, les futures évaluations devront peut-être intégrer des questions de raisonnement d’ordre supérieur et de jugement clinique qui dépassent la simple mémorisation. De plus, les institutions médicales turques peuvent explorer des stratégies d’enseignement assistées par l’IA, telles que des systèmes d’apprentissage adaptatif qui adaptent le matériel d’étude aux besoins individuels des étudiants.

D’un point de vue national, cette étude met en évidence l’importance croissante de l’IA dans l’enseignement médical en Turquie. Étant donné que ces LLM fonctionnent bien avec les questions médicales en turc, ils peuvent combler le fossé dans l’accès aux ressources éducatives de haute qualité pour les étudiants des régions mal desservies. De plus, les décideurs politiques devraient envisager d’intégrer des modèles d’IA dans les programmes de formation médicale continue et d’apprentissage tout au long de la vie pour les professionnels de la santé turcs.

En conclusion, bien que les modèles d’IA tels que ChatGPT-4 présentent une précision remarquable, leur rôle dans l’enseignement médical devrait être soigneusement évalué. Les avantages potentiels de l’apprentissage assisté par l’IA sont énormes, mais la mise en œuvre correcte nécessite de s’assurer que ces outils sont utilisés de manière responsable et éthique, et en conjonction avec l’expertise humaine.

Limites

Bien que cette étude fournisse des informations précieuses sur les performances des grands modèles linguistiques (LLM) dans l’examen d’entrée aux programmes de formation spécialisée en médecine en Turquie (TUS), il est essentiel de reconnaître plusieurs limites importantes afin de contextualiser les résultats et d’orienter les recherches futures. Tout d’abord, il n’est pas certain que les données d’entraînement des modèles d’IA évalués dans cette étude incluent des questions du TUS. Étant donné que les questions du TUS passées sont accessibles au public, les questions utilisées dans cette étude peuvent faire partie des données d’entraînement du modèle. Cela soulève des inquiétudes quant à la question de savoir si les performances du modèle reflètent une véritable compréhension ou simplement une capacité à mémoriser des questions spécifiques. Les recherches futures devraient élaborer des méthodes pour évaluer si les modèles d’IA présentent une véritable capacité de raisonnement ou s’ils s’appuient sur des informations mémorisées.

Deuxièmement, il est possible que les modèles d’IA présentent des biais provenant de leurs données d’entraînement. Ces biais peuvent provenir d’une représentation déséquilibrée de certaines affections médicales, populations ou points de vue dans les données d’entraînement. Par exemple, les performances du modèle en turc peuvent différer de celles en anglais en raison des différences dans la quantité et la qualité des données d’entraînement disponibles dans chaque langue. De plus, ces modèles peuvent être moins précis pour répondre aux questions qui nécessitent une connaissance des pratiques médicales locales ou du contexte culturel turcs. Ces biais peuvent limiter la généralisation des résultats et soulever des préoccupations éthiques concernant l’utilisation de l’IA dans l’enseignement et la pratique de la médecine.

Une troisième limite est que l’étude se concentre uniquement sur les questions à choix multiples. Dans la pratique clinique réelle, les professionnels de la santé doivent posséder des compétences telles que le raisonnement sur des cas complexes, l’interprétation de résultats ambigus et la prise de décisions en cas d’incertitude. De plus, la capacité de communiquer des diagnostics, des plans de traitement et des risques aux patients et aux collègues de manière claire et empathique est essentielle. La capacité des modèles d’IA à exécuter ces tâches n’a pas été testée, et leurs capacités peuvent être limitées par leur conception et leur entraînement actuels. Les recherches futures devraient évaluer les modèles d’IA dans des scénarios plus réalistes, tels que des simulations de cas cliniques et des évaluations ouvertes.

Quatrièmement, l’étude n’a pas inclus de questions ouvertes. Les questions ouvertes sont essentielles pour évaluer les compétences cognitives d’ordre supérieur telles que la pensée critique, la synthèse d’informations et le raisonnement clinique. Ces types de questions nécessitent la capacité de produire des réponses cohérentes et contextuellement pertinentes, plutôt que de simplement sélectionner la bonne option dans une liste. Les performances des modèles d’IA sur de telles tâches peuvent différer considérablement de leurs performances sur les questions à choix multiples, ce qui représente un domaine important pour les recherches futures.

Une cinquième limite est que les modèles d’IA n’ont pas été testés sous la pression du temps. Les candidats humains sont soumis à des contraintes de temps strictes pendant les examens, ce qui peut avoir un impact sur leurs performances. En revanche, les modèles d’IA de cette étude n’étaient pas soumis à la pression du temps, ce qui leur permettait de fonctionner sans le stress d’un environnement chronométré