L’avancement rapide des grands modèles de langage (LLM) a ouvert de nouvelles possibilités passionnantes pour transformer l’enseignement médical. En exploitant la puissance de ces outils d’IA, nous pouvons créer des ressources pédagogiques innovantes et fournir aux médecins en formation un accès sans précédent aux connaissances et au matériel d’apprentissage. Cette approche, connue sous le nom d’« enseignement synthétique », exploite les LLM pour générer un contenu inédit adapté aux besoins spécifiques des professionnels de la santé.
Dans une étude récente, nous avons exploré le potentiel des LLM dans l’enseignement de la dermatologie en utilisant GPT-4 d’OpenAI pour créer des vignettes cliniques pour 20 maladies cutanées et des tissus mous couramment testées lors de l’United States Medical Licensing Examination (USMLE). Ces vignettes, qui présentent des scénarios de patients réalistes, ont ensuite été évaluées par des médecins experts pour leur exactitude, leur exhaustivité, leur qualité, leur potentiel de préjudice et leurs biais démographiques.
Les résultats de notre étude ont été très encourageants. Les médecins experts ont attribué aux vignettes des scores moyens élevés pour l’exactitude scientifique (4,45/5), l’exhaustivité (4,3/5) et la qualité globale (4,28/5), tout en notant de faibles scores pour le potentiel de préjudice clinique (1,6/5) et les biais démographiques (1,52/5). Nous avons également observé une forte corrélation (r = 0,83) entre l’exhaustivité et la qualité globale, ce qui suggère que des vignettes détaillées et complètes sont essentielles pour un enseignement médical efficace. Cependant, nous avons également noté que les vignettes manquaient de diversité démographique significative, ce qui met en évidence un domaine à améliorer dans les prochaines itérations.
Dans l’ensemble, notre étude démontre l’immense potentiel des LLM pour améliorer l’évolutivité, l’accessibilité et la personnalisation du matériel d’enseignement de la dermatologie. En remédiant aux limites que nous avons identifiées, telles que la nécessité d’une plus grande diversité démographique, nous pouvons affiner davantage ces outils basés sur l’IA et libérer leur plein potentiel pour révolutionner l’enseignement médical.
L’essor des LLM dans l’enseignement médical
Le domaine de l’enseignement médical est en constante évolution, s’adaptant aux besoins changeants des nouvelles générations d’étudiants en médecine et de résidents. Au fur et à mesure que la technologie progresse, ces futurs médecins sont de plus en plus exposés à un large éventail d’outils numériques qui peuvent compléter leur apprentissage. Parmi ces technologies, les grands modèles de langage (LLM) sont apparus comme un domaine particulièrement prometteur, attirant l’attention pour leur puissance de calcul remarquable.
Les LLM sont un type de modèle d’apprentissage automatique qui a été formé sur des quantités massives de données textuelles provenant de diverses sources. Cette formation approfondie leur permet d’effectuer des tâches très spécialisées en synthétisant et en appliquant les connaissances collectives tirées des vastes ensembles de données qu’ils ont traitées. Même sans formation explicite dans le domaine médical, les modèles généralistes comme GPT d’OpenAI ont démontré des performances impressionnantes dans des contextes cliniques, laissant entrevoir le vaste potentiel des LLM en médecine.
Libérer le potentiel de l’enseignement synthétique
Les LLM offrent une utilité sans précédent dans l’enseignement médical en raison de leur capacité à générer rapidement et efficacement un contenu inédit. Bien qu’il y ait un intérêt considérable à appliquer les LLM à diverses tâches d’enseignement médical, il existe peu de recherches sur la façon dont les initiatives d’enseignement guidées par les LLM fonctionnent dans des scénarios réels. Une application particulièrement prometteuse mais sous-explorée des LLM dans ce domaine est la génération de vignettes cliniques.
Les vignettes cliniques sont un élément essentiel de l’enseignement médical moderne, constituant une partie importante des questions de l’USMLE et de l’enseignement préclinique basé sur des cas. Ces vignettes contextualisent les connaissances médicales en présentant des scénarios pratiques qui évaluent le raisonnement diagnostique de l’apprenant, la hiérarchisation des stratégies de gestion et la compréhension des facteurs psychosociaux. En simulant la pratique complexe et nuancée de la médecine, les vignettes offrent une formation précieuse aux futurs médecins.
Traditionnellement, les vignettes cliniques proviennent de sociétés professionnelles, de matériel interne créé par des professeurs ou de banques de questions disponibles dans le commerce. Cependant, la création de ces vignettes est un processus laborieux qui nécessite un apport important de médecins expérimentés. Bien que ces sources offrent un certain degré de contrôle de la qualité, l’accessibilité et la quantité de ce matériel peuvent varier considérablement d’un établissement à l’autre et en fonction du milieu socio-économique des étudiants. De plus, la disponibilité limitée des vignettes a soulevé des préoccupations quant à la répétition des questions d’examen lors des administrations de l’USMLE.
Révolutionner l’enseignement de la dermatologie avec les LLM
Bien que l’enseignement médical en dermatologie repose fortement sur l’évaluation visuelle, la présentation clinique holistique qui contextualise le processus pathologique est tout aussi cruciale. Les examens standardisés comme l’USMLE utilisent souvent des vignettes textuelles pour évaluer la connaissance des pathologies cutanées et des tissus mous. De plus, la terminologie spécifique utilisée pour décrire les lésions cutanées est essentielle pour un diagnostic et un traitement précis des maladies cutanées.
Les LLM offrent une occasion unique d’élargir la disponibilité de vignettes textuelles pour les affections dermatologiques courantes dans l’enseignement médical. Les LLM courants, tels que GPT, offrent la flexibilité d’étoffer les vignettes cliniques initiales, en s’adaptant aux besoins individuels des étudiants lorsqu’ils posent d’autres questions. Dans notre étude, nous avons évalué la faisabilité de l’utilisation de GPT 4.0, le dernier modèle de base accessible au public d’OpenAI, pour générer des vignettes cliniques de haute qualité à des fins d’enseignement médical.
Évaluation des performances de GPT-4
Pour évaluer les performances de GPT-4 dans la génération de vignettes cliniques, nous nous sommes concentrés sur 20 maladies cutanées et des tissus mous couramment testées à l’examen USMLE Step 2 CK. Nous avons demandé au modèle de créer des vignettes cliniques détaillées pour chaque affection, y compris des explications sur le diagnostic le plus probable et sur les raisons pour lesquelles d’autres diagnostics étaient moins probables. Ces vignettes ont ensuite été évaluées par un panel de médecins experts à l’aide d’une échelle de Likert afin d’évaluer leur exactitude scientifique, leur exhaustivité, leur qualité globale, leur potentiel de préjudice clinique et leurs biais démographiques.
Caractéristiques des vignettes
Notre analyse des 20 vignettes cliniques a révélé plusieurs caractéristiques clés :
Données démographiques des patients : Les vignettes mettaient en scène 15 patients de sexe masculin et 5 patients de sexe féminin, avec un âge médian des patients de 25 ans. La race n’a été précisée que pour 4 patients (3 caucasiens, 1 afro-américain). Des noms génériques ont été utilisés pour 3 patients, tandis que les vignettes restantes n’incluaient pas de noms.
Nombre de mots : Le nombre moyen de mots pour la sortie du modèle était de 332,68, avec un écart type de 42,75 mots. La partie de la vignette clinique comptait en moyenne 145,79 mots (SD = 26,97), tandis que les explications comptaient en moyenne 184,89 mots (SD = 49,70). En moyenne, les explications étaient plus longues que les vignettes correspondantes, avec un rapport longueur vignette/explication de 0,85 (SD = 0,30).
Évaluations des médecins
Les évaluations des médecins experts ont indiqué un degré élevé d’alignement avec le consensus scientifique (moyenne = 4,45, IC 95 % : 4,28-4,62), l’exhaustivité (moyenne = 4,3, IC 95 % : 4,11-4,89) et la qualité globale (moyenne = 4,28, IC 95 % : 4,10-4,47). Les évaluations ont également indiqué un faible risque de préjudice clinique (moyenne = 1,6, IC 95 % : 1,38-1,81) et de biais démographique (moyenne = 1,52, IC 95 % : 1,31-1,72). Les évaluations constamment faibles pour les biais démographiques suggèrent que les évaluateurs médecins n’ont détecté aucun schéma significatif de représentations stéréotypées ou disproportionnellement biaisées des populations de patients.
Analyse de corrélation
Pour évaluer les relations entre les différents critères d’évaluation, nous avons calculé les coefficients de corrélation de Pearson. Nous avons constaté que l’alignement avec le consensus scientifique était modérément corrélé avec l’exhaustivité (r = 0,67) et la qualité globale (r = 0,68). L’exhaustivité et la qualité globale ont montré une forte corrélation (r = 0,83), tandis que la possibilité de préjudice clinique et de biais démographique étaient faiblement corrélées (r = 0,22).
Les implications pour l’enseignement médical
Les résultats de notre étude ont des implications importantes pour l’enseignement médical, en particulier dans le contexte d’un examen de plus en plus minutieux des examens médicaux standardisés. Le besoin de matériel pédagogique de haute qualité qui peut être utilisé pour des évaluations comme l’USMLE est plus critique que jamais. Cependant, la méthode traditionnelle de création de nouvelles questions est gourmande en ressources, nécessitant des médecins expérimentés pour rédiger des vignettes cliniques et de multiples administrations de tests pour évaluer leur généralisabilité. De nouvelles méthodes pour développer de nombreuses vignettes cliniques uniques sont donc très souhaitables.
Notre étude fournit des preuves prometteuses que les grands modèles de langage comme GPT-4 peuvent servir de source d’« enseignement médical synthétique », offrant des ressources pédagogiques accessibles, personnalisables et évolutives. Nous avons démontré que GPT-4 possède des connaissances cliniques inhérentes qui s’étendent à la création de descriptions de patients représentatives et précises. Notre analyse a révélé que les vignettes générées par GPT-4 pour les maladies testées dans la section Peau et tissus mous de l’examen USMLE Step 2 CK étaient très précises, ce qui suggère que les LLM pourraient potentiellement être utilisés pour concevoir des vignettes pour les examens médicaux standardisés.
Les notes élevées pour le consensus scientifique, l’exhaustivité et la qualité globale, associées aux notes faibles pour le préjudice clinique potentiel et les biais démographiques, soutiennent davantage la faisabilité de l’utilisation des LLM à cette fin. La forte corrélation statistique entre l’exhaustivité de la vignette et la qualité globale souligne l’importance de présentations de cas approfondies et détaillées dans l’enseignement médical et démontre la capacité des LLM à fournir des scénarios contextuellement pertinents et complets pour le raisonnement clinique.
La longueur moyenne des vignettes (145,79 ± 26,97 mots) se situe bien dans le cadre de la longueur des vignettes de l’USMLE, ce qui permet aux candidats d’avoir environ 90 secondes pour répondre à chaque question. L’inclusion d’explications plus longues à côté des vignettes met en évidence la capacité des LLM à générer non seulement des descriptions de patients, mais aussi du matériel didactique utile.
Aborder les limites et les orientations futures
Bien que notre étude ait démontré le potentiel des LLM dans la génération de vignettes cliniques de haute qualité, nous avons également identifié plusieurs limites qui doivent être abordées dans les recherches futures. L’une des principales préoccupations est la variété limitée des données démographiques des patients, avec une prédominance de patients de sexe masculin et un manque de diversité raciale. Pour garantir que les étudiants en médecine sont adéquatement préparés à servir des populations de patients diversifiées, il est essentiel d’intégrer davantage d’efforts conscients pour inclure diverses représentations de patients dans l’ingénierie rapide et les ensembles de données de formation des modèles. Les études futures devraient également examiner les sources et les manifestations des biais systémiques dans la sortie des modèles.
Une autre limite de notre étude est la composition de notre panel d’évaluateurs experts, qui ne comprenait qu’un seul dermatologue aux côtés de deux médecins traitants de médecine interne et de médecine d’urgence. Bien que les évaluateurs non dermatologues diagnostiquent et gèrent fréquemment des affections cutanées courantes dans leurs spécialités respectives, leur expertise peut ne pas englober tout le spectre des maladies dermatologiques. Les études futures bénéficieraient d’une plus grande proportion de dermatologues pour garantir une évaluation plus spécialisée des cas générés par l’IA.
Malgré ces limites, notre travail fournit des preuves convaincantes que les LLM courants comme GPT-4 détiennent un grand potentiel pour la génération de vignettes cliniques à des fins d’examen standardisé et d’enseignement. Les LLM adaptés à un usage spécifique et formés sur des ensembles de données plus spécifiques peuvent améliorer davantage ces capacités. La grande exactitude et l’efficacité de l’« enseignement synthétique » offrent une solution prometteuse aux limites actuelles des méthodes traditionnelles de génération de matériel pédagogique médical.