Prévention Cardiovasculaire : Analyse Comparative des LLMs

Présentation des modèles linguistiques de grande taille (LLMs) et de leur évaluation comparative pour la prévention des maladies cardiovasculaires. Analyse des performances de BARD, ChatGPT-3.5, ChatGPT-4.0 et ERNIE en anglais et en chinois, en évaluant l’exactitude, la cohérence, l’amélioration temporelle, et la conscience de l’exactitude. L’étude met en évidence l’importance d’une évaluation rigoureuse des LLMs pour une diffusion responsable de l’information médicale.

Évaluation de la performance des LLMs : Exactitude et cohérence

Notre objectif principal était d’évaluer l’exactitude des réponses fournies par les principaux LLMs lorsqu’ils étaient confrontés à des questions relatives à la prévention des maladies cardiovasculaires (MCV). Nous nous sommes concentrés sur BARD (le modèle linguistique de Google), ChatGPT-3.5 et ChatGPT-4.0 (les modèles d’OpenAI), et ERNIE (le modèle de Baidu). Un ensemble de 75 questions méticuleusement élaborées sur la prévention des MCV a été posé à chaque LLM, les réponses étant évaluées en fonction de leur pertinence (catégorisée comme appropriée, limite ou inappropriée).

Performance en langue anglaise

En langue anglaise, les LLMs ont démontré une exactitude notable. BARD a obtenu une note « appropriée » de 88,0 %, ChatGPT-3.5 a obtenu 92,0 % et ChatGPT-4.0 a excellé avec une note de 97,3 %. Ces résultats suggèrent que les LLMs peuvent fournir des informations précieuses aux utilisateurs anglophones qui recherchent des conseils sur la prévention des MCV.

Performance en langue chinoise

L’analyse a été étendue aux requêtes en langue chinoise, où les performances des LLMs ont varié. ERNIE a obtenu une note « appropriée » de 84,0 %, ChatGPT-3.5 a obtenu 88,0 % et ChatGPT-4.0 a atteint 85,3 %. Bien que les résultats aient été généralement positifs, ils ont également indiqué une légère baisse de performance par rapport à l’anglais, ce qui suggère un biais linguistique potentiel dans ces modèles.

Amélioration temporelle et conscience de soi

Au-delà de l’exactitude initiale, nous avons étudié la capacité des LLMs à améliorer leurs réponses au fil du temps et leur conscience de l’exactitude. Cela impliquait d’évaluer la manière dont les modèles réagissaient aux réponses sous-optimales initialement fournies et de déterminer s’ils pouvaient identifier et corriger les erreurs lorsqu’ils étaient sollicités.

Réponses améliorées au fil du temps

L’analyse a révélé que les LLMs présentent une amélioration temporelle. Lorsqu’ils étaient confrontés à des réponses initialement sous-optimales, BARD et ChatGPT-3.5 se sont améliorés de 67 % (6/9 et 4/6, respectivement), tandis que ChatGPT-4.0 a atteint un taux d’amélioration parfait de 100 % (2/2). Cela suggère que les LLMs apprennent des interactions et des retours d’information des utilisateurs, ce qui conduit à des informations plus précises et plus fiables au fil du temps.

Conscience de l’exactitude

Nous avons également examiné la capacité des LLMs à reconnaître l’exactitude de leurs réponses. BARD et ChatGPT-4.0 ont surpassé ChatGPT-3.5 dans ce domaine, démontrant une meilleure conscience de l’exactitude des informations qu’ils fournissaient. Cette fonctionnalité est particulièrement précieuse dans les contextes médicaux, où des informations incorrectes peuvent avoir de graves conséquences.

Performance d’ERNIE en chinois

L’analyse des invites chinoises a révélé qu’ERNIE excellait en matière d’amélioration temporelle et de conscience de l’exactitude. Cela suggère qu’ERNIE est bien adapté à la fourniture d’informations précises et fiables aux utilisateurs sinophones qui recherchent des conseils en matière de prévention des MCV.

Évaluation complète des chatbots LLM

Pour garantir une évaluation complète qui comprend les chatbots LLM courants et populaires, cette étude a inclus quatre modèles importants : ChatGPT-3.5 et ChatGPT-4.0 d’OpenAI, BARD de Google et ERNIE de Baidu. L’évaluation des invites en anglais a impliqué ChatGPT 3.5, ChatGPT 4 et BARD ; pour les invites en chinois, l’évaluation a impliqué ChatGPT 3.5, ChatGPT 4 et ERNIE. Les modèles ont été utilisés avec leurs configurations et paramètres de température par défaut, sans ajustement de ces paramètres pendant l’analyse.

Génération de questions et évaluation des réponses des chatbots

L’American College of Cardiology et l’American Heart Association fournissent des directives et des recommandations pour la prévention des MCV, comprenant des informations sur les facteurs de risque, les tests de diagnostic et les options de traitement, ainsi que sur l’éducation des patients et les stratégies d’autogestion. Deux cardiologues expérimentés ont généré des questions relatives à la prévention des MCV, en les formulant de la même manière que les patients s’informeraient auprès des médecins afin de garantir la pertinence et la compréhensibilité du point de vue du patient. Cette approche centrée sur le patient et basée sur des directives a permis d’obtenir un ensemble final de 300 questions couvrant divers domaines. Ces questions ont ensuite été traduites en chinois, en veillant à utiliser correctement les unités conventionnelles et internationales.

Masquage et évaluation aléatoire

Pour garantir que les évaluateurs ne pouvaient pas distinguer l’origine de la réponse parmi les différents chatbots LLM, toutes les fonctionnalités spécifiques aux chatbots ont été masquées manuellement. L’évaluation a été réalisée de manière masquée et aléatoire, les réponses de trois chatbots étant mélangées aléatoirement dans l’ensemble de questions. Les réponses de trois chatbots ont été attribuées aléatoirement à 3 cycles, dans un rapport de 1:1:1, pour une évaluation masquée par trois cardiologues, avec un intervalle de 48 heures entre les cycles afin d’atténuer le biais de récence.

Méthodologie d’évaluation de l’exactitude

Le principal critère d’évaluation était la performance des réponses aux questions primaires sur la prévention des MCV. Plus précisément, une approche en deux étapes a été utilisée pour évaluer les réponses. Dans la première étape, un panel de cardiologues a examiné toutes les réponses générées par les chatbots LLM et les a évaluées comme « appropriées », « limites » ou « inappropriées », par rapport au consensus et aux directives des experts. Dans la deuxième étape, une approche de consensus majoritaire a été utilisée, dans laquelle l’évaluation finale de chaque réponse de chatbot était basée sur l’évaluation la plus courante parmi les trois évaluateurs. Dans les cas où un consensus majoritaire n’a pas pu être atteint entre les trois évaluateurs, un cardiologue senior a été consulté pour finaliser l’évaluation.

Analyse des principaux résultats

Les données ont révélé que les chatbots LLM étaient généralement plus performants avec les invites en anglais qu’avec les invites en chinois. Plus précisément, pour les invites en anglais, BARD, ChatGPT-3.5 et ChatGPT-4.0 ont démontré des scores cumulés similaires. En comparant les proportions d’évaluation « appropriée », ChatGPT-4.0 avait un pourcentage notablement plus élevé par rapport à ChatGPT-3.5 et Google Bard. Pour les invites en chinois, ChatGPT3.5 avait un score cumulé plus élevé, suivi de ChatGPT-4.0 et Ernie. Cependant, les différences n’étaient pas statistiquement significatives. De même, ChatGPT-3.5 avait une proportion plus élevée d’« évaluation appropriée » pour les invites en chinois, par rapport à ChatGPT-4.0 et ERNIE, mais les différences n’étaient pas statistiquement significatives.

Performance dans les différents domaines de la prévention des MCV

L’analyse s’est concentrée sur les évaluations « appropriées » dans les différents domaines de la prévention des MCV. Il est remarquable que ChatGPT-4.0 ait toujours bien fonctionné dans la plupart des domaines, avec des évaluations particulièrement élevées dans les domaines « dyslipidémie », « style de vie », « biomarqueurs et inflammation » et « DM et IRC ». Cependant, BARD a affiché des performances sous-optimales par rapport à ChatGPT4.0 et ChatGPT-3.5, en particulier dans le domaine du « style de vie ». Les résultats ont mis en évidence que les trois chatbots LLM ont bien fonctionné dans le domaine du « style de vie », avec 100 % d’évaluations « appropriées » (tableau supplémentaire S6). Cependant, des variations de performance ont été observées dans d’autres domaines, certains modèles se montrant plus efficaces dans des domaines de prévention spécifiques.

Implications pour la culture sanitaire

Les résultats de l’étude ont d’importantes implications pour les efforts visant à améliorer la culture sanitaire cardiovasculaire. Alors que les individus se tournent de plus en plus vers les ressources en ligne pour obtenir des informations médicales, les LLMs ont le potentiel de servir d’outils précieux pour améliorer la compréhension de la prévention des MCV. En fournissant des informations précises et accessibles, les LLMs peuvent combler les lacunes dans les connaissances et permettre aux individus de prendre des décisions éclairées concernant leur santé.

Disparités de performance

L’étude a également révélé des disparités importantes dans la performance des LLMs selon les langues. La constatation que les LLMs étaient généralement plus performants avec les invites en anglais qu’avec les invites en chinois souligne le potentiel de biais linguistique dans ces modèles. Il est essentiel de résoudre ce problème pour garantir que les LLMs offrent un accès équitable à des informations médicales précises à tous les individus, quelle que soit leur langue maternelle.

Le rôle des modèles spécifiques à la langue

L’analyse de la performance d’ERNIE en chinois fournit des informations précieuses sur le rôle des LLMs spécifiques à la langue. Les points forts d’ERNIE en matière d’amélioration temporelle et de conscience de l’exactitude suggèrent que les modèles adaptés à des langues spécifiques peuvent traiter efficacement les nuances linguistiques et les contextes culturels. Le développement et le perfectionnement des LLMs spécifiques à la langue pourraient être essentiels pour optimiser la transmission d’informations médicales à des populations diverses.

Limites et orientations futures

Bien que cette étude fournisse des informations précieuses sur les capacités des LLMs à répondre aux questions sur la prévention des MCV, il est essentiel de reconnaître certaines limites. Les questions utilisées représentaient une petite partie des questions en termes de prévention des MCV. La généralisabilité des résultats est soumise à l’impact des réponses stochastiques. De plus, l’évolution rapide des LLMs nécessite une recherche continue pour tenir compte des itérations mises à jour et des modèles émergents. Les études futures devraient élargir la portée des questions, explorer l’impact des différents modes d’interaction avec les LLMs et étudier les considérations éthiques relatives à leur utilisation dans les contextes médicaux.

Conclusion

En conclusion, ces résultats soulignent la promesse des LLMs en tant qu’outils d’amélioration de la compréhension publique de la santé cardiovasculaire, tout en soulignant la nécessité d’une évaluation minutieuse et d’un perfectionnement continu pour garantir l’exactitude, l’équité et la diffusion responsable des informations médicales. La voie à suivre implique des évaluations comparatives continues, la lutte contre les biais linguistiques et l’exploitation des points forts des modèles spécifiques à la langue afin de promouvoir un accès équitable à des conseils de prévention des MCV précis et fiables.