Análisis Comparativo de Modelos de Lenguaje en Prevención CVD

El auge de los modelos de lenguaje grandes (LLMs) presenta posibilidades intrigantes para abordar las consultas públicas sobre la prevención de enfermedades cardiovasculares (CVD). Estos modelos, que tienen la capacidad de comprender y responder de manera similar a la humana, se utilizan cada vez más como fuentes de información médica. Sin embargo, quedan interrogantes sobre la fiabilidad y exactitud de la información que brindan, particularmente en diferentes idiomas. Este análisis profundiza en una evaluación exhaustiva de varios LLMs destacados, examinando específicamente sus capacidades para abordar consultas de prevención de CVD tanto en inglés como en chino.

Evaluación del Rendimiento de LLM: Precisión y Consistencia

Nuestro principal objetivo fue evaluar la precisión de las respuestas proporcionadas por los LLMs líderes cuando se les presentaban preguntas relacionadas con la prevención de CVD. Nos centramos en BARD (el modelo de lenguaje de Google), ChatGPT-3.5 y ChatGPT-4.0 (los modelos de OpenAI) y ERNIE (el modelo de Baidu). Se planteó a cada LLM un conjunto de 75 preguntas meticulosamente elaboradas sobre la prevención de CVD, y las respuestas se evaluaron en función de su adecuación (categorizadas como adecuadas, dudosas o inadecuadas).

Rendimiento en Inglés

En el idioma inglés, los LLMs demostraron una precisión notable. BARD logró una calificación de “adecuado” del 88,0 %, ChatGPT-3.5 obtuvo una puntuación del 92,0 % y ChatGPT-4.0 sobresalió con una calificación del 97,3 %. Estos resultados sugieren que los LLMs pueden proporcionar información valiosa a los usuarios de habla inglesa que buscan orientación sobre la prevención de CVD.

Rendimiento en Chino

El análisis se extendió a las consultas en idioma chino, donde el rendimiento de los LLMs varió. ERNIE logró una calificación de “adecuado” del 84,0 %, ChatGPT-3.5 obtuvo una puntuación de 88,0 % y ChatGPT-4.0 alcanzó el 85,3 %. Si bien los resultados fueron generalmente positivos, también indicaron una ligera caída en el rendimiento en comparación con el inglés, lo que sugiere un posible sesgo lingüístico en estos modelos.

Mejora Temporal y Autoconciencia

Más allá de la precisión inicial, investigamos la capacidad de los LLMs para mejorar sus respuestas con el tiempo y su autoconciencia de la corrección. Esto implicó evaluar cómo los modelos respondían a las respuestas subóptimas proporcionadas inicialmente y si podían identificar y rectificar errores cuando se les solicitaba.

Respuestas Mejoradas con el Tiempo

El análisis reveló que los LLMs exhiben una mejora temporal. Cuando se les presentaron respuestas inicialmente subóptimas, BARD y ChatGPT-3.5 mejoraron en un 67 % (6/9 y 4/6, respectivamente), mientras que ChatGPT-4.0 logró una tasa de mejora perfecta del 100 % (2/2). Esto sugiere que los LLMs aprenden de las interacciones y los comentarios de los usuarios, lo que lleva a información más precisa y confiable con el tiempo.

Autoconciencia de la Corrección

También examinamos la capacidad de los LLMs para reconocer la corrección de sus respuestas. BARD y ChatGPT-4.0 superaron a ChatGPT-3.5 en esta área, demostrando una mejor autoconciencia de la precisión de la información que proporcionaron. Esta característica es particularmente valiosa en contextos médicos, donde la información incorrecta puede tener graves consecuencias.

Rendimiento de ERNIE en Chino

El análisis de los prompts en chino reveló que ERNIE sobresalió en la mejora temporal y la autoconciencia de la corrección. Esto sugiere que ERNIE se adapta bien para proporcionar información precisa y confiable a los usuarios de habla china que buscan orientación sobre la prevención de CVD.

Evaluación Integral de Chatbots LLM

Para garantizar una evaluación integral que incluya chatbots LLM comunes y populares, este estudio incluyó cuatro modelos destacados: ChatGPT-3.5 y ChatGPT-4.0 de OpenAI, BARD de Google y ERNIE de Baidu. La evaluación de los prompts en inglés involucró a ChatGPT 3.5, ChatGPT 4 y BARD; para los prompts en chino, la evaluación involucró a ChatGPT 3.5, ChatGPT 4 y ERNIE. Los modelos se utilizaron con sus configuraciones predeterminadas y configuraciones de temperatura, sin ajustes a estos parámetros durante el análisis.

Generación de Preguntas y Evaluación de la Respuesta del Chatbot

El American College of Cardiology y la American Heart Association proporcionan directrices y recomendaciones para la prevención de CVD, que abarcan información sobre factores de riesgo, pruebas de diagnóstico y opciones de tratamiento, así como educación del paciente y estrategias de autocontrol. Dos cardiólogos experimentados generaron preguntas relacionadas con la prevención de CVD, enmarcándolas de manera similar a como los pacientes preguntarían a los médicos para garantizar la relevancia y la comprensibilidad desde la perspectiva del paciente. Este enfoque centrado en el paciente y basado en directrices produjo un conjunto final de 300 preguntas que cubren varios dominios. Estas preguntas se tradujeron posteriormente al chino, asegurando el uso apropiado de unidades convencionales e internacionales.

Enmascaramiento y Evaluación Ordenada Aleatoriamente

Para garantizar que los evaluadores no pudieran distinguir el origen de la respuesta entre diferentes Chatbots LLM, se ocultaron manualmente las características específicas del chatbot. La evaluación se llevó a cabo de manera enmascarada y ordenada aleatoriamente, con respuestas de tres chatbots mezcladas aleatoriamente dentro del conjunto de preguntas. Las respuestas de tres chatbots se asignaron aleatoriamente a 3 rondas, en una proporción de 1:1:1, para la evaluación enmascarada por tres cardiólogos, con un intervalo de lavado de 48 horas entre rondas para mitigar el sesgo de recencia.

Metodología de Evaluación de la Precisión

El resultado primario fue el rendimiento al responder a las preguntas primarias de prevención de CVD. Específicamente, se utilizó un enfoque de dos pasos para evaluar las respuestas. En el primer paso, un panel de cardiólogos revisó todas las respuestas generadas por LLM Chatbot y las calificó como “adecuadas”, “dudosas” o “inadecuadas”, en relación con el consenso y las directrices de los expertos. En el segundo paso, se utilizó un enfoque de consenso mayoritario, en el que la calificación final para cada respuesta del chatbot se basó en la calificación más común calificada entre los tres evaluadores. En escenarios donde no se pudo lograr un consenso mayoritario entre los tres evaluadores, se consultó a un cardiólogo senior para finalizar la calificación.

Análisis de los Hallazgos Clave

Los datos revelaron que el chatbot LLM se desempeñó generalmente mejor con prompts en inglés que con prompts en chino. Específicamente, para los prompts en inglés, BARD, ChatGPT-3.5 y ChatGPT-4.0 demostraron puntuaciones de suma similares. Al comparar las proporciones de la calificación “adecuada”, ChatGPT-4.0 tuvo un porcentaje notablemente más alto en comparación con ChatGPT-3.5 y Google Bard. Para los prompts en chino, ChatGPT3.5 tuvo una puntuación de suma más alta, seguido de ChatGPT-4.0 y Ernie. Sin embargo, las diferencias no fueron estadísticamente significativas. De manera similar, ChatGPT-3.5 tuvo una mayor proporción de “calificación adecuada” para los prompts en chino, en comparación con ChatGPT-4.0 y ERNIE, pero las diferencias no fueron estadísticamente significativas.

Rendimiento en los Dominios de Prevención de CVD

El análisis se centró en las calificaciones “adecuadas” en los diferentes dominios de prevención de CVD. Sorprendentemente, ChatGPT-4.0 se desempeñó consistentemente bien en la mayoría de los dominios, con calificaciones particularmente altas en los dominios de “dislipidemia”, “estilo de vida”, “biomarcadores e inflamación” y “DM y ERC”. Sin embargo, BARD mostró un rendimiento subóptimo en comparación con ChatGPT4.0 y ChatGPT-3.5, particularmente en el dominio de “estilo de vida”. Los hallazgos destacaron que los tres Chatbots LLM se desempeñaron bien en el dominio de “estilo de vida”, con calificaciones “adecuadas” del 100 % (Tabla complementaria S6). Sin embargo, se observaron variaciones en el rendimiento en otros dominios, y algunos modelos mostraron mayor eficacia en dominios de prevención específicos.

Implicaciones para la Alfabetización en Salud

Los hallazgos del estudio tienen importantes implicaciones para los esfuerzos por mejorar la alfabetización en salud cardiovascular. A medida que las personas recurren cada vez más a los recursos en línea para obtener información médica, los LLMs tienen el potencial de servir como herramientas valiosas para mejorar la comprensión de la prevención de CVD. Al proporcionar información precisa y accesible, los LLMs pueden cerrar las brechas en el conocimiento y empoderar a las personas para tomar decisiones informadas sobre su salud.

Disparidades en el Rendimiento

El estudio también reveló disparidades significativas en el rendimiento de LLM en diferentes idiomas. El hallazgo de que los LLMs generalmente se desempeñaron mejor con prompts en inglés que con prompts en chino destaca el potencial de sesgo lingüístico en estos modelos. Abordar este problema es crucial para garantizar que los LLMs proporcionen acceso equitativo a información médica precisa para todas las personas, independientemente de su idioma nativo.

El Papel de los Modelos Específicos del Idioma

El análisis del rendimiento de ERNIE en chino proporciona información valiosa sobre el papel de los LLMs específicos del idioma. Las fortalezas de ERNIE en la mejora temporal y la autoconciencia de la corrección sugieren que los modelos adaptados para idiomas específicos pueden abordar eficazmente los matices lingüísticos y los contextos culturales. El desarrollo y el perfeccionamiento adicionales de los LLMs específicos del idioma pueden ser esenciales para optimizar la entrega de información médica a diversas poblaciones.

Limitaciones y Direcciones Futuras

Si bien este estudio proporciona información valiosa sobre las capacidades de los LLMs para abordar las consultas de prevención de CVD, es esencial reconocer ciertas limitaciones. Las preguntas utilizadas representaron una pequeña parte de las preguntas en términos de prevención de CVD. La generalización de los hallazgos está sujeta al impacto de las respuestas estocásticas. Además, la rápida evolución de los LLMs requiere una investigación continua para adaptarse a las iteraciones actualizadas y los modelos emergentes. Los estudios futuros deberían ampliar el alcance de las preguntas, explorar el impacto de los diferentes patrones de interacción con los LLMs e investigar las consideraciones éticas que rodean su uso en contextos médicos.

Conclusión

En conclusión, estos hallazgos subrayan la promesa de los LLMs como herramientas para mejorar la comprensión pública de la salud cardiovascular, al tiempo que enfatizan la necesidad de una evaluación cuidadosa y un perfeccionamiento continuo para garantizar la precisión, la equidad y la difusión responsable de la información médica. El camino a seguir implica evaluaciones comparativas continuas, abordando los sesgos lingüísticos y aprovechando las fortalezas de los modelos específicos del idioma para promover el acceso equitativo a una guía precisa y confiable de prevención de CVD.