IA y la Educación Médica

Introducción

En los últimos años, los avances tecnológicos como la inteligencia artificial (IA) y los modelos lingüísticos grandes (LLM) han traído consigo transformaciones potenciales en la educación médica y los métodos de evaluación del conocimiento. En particular, estos desarrollos pueden hacer que la información médica sea más accesible y que las evaluaciones sean más interactivas.

Investigaciones previas han explorado el desempeño de los LLM en varios exámenes de licencia médica, como el Examen de Licencia Médica de los Estados Unidos (USMLE) y el Examen de Licencia Médica de Japón (JMLE), pero estos exámenes difieren significativamente del TUS en términos de estructura y contenido. El TUS se centra en las ciencias básicas y las ciencias clínicas, con un enfoque particular en el contexto médico turco, lo que brinda una oportunidad única para evaluar las capacidades de los LLM en un entorno de evaluación distintivo. Este estudio tiene como objetivo llenar este vacío evaluando el desempeño de cuatro LLM líderes en el TUS. Además, este estudio explora las implicaciones potenciales de estos hallazgos para el diseño del currículo, la capacitación médica asistida por IA y el futuro de la evaluación médica en Turquía. Específicamente, investigamos cómo el desempeño de los LLM puede informar el desarrollo de recursos educativos y estrategias de evaluación más efectivos y adaptados al currículo médico turco. Esta investigación no solo contribuye a la comprensión del desempeño del lenguaje específico, sino que también contribuye a la discusión más amplia sobre cómo integrar eficazmente la IA en la educación y evaluación médica global.

Los resultados de estos estudios sugieren que ChatGPT y LLM similares pueden desempeñar un papel importante en la educación médica y los procesos de evaluación del conocimiento. La inteligencia artificial y los LLM en la recuperación de información médica y los métodos de evaluación pueden permitir el desarrollo de enfoques y métodos de aprendizaje innovadores, especialmente en la educación médica. Este estudio tiene como objetivo investigar más a fondo el impacto de los LLM en la educación médica y la evaluación del conocimiento mediante la evaluación del desempeño de ChatGPT 4, Gemini 1.5 Pro y Cohere-Command R+ en el Examen de Admisión a la Formación de Especialidades Médicas de Turquía.

Este estudio explora las aplicaciones de modelos avanzados de inteligencia artificial (IA), en particular ChatGPT 4, Gemini 1.5 Pro, Command R+ y Llama 3 70B, en la educación y evaluación médica, centrándose en su desempeño en la resolución de problemas de exámenes de especialidades médicas. El estudio evalúa la capacidad de estos modelos para realizar un análisis exhaustivo y sistemático de las preguntas del Examen de Admisión a la Formación de Especialidades Médicas de Turquía, destacando el potencial de la IA en medicina al considerar factores como la capacidad de interpretación y la precisión. Los hallazgos sugieren que los modelos de IA pueden facilitar significativamente los procesos de educación y evaluación médica, abriendo caminos para nuevas aplicaciones y áreas de investigación. El objetivo principal de este artículo es evaluar los rápidos avances en la tecnología de IA y comparar las capacidades de respuesta de diferentes modelos de IA. El estudio presenta un análisis comparativo de ChatGPT 4, Gemini 1.5 Pro, Command R+ y Llama 3 70B, evaluando su desempeño en 240 preguntas del primer semestre del Examen de Admisión a la Formación de Especialidades Médicas de Turquía de 2021.

Esta comparación tiene como objetivo dilucidar la trayectoria y las distinciones en las tecnologías de IA, centrándose en su utilidad en dominios especializados como la educación médica y la preparación para exámenes. El objetivo final es proporcionar información que ayude a los usuarios a seleccionar las herramientas de estudio más adecuadas para sus necesidades específicas.

Métodos

Las preguntas se formularon a los LLM en turco. Las preguntas se obtuvieron del sitio web oficial del Centro de Selección y Colocación de Estudiantes, en formato de preguntas de opción múltiple (con cinco opciones de la A a la E), con una única mejor respuesta. Las respuestas fueron proporcionadas por los LLM en turco.

El proceso de evaluación se basó en las respuestas correctas publicadas por el Centro de Selección y Colocación de Estudiantes. El artículo menciona que: ‘Las respuestas “correctas” a las preguntas de los modelos de inteligencia artificial se definieron en función de las respuestas publicadas por el Centro de Selección y Colocación de Estudiantes. Solo las respuestas que se determinaron como correctas de acuerdo con las instrucciones del texto de la pregunta se aceptaron como “correctas”‘. Dado que las preguntas y las respuestas estaban en turco, el proceso de evaluación implicó comparar las respuestas en turco de los LLM con la clave de respuestas oficial en turco proporcionada por el Centro de Selección y Colocación de Estudiantes.

Conjunto de Datos de Educación Médica

Este estudio utiliza ChatGPT 4, Gemini 1.5 Pro, Command R+ y Llama 3 70B para probar la capacidad de los modelos de inteligencia artificial en el conocimiento médico y la evaluación de casos. El estudio se llevó a cabo sobre las preguntas del Examen de Admisión a la Formación de Especialidades Médicas de Turquía, celebrado el 21 de marzo de 2021. El Examen de Admisión a la Formación de Especialidades Médicas de Turquía es un examen organizado por el Centro de Selección y Colocación de Estudiantes, que consta de 240 preguntas. Las preguntas de conocimiento básico en la primera categoría evalúan el conocimiento y la ética necesarios para completar la educación médica. La segunda categoría son las preguntas de casos, que cubren muchas enfermedades que miden el pensamiento analítico y las habilidades de razonamiento.

Clasificación de la Dificultad de las Preguntas

El nivel de dificultad de las preguntas se clasificó en función de los datos oficiales de desempeño de los examinados publicados por el Centro de Selección y Colocación de Estudiantes. Específicamente, la tasa de respuesta correcta para cada pregunta informada por el Centro se utilizó para categorizar las preguntas en cinco niveles de dificultad:

  • Nivel 1 (Más fácil): Preguntas con una tasa de respuesta correcta del 80% o más.
  • Nivel 2: Preguntas con una tasa de respuesta correcta entre el 60% y el 79.9%.
  • Nivel 3 (Intermedio): Preguntas con una tasa de respuesta correcta entre el 40% y el 59.9%.
  • Nivel 4: Preguntas con una tasa de respuesta correcta entre el 20% y el 39.9%.
  • Nivel 5 (Más difícil): Preguntas con una tasa de respuesta correcta del 19.9% o menos.

Las respuestas ‘correctas’ a las preguntas de los modelos de inteligencia artificial se definieron en función de las respuestas publicadas por el Centro de Selección y Colocación de Estudiantes. Solo las respuestas que se determinaron como correctas de acuerdo con las instrucciones del texto de la pregunta se aceptaron como ‘correctas’. Además, el nivel de dificultad de cada pregunta se clasificó en los niveles 1 a 5 según la tasa de respuesta correcta publicada por el Centro de Selección y Colocación de Estudiantes. Las preguntas con una tasa de respuesta correcta del 80% o más se consideraron las más fáciles (Nivel 1), mientras que las preguntas con una tasa de respuesta correcta del 19.9% o menos se consideraron las más difíciles (Nivel 5).

Dominios de Conocimiento y Casos

El Examen de Admisión a la Formación de Especialidades Médicas de Turquía, un paso crucial para los graduados de medicina en Turquía que buscan la especialización, evalúa a los examinados en dos dominios clave: dominios de conocimiento y casos. Comprender la distinción entre estos dominios es esencial para una preparación adecuada. El dominio del conocimiento se centra en evaluar la comprensión teórica y el conocimiento fáctico del examinado dentro del campo de la medicina elegido. Evalúa el dominio de los conceptos y principios fundamentales y establece información médica relevante para la especialidad. Representa el dominio específico del conocimiento médico que se está probando, como las ciencias médicas básicas (anatomía, bioquímica, fisiología, etc.) y las ciencias clínicas (medicina interna, cirugía, pediatría, etc.). El dominio de los casos, por otro lado, representa escenarios o situaciones de la vida real en los que se aplica el conocimiento, como la resolución de problemas, el pensamiento analítico, el pensamiento crítico, la toma de decisiones y la aplicación de conceptos a situaciones reales.

Ingeniería de Preguntas

La ingeniería de preguntas es el proceso de diseñar y ajustar las preguntas del lenguaje natural para obtener respuestas específicas de un modelo de lenguaje o un sistema de IA. En abril de 2024, recopilamos respuestas consultando directamente los modelos de lenguaje a través de sus respectivas interfaces web.

Para garantizar una evaluación justa de las capacidades originales de cada modelo, se implementó un control metodológico riguroso en la forma en que se presentaron las preguntas a los LLM. Cada pregunta se ingresó por separado y las sesiones se restablecieron antes de hacer una nueva pregunta para evitar que los modelos aprendieran o se adaptaran en función de las interacciones anteriores.

Análisis de Datos

Todos los análisis se realizaron utilizando Microsoft Office Excel y software Python. Para comparar el desempeño de los LLM en diferentes dificultades de preguntas, se realizó una prueba de chi-cuadrado no pareada. Se utilizó un umbral de valor p de p < 0.05 para determinar la significación estadística. El análisis evaluó si la precisión del modelo variaba según el nivel de dificultad de la pregunta.

Consideraciones Éticas

Este estudio solo utilizó información disponible en Internet y no involucró a sujetos humanos. Por lo tanto, no se requirió la aprobación del Comité de Ética de la Universidad de Baskent.

Resultados

El número promedio de respuestas correctas de los candidatos que tomaron el examen de ciencias médicas básicas de la primera fase del Examen de Admisión a la Formación de Especialidades Médicas de Turquía de 2021 fue de 51.63. El número promedio de respuestas correctas del examen de ciencias médicas clínicas fue de 63.95. El número promedio de respuestas correctas del examen de ciencias médicas clínicas fue mayor que el examen de ciencias médicas básicas. Paralelamente a esta situación, las tecnologías de inteligencia artificial también tuvieron más éxito en responder al examen de ciencias médicas clínicas.

Rendimiento de la IA

El rendimiento de las plataformas de IA se evaluó utilizando las mismas métricas que los candidatos humanos.

  • ChatGPT 4:

    ChatGPT 4 obtuvo una puntuación media de 103 respuestas correctas en la sección de ciencias médicas básicas y una puntuación media de 110 respuestas correctas en la sección de ciencias médicas clínicas. Esto representa una precisión global del 88.75%, significativamente mejor que el candidato humano promedio en ambas secciones (p < 0.001).

  • Llama 3 70B:

    Llama 3 70B obtuvo una puntuación media de 95 respuestas correctas en la sección de ciencias médicas básicas y una puntuación media de 95 respuestas correctas en la sección de ciencias médicas clínicas. Esto representa una precisión global del 79.17%, que también es significativamente mejor que el rendimiento humano promedio (p < 0.01).

  • Gemini 1.5 Pro:

    Gemini 1.5 Pro obtuvo una puntuación media de 94 respuestas correctas en la sección de ciencias médicas básicas y una puntuación media de 93 respuestas correctas en la sección de ciencias médicas clínicas. Esto representa una precisión global del 78.13%, que es significativamente mejor que el rendimiento humano promedio (p < 0.01).

  • Command R+:

    Command R+ obtuvo una puntuación media de 60 respuestas correctas en la sección de ciencias médicas básicas y una puntuación media de 60 respuestas correctas en la sección de ciencias médicas clínicas. Esto representa una precisión global del 50%, que no difiere significativamente del rendimiento humano promedio en la sección de ciencias médicas básicas (p = 0.12), pero es significativamente menor en la sección de ciencias médicas clínicas (p < 0.05).

El rendimiento de las plataformas de IA se evaluó utilizando las mismas métricas que los candidatos humanos.

La Figura 3 compara la precisión de diferentes LLM según la dificultad de las preguntas: ChatGPT 4: El modelo de mejor rendimiento. A medida que aumenta la dificultad de las preguntas, la precisión aumenta, acercándose al 70% incluso en las preguntas más desafiantes - Llama 3 70B: Un modelo con un rendimiento moderado. A medida que aumenta la dificultad de las preguntas, la precisión aumenta primero y luego disminuye. Su precisión en las preguntas más desafiantes es de alrededor del 25%. Gemini 1.5 70B: Tiene un rendimiento similar a Llama 3 70B. A medida que aumenta la dificultad de las preguntas, la precisión aumenta primero y luego disminuye. Su precisión en las preguntas más desafiantes es de alrededor del 20%. Command R+: El modelo de menor rendimiento. Su precisión disminuye a medida que aumenta la dificultad de las preguntas y se mantiene alrededor del 15% en las preguntas más desafiantes

En resumen, ChatGPT 4 es el modelo menos afectado por la dificultad de las preguntas y tiene la precisión general más alta. Llama 3 70B y Gemini 1.5 Pro tienen un rendimiento moderado, mientras que Command R+ tiene una tasa de éxito más baja que los otros modelos. A medida que aumenta la dificultad de las preguntas, la precisión de los modelos disminuye. Esto sugiere que los LLM aún necesitan mejoras para comprender y responder correctamente a preguntas complejas

En la Tabla 1, el modelo ChatGPT 4 destaca como el modelo de mejor rendimiento con una tasa de éxito del 88.75%. Esto indica una sólida capacidad para comprender y responder con precisión a las preguntas. El modelo Llama 3 70B ocupa el segundo lugar con una tasa de éxito del 79.17%. Si bien se queda atrás del modelo ChatGPT 4, aún demuestra un alto nivel de competencia en la respuesta a preguntas. El modelo Gemini 1.5 Pro le sigue de cerca con una tasa de éxito del 78.13%. Su rendimiento es comparable al del modelo Llama 3 70B, lo que indica fuertes capacidades de respuesta a preguntas. Por otro lado, el modelo Command R+ se queda atrás de los otros modelos con una tasa de éxito del 50%. Esto sugiere que puede tener dificultades con preguntas específicas o puede necesitar un ajuste fino adicional para mejorar su rendimiento. Distribución de respuestas correctas en diferentes niveles de dificultad. Por ejemplo, todos los modelos se desempeñaron bien en preguntas fáciles (nivel de dificultad 1), donde el modelo ChatGPT 4 logró una puntuación perfecta. En preguntas de dificultad moderada (niveles 2 y 3), los modelos ChatGPT 4 y Llama 3 70B continuaron funcionando bien.

En contraste, el modelo Gemini 1.5 Pro comenzó a mostrar algunas debilidades. En preguntas difíciles (niveles 4 y 5), el rendimiento de todos los modelos disminuyó, donde el modelo Command R+ tuvo más dificultades. En general, estos resultados proporcionan información valiosa sobre las fortalezas y debilidades de cada modelo de IA y pueden informar futuros esfuerzos de desarrollo y mejora

En la Tabla 3, la bioquímica en ciencias médicas básicas obtuvo una puntuación perfecta de ChatGPT 4, lo que demuestra su excepcional capacidad para responder preguntas en este campo. Llama 3 70B y Gemini 1.5 Pro también tuvieron un buen desempeño, pero Command R+ tuvo un mal desempeño con una precisión del 50%. Los modelos de mejor rendimiento (ChatGPT 4 y Llama 3 70B) en farmacología, patología y microbiología muestran una fuerte coherencia de información, con precisión que oscila entre el 81% y el 90%. Gemini 1.5 Pro y Command R+ se quedaron atrás, pero aún tuvieron un buen desempeño. La anatomía y la fisiología presentaron algunos desafíos para los modelos. ChatGPT 4 y Meta AI-Llama 3 70B tuvieron un buen desempeño, mientras que Gemini 1.5 Pro y Command R+ tuvieron un rendimiento inferior con una precisión inferior al 70%.

La pediatría en ciencias médicas clínicas fue crucial para todos los modelos, donde ChatGPT 4 logró una puntuación casi perfecta (90%). Llama 3 70B le siguió de cerca e incluso Command R+ logró una precisión del 43%. El rendimiento de la medicina interna y la cirugía general fue mejor que el de los mejores modelos, con precisión que oscila entre el 79% y el 90%. Gemini 1.5 Pro y Command R+ se quedaron atrás, pero aún tuvieron un buen desempeño. Un número menor de preguntas se envió de especialidades como anestesia y reanimación, medicina de emergencia, neurología y dermatología, pero los modelos funcionaron bien en general. ChatGPT 4 y Llama 3 70B mostraron una precisión excepcional en estas áreas

Con respecto a la comparación de modelos, ChatGPT 4 es el modelo con mejor rendimiento en la mayoría de las áreas, con una precisión global del 88.75%. Su fortaleza radica en su capacidad para responder con precisión a preguntas de ciencias médicas básicas y clínicas. Llama 3 70B le sigue de cerca con una precisión global del 79.17%. Si bien no puede igualar por completo el rendimiento de ChatGPT 4, aún demuestra una fuerte coherencia de conocimiento en todas las áreas. Gemini 1.5 Pro y Command R+ se quedaron atrás con una precisión global del 78.13% y el 50%, respectivamente. Si bien muestran promesas en algunas áreas, tienen dificultades para mantener la coherencia en todas las áreas

En resumen, ChatGPT 4 es actualmente el modelo más adecuado para responder preguntas de ciencias médicas en todas las áreas. Gemini 1.5 Pro y Command R+ muestran potencial, pero requieren mejoras significativas para competir con los modelos de mejor rendimiento

En la Tabla 4, con respecto al dominio del conocimiento, ChatGPT 4 superó a otros modelos con una precisión del 86.7% (85/98) en el dominio de las ciencias médicas básicas. ChatGPT 4 volvió a tener el mejor rendimiento con una precisión del 89.7% (61/68) en el dominio de las ciencias médicas clínicas. Con respecto al dominio de los casos, ChatGPT 4 tuvo una precisión del 81.8% (18/22) en el dominio de las ciencias médicas básicas. En el dominio de las ciencias médicas clínicas, ChatGPT 4 tuvo un rendimiento similar con una precisión del 94.2% (49/52)

Las comparaciones pareadas de modelos mostraron que ChatGPT 4 superó significativamente a otros modelos en ambos dominios y tipos de preguntas. Llama 3 70B y Gemini 1.5 Pro tuvieron un rendimiento similar, mientras que Command R+ se quedó atrás. Según este análisis, podemos concluir que ChatGPT 4 demostró un rendimiento superior tanto en dominios de conocimiento como en dominios de casos, así como en ciencias médicas básicas y ciencias médicas clínicas.

Análisis Estadístico

El rendimiento de los LLM se analizó utilizando Microsoft Office Excel y Python (versión 3.10.2). Para comparar el rendimiento de los modelos en diferentes niveles de dificultad de las preguntas, se realizó una prueba de chi-cuadrado no pareada. Se construyeron tablas de contingencia para respuestas correctas e incorrectas para cada modelo de IA por nivel de dificultad, y se aplicó una prueba de chi-cuadrado para determinar si existían diferencias estadísticamente significativas en el rendimiento entre los niveles de dificultad. Se utilizó un umbral de valor p de <0.05 para determinar la significación estadística. El valor p para ChatGPT 4 fue 0.00028 y fue significativo en p < 0.05, lo que indica que hubo una diferencia significativa en el rendimiento entre los diferentes niveles de dificultad. El valor p para Gemini 1.5 Pro fue 0.047 y fue significativo en p < 0.05, lo que indica que hubo una diferencia significativa en el rendimiento entre los diferentes niveles de dificultad. El valor p para Command R+ fue 0.197 y no fue significativo en p < 0.05, lo que indica que no hubo una diferencia significativa en el rendimiento entre los diferentes niveles de dificultad. El valor p para Llama 3 70B: 0.118, valor p: 0.118 y no fue significativo en p < 0.05, lo que indica que no hubo una diferencia significativa en el rendimiento entre los diferentes niveles de dificultad.

La precisión de ChatGPT 4 y Gemini 1.5 Pro en diferentes dificultades de preguntas mostró diferencias estadísticamente significativas, lo que indica que su rendimiento varía significativamente con la dificultad de la pregunta. Command R+ y Llama 3 70B no mostraron diferencias significativas en el rendimiento en los niveles de dificultad, lo que indica un rendimiento más consistente independientemente de la dificultad de la pregunta. Estos resultados pueden indicar que diferentes modelos tienen diferentes fortalezas y debilidades en el manejo de las complejidades y los temas asociados con diferentes dificultades.

Discusión

El TUS es un examen nacional crucial para los graduados de medicina en Turquía que buscan formación especializada. El examen consta de preguntas de opción múltiple que cubren ciencias básicas y ciencias clínicas, y tiene un sistema de clasificación centralizado que determina las clasificaciones de los programas de especialidad

Al evaluar el rendimiento de los modelos lingüísticos grandes en el TUS, GPT-4 es el modelo con mejor rendimiento. Del mismo modo, ChatGPT es un potente modelo de IA que demuestra un rendimiento casi o superior al humano en el campo de la cirugía, respondiendo correctamente al 71% y al 68% de las preguntas de opción múltiple SCORE y Data-B, respectivamente. Además, ChatGPT se desempeñó excepcionalmente bien en los exámenes de salud pública, superando las tasas de aprobación actuales y brindando información única. Estos hallazgos destacan el excelente rendimiento de GPT-4 y ChatGPT en las evaluaciones médicas, lo que demuestra su potencial para mejorar la educación médica y la asistencia diagnóstica potencial.

Para los educadores y examinadores médicos, la creciente precisión de los LLM plantea preguntas importantes sobre el diseño y la evaluación de los exámenes. Si los modelos de IA pueden resolver exámenes médicos estandarizados con alta precisión, las futuras evaluaciones pueden necesitar incorporar preguntas de razonamiento de orden superior y juicio clínico que vayan más allá de la simple recuperación. Además, las instituciones médicas turcas podrían explorar estrategias educativas asistidas por IA, como sistemas de aprendizaje adaptativo que adaptan los materiales de estudio a las necesidades individuales de los estudiantes.

Desde una perspectiva nacional, este estudio destaca la creciente importancia de la IA en la educación médica turca. Dado que estos LLM se desempeñan bien en las preguntas médicas en turco, pueden cerrar la brecha en el acceso a recursos educativos de calidad para los estudiantes en áreas desatendidas. Además, los responsables de la formulación de políticas deberían considerar cómo integrar los modelos de IA en los programas de educación médica continua y aprendizaje permanente para los profesionales de la salud turcos.

En conclusión, si bien los modelos de IA como ChatGPT-4 demuestran una precisión notable, su papel en la educación médica debe evaluarse cuidadosamente. Los beneficios potenciales del aprendizaje asistido por IA son enormes, pero la implementación correcta requiere garantizar que estas herramientas se utilicen de manera responsable y ética y en combinación con la experiencia humana.

Limitaciones

Este estudio proporciona información valiosa sobre el rendimiento de los modelos lingüísticos grandes (LLM) en el Examen de Admisión a la Formación de Especialidades Médicas de Turquía (TUS), pero es esencial reconocer varias limitaciones importantes para contextualizar los hallazgos y guiar futuras investigaciones. En primer lugar, no está claro si los datos de entrenamiento de los modelos de IA evaluados en este estudio incluyeron preguntas del TUS. Dado que las preguntas anteriores del TUS están disponibles públicamente, es posible que las preguntas utilizadas en este estudio hayan sido parte de los datos de entrenamiento de los modelos. Esto genera preocupaciones sobre si el rendimiento de los modelos refleja una comprensión real o simplemente la capacidad de memorizar preguntas específicas. Las investigaciones futuras deberían desarrollar métodos para evaluar si los modelos de IA demuestran capacidades de razonamiento verdaderas o si se basan en información memorizada.

En segundo lugar, existe el potencial de que los modelos de IA exhiban sesgos derivados de sus datos de entrenamiento. Estos sesgos pueden surgir de la representación desequilibrada de ciertas afecciones médicas, poblaciones o perspectivas en los datos de entrenamiento. Por ejemplo, el rendimiento de los modelos en turco puede diferir del inglés debido a las diferencias en la cantidad y la calidad de los datos de entrenamiento disponibles en cada idioma. Además, estos modelos pueden ser menos precisos al responder preguntas que requieren comprender las prácticas médicas locales turcas o el contexto cultural. Estos sesgos podrían limitar la generalización de los hallazgos y generar preocupaciones éticas sobre el uso de la IA en la educación y la práctica médicas.

Una tercera limitación es que el estudio se centra únicamente en preguntas de opción múltiple. En la práctica clínica del mundo real, los profesionales de la salud deben poseer habilidades como razonar sobre casos complejos, interpretar hallazgos ambiguos y tomar decisiones en condiciones de incertidumbre. Además, la capacidad de comunicar diagnósticos, planes de tratamiento y riesgos a pacientes y colegas de manera clara y compasiva es esencial. La capacidad de los modelos de IA para realizar estas tareas no se ha probado y sus capacidades pueden estar limitadas por su diseño y entrenamiento actuales. Las investigaciones futuras deberían evaluar los modelos de IA en entornos más realistas, como simulaciones de casos clínicos y evaluaciones abiertas.

En cuarto lugar, el estudio no incluyó preguntas abiertas. Las preguntas abiertas son esenciales para evaluar habilidades cognitivas de orden superior, como el pensamiento crítico, la síntesis de información y el razonamiento clínico. Estos tipos de preguntas requieren la capacidad de generar respuestas coherentes y relevantes para el contexto, en lugar de simplemente seleccionar la opción correcta de una lista. El rendimiento de los modelos de IA en tales tareas puede diferir significativamente de su rendimiento en preguntas de opción múltiple, lo que representa un área importante para futuras investigaciones.

La quinta limitación es que los modelos de IA no se probaron bajo presión de tiempo. Los candidatos humanos están sujetos a estrictos límites de tiempo durante los exámenes, lo que puede afectar su rendimiento. Por el contrario, los modelos de IA en este estudio no se sometieron a presión de tiempo, lo que les permitió