IA na educação médica: TUS

Introdução

Nos últimos anos, os avanços tecnológicos, como a Inteligência Artificial (IA) e os Grandes Modelos de Linguagem (LLM), trouxeram potenciais transformações para a educação médica e para as metodologias de avaliação de conhecimento. Em particular, esses desenvolvimentos podem tornar as informações médicas mais acessíveis e as avaliações mais interativas.

Estudos anteriores já exploraram o desempenho de LLMs em vários exames de licenciamento médico, como o USMLE (United States Medical Licensing Examination) e o JMLE (Japanese Medical Licensing Examination), mas esses exames diferem significativamente do TUS (Tıpta Uzmanlık Sınavı) em estrutura e conteúdo. O TUS concentra-se nas ciências básicas e clínicas, com particular atenção ao contexto médico turco, o que proporciona uma oportunidade única para avaliar as capacidades dos LLMs num ambiente de avaliação distinto. Este estudo tem como objetivo preencher esta lacuna avaliando o desempenho de quatro LLMs líderes no TUS. Além disso, esta investigação explora as potenciais implicações destas descobertas para o design do currículo, a formação médica assistida por IA e o futuro das avaliações médicas na Turquia. Especificamente, investigamos como o desempenho dos LLMs pode informar o desenvolvimento de recursos educacionais mais eficazes e estratégias de avaliação adaptadas ao currículo médico turco. Esta análise contribui não só para a compreensão do desempenho específico da linguagem, mas também para uma discussão mais ampla sobre como integrar eficazmente a IA na educação e avaliação médica global.

Os resultados destes estudos sugerem que o ChatGPT e LLMs semelhantes podem desempenhar um papel significativo na educação médica e nos processos de avaliação de conhecimento. A Inteligência Artificial e os LLMs na recuperação de informações médicas e nos métodos de avaliação podem permitir o desenvolvimento de abordagens inovadoras e métodos de aprendizagem, particularmente na educação médica. Este estudo tem como objetivo investigar mais a fundo o impacto dos LLMs na educação médica e na avaliação de conhecimento, avaliando o desempenho do ChatGPT 4, Gemini 1.5 Pro e Cohere-Command R+ no Exame de Admissão à Formação de Especialização Médica na Turquia.

Este estudo explora as aplicações de modelos avançados de Inteligência Artificial (IA), especificamente ChatGPT 4, Gemini 1.5 Pro, Command R+ e Llama 3 70B, na educação e avaliação médica, com foco em seu desempenho na resolução de questões de exames de especialização médica. A pesquisa avalia a capacidade desses modelos de realizar uma análise abrangente e sistemática das questões do Exame de Admissão à Formação de Especialização Médica na Turquia, destacando o potencial da IA na medicina ao considerar fatores como capacidade interpretativa e precisão. Os resultados sugerem que os modelos de IA podem facilitar significativamente os processos de educação e avaliação médica, abrindo caminho para novas aplicações e áreas de pesquisa. O principal objetivo deste artigo é avaliar os rápidos avanços na tecnologia de IA e comparar as capacidades de resposta de vários modelos de IA. Um estudo comparativo do ChatGPT 4, Gemini 1.5 Pro, Command R+ e Llama 3 70B foi realizado, avaliando seu desempenho em 240 questões do primeiro semestre do Exame de Admissão à Formação de Especialização Médica na Turquia de 2021.

Essa comparação tem como objetivo elucidar as trajetórias e distinções do desenvolvimento da tecnologia de IA, com foco em sua utilidade em campos especializados, como educação médica e preparação para exames. O objetivo final é fornecer insights que ajudem os usuários a selecionar as ferramentas de estudo mais adequadas para suas necessidades específicas.

Métodos

As questões foram apresentadas aos LLMs em turco. As questões foram obtidas no site oficial do Centro de Seleção e Colocação de Estudantes, no formato de múltipla escolha (com cinco opções de A a E), com apenas uma melhor resposta. As respostas foram fornecidas pelos LLMs em turco.

O processo de avaliação foi baseado nas respostas corretas publicadas pelo Centro de Seleção e Colocação de Estudantes. O artigo menciona: ‘A resposta ‘correta’ para as questões para os modelos de inteligência artificial foi definida com base nas respostas publicadas pelo Centro de Seleção e Colocação de Estudantes. Somente as respostas identificadas como corretas de acordo com as instruções no texto da questão foram aceitas como ‘corretas’.’ Como as questões e as respostas estavam em turco, o processo de avaliação envolveu a comparação das respostas em turco dos LLMs com a chave de respostas oficiais em turco fornecida pelo Centro de Seleção e Colocação de Estudantes.

Conjunto de Dados de Educação Médica

Este estudo usou ChatGPT 4, Gemini 1.5 Pro, Command R+ e Llama 3 70B para testar as capacidades do modelo de inteligência artificial na avaliação de conhecimento médico e estudos de caso. A pesquisa foi realizada sobre as questões do Exame de Admissão à Formação de Especialização Médica na Turquia, realizado em 21 de março de 2021. O Exame de Admissão à Formação de Especialização Médica na Turquia é um exame organizado pelo Centro de Seleção e Colocação de Estudantes, que consiste em 240 questões. As questões de conhecimento básico na primeira categoria testam o conhecimento e a ética necessários para concluir a educação médica. A segunda categoria são questões de caso que abrangem muitas doenças que medem o pensamento analítico e as habilidades de raciocínio.

Classificação da Dificuldade das Questões

Os níveis de dificuldade das questões foram classificados com base nos dados oficiais de desempenho do candidato publicados pelo Centro de Seleção e Colocação de Estudantes. Especificamente, a taxa de respostas corretas relatada pelo centro para cada questão foi usada para categorizar as questões em cinco níveis de dificuldade:

  • Nível 1 (mais fácil): Questões com uma taxa de respostas corretas de 80% ou superior.
  • Nível 2: Questões com uma taxa de respostas corretas entre 60% e 79,9%.
  • Nível 3 (médio): Questões com uma taxa de respostas corretas entre 40% e 59,9%.
  • Nível 4: Questões com uma taxa de respostas corretas entre 20% e 39,9%.
  • Nível 5 (mais difícil): Questões com uma taxa de respostas corretas de 19,9% ou inferior.

A resposta ‘correta’ para as questões dos modelos de inteligência artificial foi definida com base nas respostas publicadas pelo Centro de Seleção e Colocação de Estudantes. Somente as respostas identificadas como corretas de acordo com as instruções no texto da questão foram aceitas como ‘corretas’. Além disso, o nível de dificuldade de cada questão foi classificado de 1 a 5 com base na taxa de respostas corretas publicada pelo Centro de Seleção e Colocação de Estudantes. As questões com taxas de respostas corretas de 80% ou superiores foram consideradas as mais fáceis (Nível 1), enquanto as questões com taxas de respostas corretas de 19,9% ou inferiores foram consideradas as mais difíceis (Nível 5).

Domínios de Conhecimento e Casos

O Exame de Admissão à Formação de Especialização Médica na Turquia é um passo crucial para os graduados em medicina na Turquia que buscam se especializar, avaliando o conhecimento e os domínios de casos do candidato. Compreender a distinção entre esses domínios é essencial para uma preparação completa. O domínio do conhecimento concentra-se na avaliação da compreensão teórica e do conhecimento factual do candidato em sua área médica escolhida. Ele testa o domínio dos conceitos e princípios fundamentais e estabelece as informações médicas relevantes para a especialidade. Representa a área específica de conhecimento médico que está sendo testada, como ciências médicas básicas (anatomia, bioquímica, fisiologia, etc.) e ciências clínicas (medicina interna, cirurgia, pediatria, etc.) O domínio do caso, por outro lado, representa cenários ou situações da vida real onde o conhecimento é aplicado, como resolução de problemas, pensamento analítico, pensamento crítico, tomada de decisão e aplicação de conceitos a situações da vida real.

Engenharia de Prompt

A engenharia de prompt é o design e ajuste fino de prompts de linguagem natural para obter respostas específicas de um modelo de linguagem ou sistema de IA. Em abril de 2024, coletamos as respostas consultando os modelos de linguagem diretamente por meio de suas respectivas interfaces da web.

Para garantir uma avaliação justa das capacidades brutas de cada modelo, um controle metodológico rigoroso foi implementado na forma como as questões foram apresentadas aos LLMs. Cada questão foi inserida individualmente, e as sessões foram redefinidas antes de fazer novas questões para evitar que os modelos aprendessem ou se adaptassem com base em interações anteriores.

Análise de Dados

Todas as análises foram realizadas usando os softwares Microsoft Office Excel e Python. Para comparar o desempenho dos LLMs em diferentes dificuldades de questões, foram realizados testes qui-quadrado não pareados. Um valor de p de < 0,05 foi usado como um limiar de valor p para determinar a significância estatística. A análise avaliou se a precisão do modelo variava em relação ao nível de dificuldade da questão.

Considerações Éticas

Este estudo usou apenas informações publicadas na Internet e não envolveu sujeitos humanos. Portanto, a aprovação do Comitê de Ética da Universidade de Baskent não foi necessária.

Resultados

O número médio de respostas corretas de candidatos que participaram do exame de ciências médicas básicas do primeiro período do Exame de Admissão à Formação de Especialização Médica na Turquia de 2021 foi de 51,63. O número médio de respostas corretas no exame de ciências médicas clínicas foi de 63,95. O número médio de respostas corretas no exame de ciências médicas clínicas foi maior do que no exame de ciências médicas básicas. Paralelamente a esta situação, as tecnologias de inteligência artificial também responderam com mais sucesso ao exame de ciências médicas clínicas.

Desempenho da IA

O desempenho das plataformas de IA foi avaliado usando as mesmas métricas dos candidatos humanos.

  • ChatGPT 4:

    O ChatGPT 4 obteve uma pontuação média de 103 respostas corretas na seção de ciências médicas básicas e uma pontuação média de 110 respostas corretas na seção de ciências médicas clínicas. Isso representa uma precisão geral de 88,75%, significativamente maior do que a dos candidatos humanos médios em ambas as seções (p < 0,001).

  • Llama 3 70B:

    O Llama 3 70B obteve uma pontuação média de 95 respostas corretas na seção de ciências médicas básicas e uma pontuação média de 95 respostas corretas na seção de ciências médicas clínicas. Isso representa uma precisão geral de 79,17%, o que também foi significativamente maior do que o desempenho humano médio (p < 0,01).

  • Gemini 1.5 Pro:

    O Gemini 1.5 Pro obteve uma pontuação média de 94 respostas corretas na seção de ciências médicas básicas e uma pontuação média de 93 respostas corretas na seção de ciências médicas clínicas. Isso representa uma precisão geral de 78,13%, o que foi significativamente maior do que o desempenho humano médio (p < 0,01).

  • Command R+:

    O Command R+ obteve uma pontuação média de 60 respostas corretas na seção de ciências médicas básicas e uma pontuação média de 60 respostas corretas na seção de ciências médicas clínicas. Isso representa uma precisão geral de 50%, o que não foi significativamente diferente do desempenho humano médio na seção de ciências médicas básicas (p = 0,12), mas foi significativamente menor na seção de ciências médicas clínicas (p < 0,05).

O desempenho das plataformas de IA foi avaliado usando as mesmas métricas dos candidatos humanos.

A Figura 3 compara a precisão dos diferentes LLMs com base na dificuldade da questão - ChatGPT 4: O modelo com melhor desempenho. À medida que a dificuldade da questão aumenta, a precisão aumenta, aproximando-se de 70% mesmo nas questões mais desafiadoras - Llama 3 70B: Um modelo com desempenho moderado. À medida que a dificuldade da questão aumenta, a precisão primeiro aumenta e depois diminui. Sua precisão está em torno de 25% nas questões mais desafiadoras. Gemini 1.5 70B: Seu desempenho é semelhante ao Llama 3 70B. À medida que a dificuldade da questão aumenta, a precisão primeiro aumenta e depois diminui. Sua precisão está em torno de 20% nas questões mais desafiadoras. Command R+: O modelo com pior desempenho. Sua precisão diminui à medida que a dificuldade da questão aumenta e permanece em torno de 15% nas questões mais desafiadoras

Em resumo, o ChatGPT 4 é o modelo menos afetado pela dificuldade da questão e possui a precisão geral mais alta. Llama 3 70B e Gemini 1.5 Pro têm desempenho moderado, enquanto o Command R+ tem taxas de sucesso mais baixas do que outros modelos. A precisão dos modelos diminui à medida que a dificuldade da questão aumenta. Isso demonstra que os LLMs ainda precisam de melhorias na compreensão e resposta correta a questões complexas

Na Tabela 1, o modelo ChatGPT 4 se destaca como o modelo com melhor desempenho, com uma taxa de sucesso de 88,75%. Isso demonstra sua forte capacidade de entender e responder às questões com precisão. O modelo Llama 3 70B ficou em segundo lugar, com uma taxa de sucesso de 79,17%. Embora fique atrás do modelo ChatGPT 4, ele ainda demonstra um alto nível de proficiência na resposta a questões. O modelo Gemini 1.5 Pro ficou logo atrás, com uma taxa de sucesso de 78,13%. Seu desempenho é comparável ao do modelo Llama 3 70B, demonstrando suas fortes capacidades de resposta a questões. O modelo Command R+, por outro lado, ficou atrás dos outros modelos, com uma taxa de sucesso de 50%. Isso sugere que ele pode ter dificuldades com questões específicas ou exigir ajuste fino adicional para melhorar seu desempenho. A distribuição das respostas corretas em diferentes níveis de dificuldade. Por exemplo, todos os modelos tiveram um bom desempenho em questões fáceis (nível de dificuldade 1), com o modelo ChatGPT 4 atingindo uma pontuação perfeita. Em questões de dificuldade moderada (níveis 2 e 3), os modelos ChatGPT 4 e Llama 3 70B continuaram a ter um bom desempenho.

Em contraste, o modelo Gemini 1.5 Pro começou a mostrar algumas fraquezas. Em questões difíceis (níveis 4 e 5), o desempenho de todos os modelos diminuiu, com o modelo Command R+ tendo mais dificuldades. No geral, esses resultados fornecem informações valiosas sobre os pontos fortes e fracos de cada modelo de IA e podem informar futuros esforços de desenvolvimento e melhoria

Na Tabela 3, Bioquímica em Ciências Médicas Básicas obteve uma pontuação perfeita do ChatGPT 4, o que demonstra sua capacidade excepcional de responder às questões dessa área. Llama 3 70B e Gemini 1.5 Pro também tiveram um bom desempenho, mas o Command R+ teve um desempenho ruim com uma precisão de 50%. Os modelos de melhor desempenho em Farmacologia, Patologia e Microbiologia (ChatGPT 4 e Llama 3 70B) demonstraram forte consistência de informações, com precisão variando de 81% a 90%. Gemini 1.5 Pro e Command R+ ficaram para trás, mas ainda tiveram um bom desempenho. Anatomia e Fisiologia representaram alguns desafios para os modelos. ChatGPT 4 e Meta AI-Llama 3 70B tiveram um bom desempenho, enquanto Gemini 1.5 Pro e Command R+ tiveram um desempenho ruim com uma precisão inferior a 70%.

Pediatria em Ciências Médicas Clínicas foi crítica para todos os modelos, com o ChatGPT 4 obtendo uma pontuação quase perfeita (90%). Llama 3 70B ficou logo atrás, e mesmo o Command R+ atingiu uma precisão de 43%. Medicina Interna e Cirurgia Geral tiveram um desempenho superior dos melhores modelos, com precisão variando de 79% a 90%. Gemini 1.5 Pro e Command R+ ficaram para trás, mas ainda tiveram um bom desempenho. Havia menos questões apresentadas em especialidades como Anestesia e Ressuscitação, Medicina de Emergência, Neurologia e Dermatologia, mas os modelos geralmente tiveram um bom desempenho. ChatGPT 4 e Llama 3 70B demonstraram precisão excepcional nessas áreas

Em relação à comparação de modelos, o ChatGPT 4 foi o modelo com melhor desempenho na maioria das áreas, com uma precisão geral de 88,75%. Sua força reside em sua capacidade de responder com precisão a questões de ciências médicas básicas e clínicas. Llama 3 70B ficou logo atrás, com uma precisão geral de 79,17%. Embora não tenha conseguido igualar totalmente o desempenho do ChatGPT 4, ele ainda demonstrou forte consistência de conhecimento em várias áreas. Gemini 1.5 Pro e Command R+ ficaram para trás, com precisão geral de 78,13% e 50%, respectivamente. Embora tenham mostrado promessa em algumas áreas, eles lutaram para manter a consistência em todas as áreas

Em resumo, o ChatGPT 4 é atualmente o modelo mais adequado para responder a questões de ciências médicas em várias áreas. Gemini 1.5 Pro e Command R+ mostraram potencial, mas exigem melhorias significativas para competir com os modelos com melhor desempenho

Na Tabela 4, em relação ao domínio do conhecimento, o ChatGPT 4 foi o modelo com melhor desempenho em ciências médicas básicas, com uma precisão de 86,7% (85/98). O ChatGPT 4 teve o melhor desempenho novamente, com uma precisão de 89,7% (61/68) em ciências médicas clínicas. Em relação ao domínio do caso, o ChatGPT 4 foi o modelo com melhor desempenho em ciências médicas básicas, com uma precisão de 81,8% (18/22). Em ciências médicas clínicas, o ChatGPT 4 teve um desempenho semelhante, com uma precisão de 94,2% (49/52)

As comparações pareadas dos modelos revelaram que o ChatGPT 4 teve um desempenho significativamente melhor do que outros modelos em ambos os domínios e tipos de questões. Llama 3 70B e Gemini 1.5 Pro tiveram um desempenho semelhante, enquanto Command R+ ficou para trás. Com base nesta análise, podemos concluir que o ChatGPT 4 demonstra desempenho superior tanto no domínio do conhecimento quanto no domínio do caso, bem como em ciências médicas básicas e ciências médicas clínicas.

Análise Estatística

O desempenho dos LLMs foi analisado usando Microsoft Office Excel e Python (versão 3.10.2). Para comparar o desempenho dos modelos em diferentes níveis de dificuldade de questão, foram realizados testes qui-quadrado não pareados. Tabelas de contingência foram construídas para respostas corretas e incorretas para cada modelo de IA por nível de dificuldade, e testes qui-quadrado foram aplicados para determinar se havia diferenças estatisticamente significativas no desempenho em diferentes níveis de dificuldade. Um valor p de <0,05 foi usado como um limiar para significância estatística. O valor p para ChatGPT 4 foi 0,00028 e foi significativo em p < 0,05, indicando que houve uma diferença significativa no desempenho entre diferentes níveis de dificuldade. O valor p para Gemini 1.5 Pro foi 0,047 e foi significativo em p < 0,05, indicando que houve uma diferença significativa no desempenho entre diferentes níveis de dificuldade. O valor p para Command R+ foi 0,197 e não foi significativo em p < 0,05, indicando que não houve uma diferença significativa no desempenho entre diferentes níveis de dificuldade. O valor p para Llama 3 70B: Valor p: 0,118 e não foi significativo em p < 0,05, indicando que não houve uma diferença significativa no desempenho entre diferentes níveis de dificuldade.

A correção do ChatGPT 4 e do Gemini 1.5 Pro em diferentes dificuldades de questões mostrou diferenças estatisticamente significativas, sugerindo que seu desempenho variou significativamente com diferentes dificuldades de questões. Command R+ e Llama 3 70B não mostraram diferenças significativas no desempenho entre os níveis de dificuldade, indicando um desempenho mais consistente, independentemente da dificuldade da questão. Esses resultados podem indicar que diferentes modelos têm diferentes pontos fortes e fracos no tratamento de complexidades e tópicos associados a diferentes dificuldades.

Discussão

O TUS é um exame nacional crítico para graduados em medicina na Turquia que buscam treinamento especializado. O exame consiste em questões de múltipla escolha que abrangem ciências básicas e ciências clínicas e apresenta um sistema de classificação centralizado que determina as classificações dos programas de especialização

Ao avaliar o desempenho de grandes modelos de linguagem no TUS, o GPT-4 foi o modelo com melhor desempenho. Da mesma forma, o ChatGPT é um modelo de IA robusto que demonstrou desempenho quase humano ou superior na área de cirurgia, respondendo corretamente a 71% e 68% das questões de múltipla escolha SCORE e Data-B, respectivamente. Além disso, o ChatGPT teve um desempenho excelente em exames de saúde pública, excedendo as taxas de aprovação atuais e fornecendo insights únicos. Essas descobertas destacam o desempenho notável do GPT-4 e do ChatGPT em avaliações médicas, demonstrando seu potencial para aprimorar a educação médica e potencialmente auxiliar no diagnóstico.

Para educadores e examinadores médicos, a crescente precisão dos LLMs levanta questões importantes sobre o design e a avaliação de exames. Se os modelos de IA puderem resolver exames médicos padronizados com alta precisão, as avaliações futuras podem precisar incorporar questões de raciocínio e julgamento clínico de ordem superior que vão além da simples recordação. Além disso, as instituições médicas turcas podem explorar estratégias educacionais assistidas por IA, como sistemas de aprendizado adaptativo que adaptam os materiais de estudo às necessidades individuais dos alunos.

De uma perspectiva nacional, este estudo destaca a crescente importância da IA na educação médica turca. Como esses LLMs mostram proficiência em questões médicas em turco, eles podem preencher lacunas no acesso a recursos educacionais de alta qualidade para alunos em áreas carentes. Além disso, os formuladores de políticas devem considerar como os modelos de IA podem ser integrados aos programas de educação médica continuada e aprendizado ao longo da vida para profissionais de saúde turcos.

Em conclusão, embora os modelos de IA como o ChatGPT-4 demonstrem precisão notável, seu papel na educação médica deve ser avaliado cuidadosamente. Os benefícios potenciais do aprendizado assistido por IA são vastos, mas a implementação adequada requer garantir que essas ferramentas sejam usadas de forma responsável e ética e em conjunto com a experiência humana.

Limitações

Este estudo fornece informações valiosas sobre o desempenho de grandes modelos de linguagem (LLMs) no Exame de Admissão à Formação de Especialização Médica na Turquia (TUS), mas é essencial reconhecer várias limitações significativas para contextualizar as descobertas e orientar pesquisas futuras. Primeiro, não se sabe se os dados de treinamento dos modelos de IA avaliados neste estudo incluíram questões do TUS. Como as questões anteriores do TUS estão disponíveis publicamente, é possível que as questões usadas neste estudo fizessem parte dos dados de treinamento dos modelos. Isso levanta preocupações sobre se o desempenho dos modelos reflete a compreensão genuína ou simplesmente a capacidade de memorizar questões específicas. Estudos futuros devem desenvolver métodos para avaliar se os modelos de IA demonstram verdadeiras habilidades de raciocínio ou dependem de informações memorizadas.

Em segundo lugar, é possível que os modelos de IA exibam vieses derivados de seus dados de treinamento. Esses vieses podem surgir de representação desequilibrada de certas condições médicas, populações ou perspectivas nos dados de treinamento. Por exemplo, o desempenho dos modelos em turco pode diferir do desempenho em inglês devido a variações na quantidade e qualidade dos dados de treinamento disponíveis em cada idioma. Além disso, os modelos podem ser menos precisos ao responder a questões que exigem uma compreensão das práticas médicas locais turcas ou do contexto cultural. Esses vieses podem limitar a generalização das descobertas e levantar preocupações éticas sobre o uso da IA na educação e prática médica.

Uma terceira limitação é que o estudo se concentrou apenas em questões de múltipla escolha. Na prática clínica do mundo real, os profissionais de saúde precisam possuir habilidades como raciocinar sobre casos complexos, interpretar descobertas ambíguas e tomar decisões sob incerteza. Além disso, a capacidade de comunicar diagnósticos, planos de tratamento e riscos aos pacientes e colegas de forma clara e compassiva é fundamental. A capacidade dos modelos de IA de executar essas tarefas não foi testada e suas capacidades podem ser limitadas por seu design e treinamento atuais. Estudos futuros devem avaliar os modelos de IA em configurações mais realistas, como simulações de casos clínicos e avaliações de resposta aberta.

Quarto, o estudo não incluiu questões de resposta aberta. As questões de resposta aberta são essenciais para avaliar habilidades cognitivas de ordem superior, como pensamento crítico, síntese de informações e raciocínio clínico. Esses tipos de questões exigem a capacidade de gerar respostas coerentes e contextualmente relevantes, em vez de simplesmente selecionar a opção correta de uma lista. O desempenho dos modelos de IA nessas tarefas pode diferir significativamente de seu desempenho em questões de múltipla escolha, o que representa uma importante área para pesquisas futuras.

Uma quinta limitação é que os modelos de IA não foram testados sob pressão de tempo. Os candidatos humanos estão sujeitos a restrições de tempo rigorosas durante os exames, o que pode afetar seu desempenho. Em