Análise Comparativa de Modelos de Linguagem em Prevenção CVD

Avaliação da Performance de LLMs: Precisão e Consistência

O objetivo principal foi avaliar a precisão das respostas fornecidas pelos principais LLMs quando apresentados com questões relacionadas à prevenção de CVD. O foco foi no BARD (modelo de linguagem do Google), ChatGPT-3.5 e ChatGPT-4.0 (modelos da OpenAI) e ERNIE (modelo do Baidu). Um conjunto de 75 questões meticulosamente elaboradas sobre prevenção de CVD foi apresentado a cada LLM, com as respostas avaliadas com base em sua adequação (categorizadas como apropriadas, limítrofes ou inapropriadas).

Performance na Língua Inglesa

Na língua inglesa, os LLMs demonstraram notável precisão. O BARD alcançou uma classificação “apropriada” de 88,0%, o ChatGPT-3.5 obteve 92,0% e o ChatGPT-4.0 se destacou com uma classificação de 97,3%. Esses resultados sugerem que os LLMs podem fornecer informações valiosas para usuários de língua inglesa que buscam orientação sobre a prevenção de CVD.

Performance na Língua Chinesa

A análise foi estendida para consultas na língua chinesa, onde o desempenho dos LLMs variou. O ERNIE alcançou uma classificação “apropriada” de 84,0%, o ChatGPT-3.5 obteve 88,0% e o ChatGPT-4.0 atingiu 85,3%. Embora os resultados tenham sido geralmente positivos, eles também indicaram uma ligeira queda no desempenho em comparação com o inglês, sugerindo um potencial viés linguístico nesses modelos.

Melhoria Temporal e Autoconsciência

Além da precisão inicial, investigamos a capacidade dos LLMs de melhorar suas respostas ao longo do tempo e sua autoconsciência sobre a correção. Isso envolveu avaliar como os modelos responderam a respostas subótimas fornecidas inicialmente e se eles conseguiam identificar e retificar erros quando solicitados.

Respostas Aprimoradas ao Longo do Tempo

A análise revelou que os LLMs exibem melhoria temporal. Quando apresentados com respostas inicialmente subótimas, BARD e ChatGPT-3.5 melhoraram em 67% (6/9 e 4/6, respectivamente), enquanto ChatGPT-4.0 alcançou uma taxa de melhoria perfeita de 100% (2/2). Isso sugere que os LLMs aprendem com interações e feedback do usuário, levando a informações mais precisas e confiáveis ao longo do tempo.

Autoconsciência da Correção

Também examinamos a capacidade dos LLMs de reconhecer a correção de suas respostas. BARD e ChatGPT-4.0 superaram o ChatGPT-3.5 nesta área, demonstrando melhor autoconsciência da precisão das informações que forneciam. Esse recurso é particularmente valioso em contextos médicos, onde informações incorretas podem ter sérias consequências.

Desempenho do ERNIE em Chinês

A análise de prompts chineses revelou que o ERNIE se destacou em melhoria temporal e autoconsciência da correção. Isso sugere que o ERNIE é adequado para fornecer informações precisas e confiáveis para usuários de língua chinesa que buscam orientação sobre prevenção de CVD.

Avaliação Abrangente de Chatbots LLM

Para garantir uma avaliação abrangente que inclua chatbots LLM comuns e populares, este estudo incluiu quatro modelos proeminentes: ChatGPT-3.5 e ChatGPT-4.0 da OpenAI, BARD do Google e ERNIE do Baidu. A avaliação de prompts em inglês envolveu ChatGPT 3.5, ChatGPT 4 e BARD; para prompts em chinês, a avaliação envolveu ChatGPT 3.5, ChatGPT 4 e ERNIE. Os modelos foram usados com suas configurações padrão e configurações de temperatura, sem ajustes nesses parâmetros durante a análise.

Geração de Perguntas e Avaliação de Respostas do Chatbot

O American College of Cardiology e a American Heart Association fornecem diretrizes e recomendações para a prevenção de CVD, abrangendo informações sobre fatores de risco, testes diagnósticos e opções de tratamento, bem como educação do paciente e estratégias de autogestão. Dois cardiologistas experientes geraram perguntas relacionadas à prevenção de CVD, enquadrando-as de forma semelhante a como os pacientes perguntariam aos médicos para garantir relevância e compreensibilidade da perspectiva do paciente. Essa abordagem centrada no paciente e baseada em diretrizes resultou em um conjunto final de 300 perguntas cobrindo vários domínios. Essas perguntas foram então traduzidas para o chinês, garantindo o uso apropriado de unidades convencionais e internacionais.

Avaliação Cega e Ordenada Aleatoriamente

Para garantir que os avaliadores não conseguissem distinguir a origem da resposta entre diferentes Chatbots LLM, todos os recursos específicos do chatbot foram ocultos manualmente. A avaliação foi conduzida de forma cega e ordenada aleatoriamente, com respostas de três chatbots embaralhadas aleatoriamente dentro do conjunto de perguntas. As respostas de três chatbots foram atribuídas aleatoriamente a 3 rodadas, em uma proporção de 1:1:1, para avaliação cega por três cardiologistas, com um intervalo de eliminação de 48 horas entre as rodadas para mitigar o viés de recência.

Metodologia de Avaliação de Precisão

O resultado primário foi o desempenho na resposta a perguntas primárias de prevenção de CVD. Especificamente, uma abordagem de duas etapas foi usada para avaliar as respostas. Na primeira etapa, um painel de cardiologistas revisou todas as respostas geradas pelo LLM Chatbot e as classificou como “apropriadas”, “limítrofes” ou “inapropriadas”, em relação ao consenso e diretrizes de especialistas. Na segunda etapa, uma abordagem de consenso majoritário foi utilizada, onde a classificação final para cada resposta de chatbot foi baseada na classificação mais comum avaliada entre os três avaliadores. Em cenários onde o consenso majoritário não pôde ser alcançado entre os três avaliadores, um cardiologista sênior foi consultado para finalizar a classificação.

Análise dos Principais Resultados

Os dados revelaram que o LLM-chatbot teve um desempenho geralmente melhor com prompts em inglês do que com prompts em chinês. Especificamente, para prompts em inglês, BARD, ChatGPT-3.5 e ChatGPT-4.0 demonstraram pontuações de soma semelhantes. Ao comparar as proporções de classificação “apropriada”, o ChatGPT-4.0 teve uma porcentagem notavelmente maior em comparação com o ChatGPT-3.5 e o Google Bard. Para prompts em chinês, o ChatGPT3.5 teve uma pontuação de soma maior, seguido por ChatGPT-4.0 e Ernie. No entanto, as diferenças não foram estatisticamente significativas. Da mesma forma, o ChatGPT-3.5 teve uma proporção maior de “classificação apropriada” para prompts em chinês, em comparação com ChatGPT-4.0 e ERNIE, mas as diferenças não foram estatisticamente significativas.

Desempenho em Domínios de Prevenção de CVD

A análise focou em classificações “apropriadas” em diferentes domínios de prevenção de CVD. Notavelmente, o ChatGPT-4.0 teve um desempenho consistentemente bom na maioria dos domínios, com classificações particularmente altas nos domínios “dislipidemia”, “estilo de vida”, “biomarcador e inflamação” e “DM e DRC”. No entanto, o BARD mostrou um desempenho subótimo em comparação com ChatGPT4.0 e ChatGPT-3.5, particularmente no domínio “estilo de vida”. As descobertas destacaram que todos os três LLM-Chatbots tiveram um bom desempenho no domínio “estilo de vida”, com classificações “apropriadas” de 100% (Tabela Suplementar S6). No entanto, variações no desempenho foram observadas em outros domínios, com alguns modelos mostrando maior eficácia em domínios de prevenção específicos.

Implicações para a Alfabetização em Saúde

As descobertas do estudo têm implicações importantes para os esforços para melhorar a alfabetização em saúde cardiovascular. À medida que os indivíduos recorrem cada vez mais a recursos online para obter informações médicas, os LLMs têm o potencial de servir como ferramentas valiosas para melhorar a compreensão da prevenção de CVD. Ao fornecer informações precisas e acessíveis, os LLMs podem preencher lacunas no conhecimento e capacitar os indivíduos a tomar decisões informadas sobre sua saúde.

Disparidades no Desempenho

O estudo também revelou disparidades significativas no desempenho de LLM em diferentes idiomas. A descoberta de que os LLMs geralmente tiveram um desempenho melhor com prompts em inglês do que com prompts em chinês destaca o potencial de viés linguístico nesses modelos. Abordar essa questão é crucial para garantir que os LLMs forneçam acesso equitativo a informações médicas precisas para todos os indivíduos, independentemente de sua língua nativa.

O Papel dos Modelos Específicos de Língua

A análise do desempenho do ERNIE em chinês fornece informações valiosas sobre o papel dos LLMs específicos de língua. As fortalezas do ERNIE na melhoria temporal e na autoconsciência da correção sugerem que modelos adaptados para línguas específicas podem efetivamente abordar nuances linguísticas e contextos culturais. O desenvolvimento e refinamento adicionais de LLMs específicos de língua podem ser essenciais para otimizar a entrega de informações médicas para diversas populações.

Limitações e Direções Futuras

Embora este estudo forneça informações valiosas sobre as capacidades dos LLMs no tratamento de questões de prevenção de CVD, é essencial reconhecer certas limitações. As perguntas usadas representaram uma pequena parte das perguntas em termos de prevenção de CVD. A generalização das descobertas está sujeita ao impacto de respostas estocásticas. Além disso, a rápida evolução dos LLMs exige pesquisa contínua para acomodar iterações atualizadas e modelos emergentes. Estudos futuros devem expandir o escopo das perguntas, explorar o impacto de diferentes padrões de interação com os LLMs e investigar as considerações éticas em torno de seu uso em contextos médicos.

Conclusão

Em conclusão, essas descobertas ressaltam a promessa dos LLMs como ferramentas para aprimorar a compreensão pública da saúde cardiovascular, ao mesmo tempo em que enfatizam a necessidade de uma avaliação cuidadosa e um refinamento contínuo para garantir a precisão, a justiça e a disseminação responsável de informações médicas. O caminho a seguir envolve avaliações comparativas contínuas, abordando vieses linguísticos e aproveitando os pontos fortes dos modelos específicos de língua para promover o acesso equitativo a orientações de prevenção de CVD precisas e confiáveis. A inteligência artificial tem o potencial de transformar a saúde, e o aprimoramento contínuo desses modelos é crucial para liberar esse potencial.