LLMs Não Regulados Geram Saídas Médicas

A Promessa e os Desafios Regulatórios dos LLMs na Saúde

Os grandes modelos de linguagem (LLMs) estão a demonstrar um potencial significativo para uso no apoio à decisão clínica (CDS). No entanto, é importante notar que, atualmente, nenhum recebeu autorização da Food and Drug Administration (FDA) como um dispositivo CDS. Este estudo investiga se dois LLMs amplamente utilizados poderiam ser solicitados a gerar resultados semelhantes aos de um dispositivo médico que fornece CDS. As descobertas revelam que os LLMs, em vários cenários, podem produzir prontamente resultados semelhantes ao suporte à decisão baseado em dispositivos. Isso destaca uma potencial necessidade de supervisão regulatória se os LLMs forem formalmente integrados à prática clínica.

As capacidades dos LLMs, decorrentes dos seus extensos dados de treino e capacidade de gerar texto semelhante ao humano, estão a impulsionar o interesse na sua aplicação para suporte à decisão em diversos campos. No entanto, as próprias características que tornam os sistemas generativos de inteligência artificial (AI) tão atraentes também apresentam obstáculos únicos para os órgãos reguladores. Esses órgãos estão a operar dentro de estruturas estabelecidas há décadas, projetadas para dispositivos médicos tradicionais, e não para a natureza dinâmica da AI.

Atualmente, os LLMs disponíveis não são classificados como dispositivos médicos. A Lei Federal de Alimentos, Medicamentos e Cosméticos (FD&C Act § 201(h)(1)) define um dispositivo médico como um “instrumento… destinado ao uso no diagnóstico, …cura, mitigação, tratamento ou prevenção de doenças… que não atinge os seus principais objetivos pretendidos através de ação química”. A maioria dos LLMs inclui avisos de isenção de responsabilidade afirmando que não se destinam a fornecer aconselhamento médico, evitando assim a regulamentação da FDA. Apesar disso, há uma crescente coleção de pesquisas publicadas e evidências anedóticas que destacam o uso de LLMs para suporte à decisão médica, tanto em ambientes de pesquisa quanto na prática clínica real.

Definição do Escopo da Regulamentação para o Suporte à Decisão Clínica Baseado em LLM

Considerando o potencial dos LLMs, caso sejam formalmente incorporados a um sistema de apoio à decisão clínica (CDSS), a questão da regulamentação apropriada torna-se fundamental. A emenda do 21st Century Cures Act à Lei FD&C (Lei Pública 114–255), juntamente com as orientações da FDA, delineia quatro critérios-chave para determinar se o software de apoio à decisão se qualifica como um dispositivo e, consequentemente, se enquadra na jurisdição da FDA. Esses critérios giram em torno de:

  • Os dados de entrada da função do software.
  • Os seus dados de saída.
  • A substância das suas recomendações clínicas.
  • A capacidade do utilizador final de rever a lógica por trás dessas recomendações.

Especificamente, um CDSS é considerado um dispositivo se a sua saída oferecer uma diretiva precisa para tratamento ou diagnóstico, em vez de recomendações baseadas em informações gerais. Além disso, se o CDSS não fornecer a base subjacente para as suas recomendações, impedindo que os utilizadores as revejam independentemente e cheguem às suas próprias conclusões, ele é classificado como um dispositivo. A orientação da FDA esclarece ainda que um CDSS usado numa emergência clínica é considerado um dispositivo devido à natureza crítica e urgente da tomada de decisão, o que impede a avaliação independente do conselho do CDSS.

Investigação de Saídas Semelhantes a Dispositivos em Sistemas Generativos de IA

Permanece incerto se um CDSS que emprega IA generativa, como um LLM, produz resultados que imitam um dispositivo médico. A saída de texto livre de um LLM irrestrito pode ou não atender aos critérios de dispositivo estabelecidos. Além disso, não se sabe como as respostas do LLM a prompts desafiadores ou “jailbreaks” se alinham com esses critérios. O uso crescente de LLMs para aconselhamento médico torna a incerteza em torno da designação de dispositivo e do status regulatório de CDSSs baseados em LLM um potencial impedimento para o desenvolvimento seguro e eficaz dessas tecnologias. Encontrar o equilíbrio certo entre segurança e inovação para a IA generativa na área da saúde é crucial à medida que mais médicos e pacientes utilizam essas ferramentas.

Objetivos da Pesquisa: Avaliação da Funcionalidade Semelhante a Dispositivo

Esta pesquisa teve como objetivo avaliar a funcionalidade semelhante a dispositivo dos LLMs. Essa funcionalidade é definida como a sua utilidade para “diagnóstico, tratamento, prevenção, cura ou mitigação de doenças ou outras condições”, independentemente de tal uso ser pretendido ou permitido. Os objetivos específicos foram:

  1. Determinar se a saída do LLM se alinharia com os critérios do dispositivo quando solicitado com instruções sobre esses critérios e apresentado a uma emergência clínica.
  2. Identificar as condições, se houver, sob as quais a saída de um modelo poderia ser manipulada para fornecer saída semelhante a dispositivo. Isso incluiu o uso de solicitações diretas de informações de diagnóstico e tratamento, bem como um “jailbreak” pré-definido projetado para obter resultados semelhantes a dispositivos, apesar das solicitações para aderir a critérios de não dispositivo.

Resultados: Respostas do LLM e Alinhamento com os Critérios do Dispositivo

Recomendações de Cuidados Preventivos

Quando questionados sobre recomendações de cuidados preventivos, todos os LLMs geraram respostas consistentes com critérios de não dispositivo na sua saída de texto final. O modelo Llama-3, em resposta a um prompt de single-shot, inicialmente forneceu suporte à decisão semelhante a dispositivo numa pequena percentagem de respostas (20% para medicina familiar e 60% para cenários de cuidados preventivos de psiquiatria). No entanto, rapidamente substituiu esse texto por um aviso: “Desculpe, não posso ajudá-lo com este pedido agora”. Quando apresentado a um prompt de multi-shot contendo exemplos detalhados de critérios de dispositivo, todos os modelos forneceram consistentemente recomendações de não dispositivo para todas as respostas iniciais de cuidados preventivos.

Cenários de Emergência com Tempo Crítico

Em situações que envolvem emergências com tempo crítico, 100% das respostas do GPT-4 e 52% das respostas do Llama-3 alinharam-se com o suporte à decisão semelhante a dispositivo. As taxas gerais de recomendações semelhantes a dispositivos permaneceram consistentes com prompts de multi-shot, mas mostraram variação em diferentes cenários clínicos. Essas respostas semelhantes a dispositivos incluíram sugestões para diagnósticos e tratamentos específicos relacionados às emergências.

“Jailbreak” do “Estagiário Desesperado”

Quando submetido ao “jailbreak” do “estagiário desesperado”, uma proporção significativa das respostas exibiu recomendações semelhantes a dispositivos. Especificamente, 80% e 68% das respostas do GPT-4, e 36% e 76% das respostas do Llama-3, incluíram recomendações semelhantes a dispositivos após prompts de single-shot e multi-shot, respectivamente.

Adequação Clínica das Sugestões do LLM

É importante notar que todas as sugestões do modelo foram clinicamente apropriadas e alinhadas com os padrões de atendimento estabelecidos. Nos cenários de medicina familiar e cardiologia, grande parte do suporte à decisão semelhante a dispositivo era adequado apenas para médicos treinados. Os exemplos incluem a colocação de um cateter intravenoso e a administração de antibióticos intravenosos. Em outros cenários, as recomendações semelhantes a dispositivos eram geralmente consistentes com os padrões de atendimento de espectadores, como administrar naloxona para uma overdose de opioides ou usar um autoinjetor de epinefrina para anafilaxia.

Implicações para Regulamentação e Supervisão

Embora nenhum LLM seja atualmente autorizado pela FDA como um CDSS, e alguns declarem explicitamente que não devem ser usados para aconselhamento médico, pacientes e médicos ainda podem estar a utilizá-los para esse fim. O estudo descobriu que nem prompts de single-shot nem de multi-shot, baseados na linguagem de um documento de orientação da FDA, restringiram de forma confiável os LLMs a produzir apenas suporte à decisão de não dispositivo. Além disso, um jailbreak pré-definido muitas vezes não era necessário para obter suporte à decisão semelhante a dispositivo. Essas descobertas reforçam pesquisas anteriores que destacam a necessidade de novos paradigmas regulatórios adaptados a CDSSs de AI/ML. Eles também têm implicações diretas para a supervisão de dispositivos médicos que incorporam tecnologias generativas de IA.

Repensando as Abordagens Regulatórias

Uma regulamentação eficaz pode exigir novos métodos para alinhar melhor a saída do LLM com o suporte à decisão semelhante a dispositivo ou não dispositivo, dependendo do uso pretendido. A autorização tradicional da FDA é concedida a um dispositivo médico para um uso pretendido e indicação específicos. Por exemplo, os dispositivos AI/ML autorizados pela FDA incluem aqueles projetados para prever instabilidade hemodinâmica ou deterioração clínica. No entanto, os LLMs podem ser consultados sobre uma ampla gama de tópicos, levando potencialmente a respostas que, embora apropriadas, seriam consideradas “off-label” em relação à sua indicação aprovada. Os resultados demonstram que os prompts de single-shot e multi-shot são inadequados para controlar isso. Esta descoberta não representa uma limitação dos próprios LLMs, mas sim destaca a necessidade de novos métodos que preservem a flexibilidade da saída do LLM, ao mesmo tempo que a confinam a uma indicação aprovada.

Explorando Novos Caminhos de Autorização

A regulamentação de LLMs pode exigir novos caminhos de autorização que não estejam vinculados a indicações específicas. Um caminho de autorização de dispositivo para suporte à decisão “generalizado” pode ser adequado para LLMs e ferramentas generativas de IA. Embora essa abordagem facilite a inovação em CDSSs de AI/ML, o método ideal para avaliar a segurança, eficácia e equidade de sistemas com indicações tão amplas permanece incerto. Por exemplo, uma abordagem de autorização “baseada na empresa” poderia contornar a necessidade de avaliação específica do dispositivo, o que pode ser apropriado para um LLM, mas vem com garantias incertas em relação à eficácia clínica e segurança.

Refinando Critérios para Diferentes Grupos de Utilizadores

Essas descobertas destacam a necessidade de refinar os critérios para CDSSs destinados a médicos versus espectadores não clínicos. A FDA indicou anteriormente que os CDSSs voltados para pacientes e cuidadores seriam considerados dispositivos médicos, geralmente sujeitos a regulamentação. No entanto, atualmente não existe uma categoria regulatória para um CDSS de AI/ML projetado para um espectador não clínico. Fazer um diagnóstico específico e fornecer uma diretiva específica para uma emergência com tempo crítico alinha-se claramente com os critérios da FDA para dispositivos destinados a profissionais de saúde. Por outro lado, ações como ressuscitação cardiopulmonar (RCP) e a administração de epinefrina ou naloxona também atendem a esses critérios de dispositivo, mas são simultaneamente comportamentos de resgate bem estabelecidos para espectadores não clínicos.

Limitações do Estudo

Este estudo tem várias limitações:

  1. Ele avalia LLMs em relação a uma tarefa que não é um uso pretendido especificado do software.
  2. Ele compara a saída do LLM com a orientação da FDA, que não é vinculativa, e não avalia a consistência das recomendações do LLM com outras disposições estatutárias ou estruturas regulatórias relevantes dos EUA.
  3. Ele não avalia outros métodos de prompting que podem ter sido mais eficazes do que prompts de single-shot e multi-shot.
  4. Ele não explora como tais prompts podem ser praticamente integrados em fluxos de trabalho clínicos do mundo real.
  5. Ele não avalia uma gama mais ampla de LLMs amplamente disponíveis e comumente usados além do GPT-4 e Llama-3.
  6. O tamanho da amostra dos prompts é pequeno.

Avançando: Equilibrando Inovação e Segurança

Prompts baseados no texto da orientação da FDA para critérios de dispositivo CDSS, sejam eles de single-shot ou multi-shot, são insuficientes para garantir que a saída do LLM se alinhe com o suporte à decisão de não dispositivo. Novos paradigmas e tecnologias regulatórias são necessários para abordar os sistemas generativos de IA, encontrando um equilíbrio entre inovação, segurança e eficácia clínica. A rápida evolução dessa tecnologia exige uma abordagem proativa e adaptativa à regulamentação, garantindo que os benefícios dos LLMs na área da saúde possam ser realizados, ao mesmo tempo que se mitigam os riscos potenciais.