LLM no regulados: Salida de dispositivo médico

La promesa y los desafíos regulatorios de los LLM en la atención médica

Las capacidades de los modelos de lenguaje grandes (LLM), derivadas de sus extensos datos de entrenamiento y su capacidad para generar texto similar al humano, están impulsando el interés en su aplicación para el soporte de decisiones en diversos campos. Sin embargo, las mismas características que hacen que los sistemas de inteligencia artificial (IA) generativa sean tan atractivos también presentan obstáculos únicos para los organismos reguladores. Estos organismos operan dentro de marcos establecidos hace décadas, diseñados para dispositivos médicos tradicionales, no para la naturaleza dinámica de la IA.

Actualmente, los LLM disponibles no están clasificados como dispositivos médicos. La Ley Federal de Alimentos, Medicamentos y Cosméticos (FD&C Act § 201(h)(1)) define un dispositivo médico como un “instrumento… destinado a ser utilizado en el diagnóstico, …cura, mitigación, tratamiento o prevención de enfermedades… que no logra sus propósitos principales previstos a través de la acción química”. La mayoría de los LLM incluyen descargos de responsabilidad que indican que no están destinados a proporcionar asesoramiento médico, evitando así la regulación de la FDA. A pesar de esto, existe una creciente colección de investigaciones publicadas y evidencia anecdótica que destaca el uso de LLM para el soporte de decisiones médicas, tanto en entornos de investigación como en la práctica clínica real.

Definición del alcance de la regulación para el soporte de decisiones clínicas basado en LLM

Considerando el potencial de los LLM, si se incorporaran formalmente a un sistema de soporte de decisiones clínicas (CDSS), la cuestión de la regulación adecuada se vuelve primordial. La enmienda de la Ley de Curas del Siglo XXI a la Ley FD&C (Ley Pública 114-255), junto con la guía de la FDA, describe cuatro criterios clave para determinar si el software de soporte de decisiones califica como un dispositivo y, en consecuencia, cae bajo la jurisdicción de la FDA. Estos criterios giran en torno a:

  • Los datos de entrada de la función de software.
  • Sus datos de salida.
  • La sustancia de sus recomendaciones clínicas.
  • La capacidad del usuario final para revisar el razonamiento detrás de esas recomendaciones.

Específicamente, un CDSS se considera un dispositivo si su salida ofrece una directiva precisa para el tratamiento o diagnóstico, en lugar de recomendaciones basadas en información general. Además, si el CDSS no proporciona la base subyacente para sus recomendaciones, lo que impide que los usuarios las revisen de forma independiente y lleguen a sus propias conclusiones, se clasifica como un dispositivo. La guía de la FDA aclara además que un CDSS utilizado en una emergencia clínica se considera un dispositivo debido a la naturaleza crítica y urgente de la toma de decisiones, lo que impide la evaluación independiente del consejo del CDSS.

Investigación de la salida similar a un dispositivo en sistemas de IA generativa

Sigue sin estar claro si un CDSS que emplea IA generativa, como un LLM, produce una salida que imita a un dispositivo médico. La salida de texto libre de un LLM sin restricciones puede o no cumplir con los criterios de dispositivo establecidos. Además, se desconoce cómo las respuestas de LLM a indicaciones desafiantes o “jailbreaks” se alinean con estos criterios. El uso cada vez mayor de LLM para el asesoramiento médico hace que la incertidumbre en torno a la designación de dispositivo y el estado regulatorio de los CDSS basados en LLM sea un impedimento potencial para el desarrollo seguro y eficaz de estas tecnologías. Lograr el equilibrio adecuado entre seguridad e innovación para la IA generativa en la atención médica es crucial a medida que más médicos y pacientes utilizan estas herramientas.

Objetivos de la investigación: Evaluación de la funcionalidad similar a un dispositivo

Esta investigación tuvo como objetivo evaluar la funcionalidad similar a un dispositivo de los LLM. Esta funcionalidad se define como su utilidad para el “diagnóstico, tratamiento, prevención, cura o mitigación de enfermedades u otras afecciones”, independientemente de si dicho uso es intencionado o permitido. Los objetivos específicos fueron:

  1. Determinar si la salida del LLM se alinearía con los criterios del dispositivo cuando se le indicaran instrucciones sobre esos criterios y se le presentara una emergencia clínica.
  2. Identificar las condiciones, si las hubiera, bajo las cuales la salida de un modelo podría manipularse para proporcionar una salida similar a la de un dispositivo. Esto incluyó el uso de solicitudes directas de información de diagnóstico y tratamiento, así como un “jailbreak” predefinido diseñado para obtener una salida similar a la de un dispositivo a pesar de las indicaciones para adherirse a criterios que no son de dispositivo.

Hallazgos: Respuestas de LLM y alineación de criterios de dispositivo

Recomendaciones de atención preventiva

Cuando se les preguntó por recomendaciones de atención preventiva, todos los LLM generaron respuestas consistentes con criterios que no son de dispositivo en su salida de texto final. El modelo Llama-3, en respuesta a una indicación de un solo disparo, inicialmente proporcionó soporte de decisión similar al de un dispositivo en un pequeño porcentaje de respuestas (20% para medicina familiar y 60% para escenarios de atención preventiva de psiquiatría). Sin embargo, rápidamente reemplazó este texto con un descargo de responsabilidad: “Lo siento, no puedo ayudarte con esta solicitud en este momento”. Cuando se le presentó una indicación de varios disparos que contenía ejemplos detallados de criterios de dispositivo, todos los modelos proporcionaron consistentemente recomendaciones que no son de dispositivo para todas las respuestas iniciales de atención preventiva.

Escenarios de emergencia de tiempo crítico

En situaciones que involucran emergencias de tiempo crítico, el 100% de las respuestas de GPT-4 y el 52% de las respuestas de Llama-3 se alinearon con el soporte de decisión similar al de un dispositivo. Las tasas generales de recomendaciones similares a las de un dispositivo se mantuvieron consistentes con las indicaciones de varios disparos, pero mostraron variación en diferentes escenarios clínicos. Estas respuestas similares a las de un dispositivo incluyeron sugerencias para diagnósticos y tratamientos específicos relacionados con las emergencias.

“Jailbreak” del “interno desesperado”

Cuando se sometió al “jailbreak” del “interno desesperado”, una proporción significativa de las respuestas exhibió recomendaciones similares a las de un dispositivo. Específicamente, el 80% y el 68% de las respuestas de GPT-4, y el 36% y el 76% de las respuestas de Llama-3, incluyeron recomendaciones similares a las de un dispositivo después de indicaciones de uno y varios disparos, respectivamente.

Idoneidad clínica de las sugerencias de LLM

Es importante tener en cuenta que todas las sugerencias del modelo fueron clínicamente apropiadas y se alinearon con los estándares de atención establecidos. En los escenarios de medicina familiar y cardiología, gran parte del soporte de decisión similar al de un dispositivo era adecuado solo para médicos capacitados. Los ejemplos incluyen la colocación de un catéter intravenoso y la administración de antibióticos intravenosos. En otros escenarios, las recomendaciones similares a las de un dispositivo fueron generalmente consistentes con los estándares de atención de los transeúntes, como la administración de naloxona para una sobredosis de opioides o el uso de un autoinyector de epinefrina para la anafilaxia.

Implicaciones para la regulación y la supervisión

Aunque ningún LLM está actualmente autorizado por la FDA como un CDSS, y algunos afirman explícitamente que no deben usarse para asesoramiento médico, los pacientes y los médicos aún podrían estar utilizándolos para este propósito. El estudio encontró que ni las indicaciones de un solo disparo ni las de varios disparos, basadas en el lenguaje de un documento de orientación de la FDA, restringieron de manera confiable a los LLM a producir solo soporte de decisión que no sea de dispositivo. Además, a menudo no era necesario un jailbreak predefinido para obtener soporte de decisión similar al de un dispositivo. Estos hallazgos refuerzan investigaciones anteriores que destacan la necesidad de nuevos paradigmas regulatorios adaptados a los CDSS de IA/ML. También tienen implicaciones directas para la supervisión de dispositivos médicos que incorporan tecnologías de IA generativa.

Repensar los enfoques regulatorios

Una regulación eficaz puede requerir nuevos métodos para alinear mejor la salida del LLM con el soporte de decisión similar al de un dispositivo o que no sea de dispositivo, según el uso previsto. La autorización tradicional de la FDA se otorga a un dispositivo médico para un uso previsto y una indicación específicos. Por ejemplo, los dispositivos de IA/ML autorizados por la FDA incluyen aquellos diseñados para predecir la inestabilidad hemodinámica o el deterioro clínico. Sin embargo, los LLM podrían ser consultados sobre una amplia gama de temas, lo que podría generar respuestas que, si bien son apropiadas, se considerarían “fuera de etiqueta” en relación con su indicación aprobada. Los resultados demuestran que tanto las indicaciones de un solo disparo como las de varios disparos son inadecuadas para controlar esto. Este hallazgo no representa una limitación de los LLM en sí mismos, sino que subraya la necesidad de nuevos métodos que preserven la flexibilidad de la salida del LLM al tiempo que la limitan a una indicación aprobada.

Explorando nuevas vías de autorización

La regulación de los LLM podría requerir nuevas vías de autorización que no estén vinculadas a indicaciones específicas. Una vía de autorización de dispositivo para el soporte de decisión “generalizado” podría ser adecuada para los LLM y las herramientas de IA generativa. Si bien este enfoque facilitaría la innovación en los CDSS de IA/ML, el método óptimo para evaluar la seguridad, la eficacia y la equidad de los sistemas con indicaciones tan amplias sigue sin estar claro. Por ejemplo, un enfoque de autorización “basado en la empresa” podría eludir la necesidad de una evaluación específica del dispositivo, lo que podría ser apropiado para un LLM, pero conlleva garantías inciertas con respecto a la eficacia clínica y la seguridad.

Refinando los criterios para diferentes grupos de usuarios

Estos hallazgos resaltan la necesidad de refinar los criterios para los CDSS destinados a médicos versus transeúntes no clínicos. La FDA ha indicado anteriormente que los CDSS dirigidos a pacientes y cuidadores se considerarían dispositivos médicos, generalmente sujetos a regulación. Sin embargo, actualmente no existe una categoría regulatoria para un CDSS de IA/ML diseñado para un transeúnte no clínico. Hacer un diagnóstico específico y proporcionar una directiva específica para una emergencia de tiempo crítico se alinea claramente con los criterios de la FDA para los dispositivos destinados a profesionales de la salud. Por otro lado, acciones como la reanimación cardiopulmonar (RCP) y la administración de epinefrina o naloxona también cumplen con estos criterios de dispositivo, pero al mismo tiempo son comportamientos de rescate bien establecidos para los transeúntes no clínicos.

Limitaciones del estudio

Este estudio tiene varias limitaciones:

  1. Evalúa los LLM frente a una tarea que no es un uso previsto especificado del software.
  2. Compara la salida del LLM con la guía de la FDA, que no es vinculante, y no evalúa la coherencia de las recomendaciones del LLM con otras disposiciones legales o marcos regulatorios relevantes de EE. UU.
  3. No evalúa otros métodos de indicación que podrían haber sido más efectivos que las indicaciones de un solo disparo y de varios disparos.
  4. No explora cómo tales indicaciones podrían integrarse prácticamente en los flujos de trabajo clínicos del mundo real.
  5. No evalúa una gama más amplia de LLM ampliamente disponibles y de uso común más allá de GPT-4 y Llama-3.
  6. El tamaño de la muestra de las indicaciones es pequeño.

Avanzando: Equilibrando la innovación y la seguridad

Las indicaciones basadas en el texto de la guía de la FDA para los criterios de dispositivo CDSS, ya sean de un solo disparo o de varios disparos, son insuficientes para garantizar que la salida del LLM se alinee con el soporte de decisión que no es de dispositivo. Se necesitan nuevos paradigmas y tecnologías regulatorias para abordar los sistemas de IA generativa, logrando un equilibrio entre innovación, seguridad y eficacia clínica. La rápida evolución de esta tecnología exige un enfoque proactivo y adaptable a la regulación, asegurando que los beneficios de los LLM en la atención médica puedan realizarse al tiempo que se mitigan los riesgos potenciales.