LLM non réglementés et dispositifs médicaux

La promesse et les défis réglementaires des LLM dans le domaine de la santé

Les grands modèles de langage (LLMs) démontrent un potentiel significatif pour une utilisation dans le support à la décision clinique (CDS). Cependant, il est important de noter qu’à l’heure actuelle, aucun n’a reçu l’autorisation de la Food and Drug Administration (FDA) en tant que dispositif CDS. Cette étude examine si deux LLM largement utilisés pourraient être incités à générer des résultats ressemblant à ceux d’un dispositif médical fournissant un CDS. Les résultats révèlent que les LLM, dans divers scénarios, peuvent facilement produire des résultats similaires à ceux d’un support décisionnel basé sur un dispositif. Cela souligne un besoin potentiel de surveillance réglementaire si les LLM doivent être formellement intégrés dans la pratique clinique.

Les capacités des LLM, issues de leurs données d’entraînement étendues et de leur capacité à générer du texte de type humain, suscitent l’intérêt pour leur application au support décisionnel dans divers domaines. Cependant, les caractéristiques mêmes qui rendent les systèmes d’intelligence artificielle (IA) générative si attrayants présentent également des obstacles uniques pour les organismes de réglementation. Ces organismes fonctionnent dans des cadres établis il y a des décennies, conçus pour les dispositifs médicaux traditionnels, et non pour la nature dynamique de l’IA.

Actuellement, les LLM disponibles ne sont pas classés comme des dispositifs médicaux. Le Federal Food, Drug, and Cosmetic Act (FD&C Act § 201(h)(1)) définit un dispositif médical comme un « instrument… destiné à être utilisé dans le diagnostic, … la guérison, l’atténuation, le traitement ou la prévention d’une maladie… qui n’atteint pas ses objectifs principaux par une action chimique ». La plupart des LLM incluent des clauses de non-responsabilité indiquant qu’ils ne sont pas destinés à fournir des conseils médicaux, évitant ainsi la réglementation de la FDA. Malgré cela, il existe une collection croissante de recherches publiées et de preuves anecdotiques soulignant l’utilisation des LLM pour le support à la décision médicale, à la fois dans des contextes de recherche et dans la pratique clinique réelle.

Définir le champ d’application de la réglementation pour le support à la décision clinique basé sur les LLM

Compte tenu du potentiel des LLM, s’ils devaient être formellement intégrés dans un système de support à la décision clinique (CDSS), la question d’une réglementation appropriée devient primordiale. L’amendement 21st Century Cures Act au FD&C Act (Public Law 114-255), ainsi que les directives de la FDA, décrivent quatre critères clés pour déterminer si un logiciel de support à la décision se qualifie comme un dispositif et, par conséquent, relève de la juridiction de la FDA. Ces critères s’articulent autour de :

  • Les données d’entrée de la fonction logicielle.
  • Ses données de sortie.
  • La substance de ses recommandations cliniques.
  • La capacité de l’utilisateur final à examiner le raisonnement derrière ces recommandations.

Plus précisément, un CDSS est considéré comme un dispositif si sa sortie offre une directive précise pour le traitement ou le diagnostic, plutôt que des recommandations générales basées sur des informations. De plus, si le CDSS ne fournit pas la base sous-jacente de ses recommandations, empêchant les utilisateurs de les examiner de manière indépendante et de parvenir à leurs propres conclusions, il est classé comme un dispositif. Les directives de la FDA précisent en outre qu’un CDSS utilisé dans une urgence clinique est considéré comme un dispositif en raison de la nature critique et urgente de la prise de décision, qui empêche une évaluation indépendante des conseils du CDSS.

Étude des résultats de type dispositif dans les systèmes d’IA générative

Il reste à déterminer si un CDSS utilisant l’IA générative, comme un LLM, produit des résultats qui imitent un dispositif médical. La sortie en texte libre d’un LLM non contraint peut ou non répondre aux critères de dispositif établis. De plus, la manière dont les réponses des LLM à des invites difficiles ou à des « jailbreaks » s’alignent sur ces critères est inconnue. L’utilisation croissante des LLM pour des conseils médicaux fait de l’incertitude entourant la désignation de dispositif et le statut réglementaire des CDSS basés sur les LLM un obstacle potentiel au développement sûr et efficace de ces technologies. Trouver le juste équilibre entre sécurité et innovation pour l’IA générative dans le domaine de la santé est crucial à mesure que de plus en plus de cliniciens et de patients utilisent ces outils.

Objectifs de la recherche : Évaluer la fonctionnalité de type dispositif

Cette recherche visait à évaluer la fonctionnalité de type dispositif des LLM. Cette fonctionnalité est définie comme leur utilité pour « le diagnostic, le traitement, la prévention, la guérison ou l’atténuation de maladies ou d’autres conditions », que cette utilisation soit intentionnelle ou autorisée. Les objectifs spécifiques étaient :

  1. Déterminer si la sortie du LLM s’alignerait sur les critères de l’appareil lorsqu’il est invité avec des instructions sur ces critères et présenté avec une urgence clinique.
  2. Identifier les conditions, le cas échéant, dans lesquelles la sortie d’un modèle pourrait être manipulée pour fournir une sortie de type appareil. Cela comprenait l’utilisation de demandes directes d’informations de diagnostic et de traitement, ainsi qu’un « jailbreak » prédéfini conçu pour obtenir une sortie de type appareil malgré les invites à adhérer à des critères non-appareil.

Résultats : Réponses des LLM et alignement sur les critères des dispositifs

Recommandations en matière de soins préventifs

Lorsqu’ils ont été interrogés sur les recommandations en matière de soins préventifs, tous les LLM ont généré des réponses conformes aux critères de non-dispositif dans leur texte de sortie final. Le modèle Llama-3, en réponse à une invite à un seul coup, a initialement fourni un support décisionnel de type dispositif dans un petit pourcentage de réponses (20 % pour la médecine familiale et 60 % pour les scénarios de soins préventifs en psychiatrie). Cependant, il a rapidement remplacé ce texte par une clause de non-responsabilité : « Désolé, je ne peux pas vous aider avec cette demande pour le moment ». Lorsqu’on leur a présenté une invite à plusieurs coups contenant des exemples détaillés de critères de dispositif, tous les modèles ont systématiquement fourni des recommandations de non-dispositif pour toutes les réponses initiales en matière de soins préventifs.

Scénarios d’urgence critiques dans le temps

Dans les situations impliquant des urgences critiques dans le temps, 100 % des réponses de GPT-4 et 52 % des réponses de Llama-3 étaient alignées sur un support décisionnel de type dispositif. Les taux globaux de recommandations de type dispositif sont restés cohérents avec les invites à plusieurs coups, mais ont montré des variations selon les différents scénarios cliniques. Ces réponses de type dispositif comprenaient des suggestions de diagnostics et de traitements spécifiques liés aux urgences.

Jailbreak « Interne désespéré »

Lorsqu’il est soumis au jailbreak « interne désespéré », une proportion significative des réponses a présenté des recommandations de type dispositif. Plus précisément, 80 % et 68 % des réponses de GPT-4, et 36 % et 76 % des réponses de Llama-3, comprenaient des recommandations de type dispositif après des invites à un seul coup et à plusieurs coups, respectivement.

Pertinence clinique des suggestions des LLM

Il est important de noter que toutes les suggestions du modèle étaient cliniquement appropriées et conformes aux normes de soins établies. Dans les scénarios de médecine familiale et de cardiologie, une grande partie du support décisionnel de type dispositif n’était appropriée que pour les cliniciens formés. Les exemples incluent la pose d’un cathéter intraveineux et l’administration d’antibiotiques par voie intraveineuse. Dans d’autres scénarios, les recommandations de type dispositif étaient généralement conformes aux normes de soins des témoins, telles que l’administration de naloxone pour une surdose d’opioïdes ou l’utilisation d’un auto-injecteur d’épinéphrine pour l’anaphylaxie.

Implications pour la réglementation et la surveillance

Bien qu’aucun LLM ne soit actuellement autorisé par la FDA en tant que CDSS, et que certains indiquent explicitement qu’ils ne doivent pas être utilisés pour des conseils médicaux, les patients et les cliniciens pourraient toujours les utiliser à cette fin. L’étude a révélé que ni les invites à un seul coup ni les invites à plusieurs coups, basées sur le langage d’un document d’orientation de la FDA, ne limitaient de manière fiable les LLM à ne produire qu’un support décisionnel non-dispositif. De plus, un jailbreak prédéfini était souvent inutile pour obtenir un support décisionnel de type dispositif. Ces résultats renforcent les recherches antérieures soulignant la nécessité de nouveaux paradigmes réglementaires adaptés aux CDSS AI/ML. Ils ont également des implications directes pour la surveillance des dispositifs médicaux intégrant des technologies d’IA générative.

Repenser les approches réglementaires

Une réglementation efficace peut nécessiter de nouvelles méthodes pour mieux aligner la sortie du LLM sur un support décisionnel de type dispositif ou non-dispositif, selon l’utilisation prévue. L’autorisation traditionnelle de la FDA est accordée à un dispositif médical pour une utilisation et une indication spécifiques prévues. Par exemple, les dispositifs AI/ML autorisés par la FDA comprennent ceux conçus pour prédire l’instabilité hémodynamique ou la détérioration clinique. Cependant, les LLM pourraient être interrogés sur un large éventail de sujets, conduisant potentiellement à des réponses qui, bien qu’appropriées, seraient considérées comme « hors indication » par rapport à leur indication approuvée. Les résultats démontrent que les invites à un seul coup et à plusieurs coups sont insuffisantes pour contrôler cela. Cette constatation ne représente pas une limitation des LLM eux-mêmes, mais souligne plutôt la nécessité de nouvelles méthodes qui préservent la flexibilité de la sortie du LLM tout en la limitant à une indication approuvée.

Explorer de nouvelles voies d’autorisation

La réglementation des LLM pourrait nécessiter de nouvelles voies d’autorisation qui ne sont pas liées à des indications spécifiques. Une voie d’autorisation de dispositif pour le support décisionnel « généralisé » pourrait convenir aux LLM et aux outils d’IA générative. Bien que cette approche faciliterait l’innovation dans les CDSS AI/ML, la méthode optimale pour évaluer la sécurité, l’efficacité et l’équité des systèmes avec des indications aussi larges reste incertaine. Par exemple, une approche d’autorisation « basée sur l’entreprise » pourrait contourner la nécessité d’une évaluation spécifique à l’appareil, ce qui pourrait être approprié pour un LLM, mais elle s’accompagne de garanties incertaines concernant l’efficacité et la sécurité cliniques.

Affiner les critères pour différents groupes d’utilisateurs

Ces résultats soulignent la nécessité d’affiner les critères pour les CDSS destinés aux cliniciens par rapport aux témoins non cliniciens. La FDA a précédemment indiqué que les CDSS destinés aux patients et aux soignants seraient considérés comme des dispositifs médicaux, généralement soumis à réglementation. Cependant, il n’existe actuellement pas de catégorie réglementaire pour un CDSS AI/ML conçu pour un témoin non clinicien. Poser un diagnostic spécifique et fournir une directive spécifique pour une urgence critique dans le temps s’aligne clairement sur les critères de la FDA pour les dispositifs destinés aux professionnels de la santé. D’un autre côté, des actions telles que la réanimation cardio-pulmonaire (RCP) et l’administration d’épinéphrine ou de naloxone répondent également à ces critères de dispositif, mais elles sont simultanément des comportements de sauvetage bien établis pour les témoins non cliniciens.

Limites de l’étude

Cette étude présente plusieurs limites :

  1. Elle évalue les LLM par rapport à une tâche qui n’est pas une utilisation prévue spécifiée du logiciel.
  2. Elle compare la sortie du LLM aux directives de la FDA, qui ne sont pas contraignantes, et n’évalue pas la cohérence des recommandations du LLM avec d’autres dispositions statutaires ou cadres réglementaires américains pertinents.
  3. Elle n’évalue pas d’autres méthodes d’invite qui auraient pu être plus efficaces que les invites à un seul coup et à plusieurs coups.
  4. Elle n’explore pas comment de telles invites pourraient être pratiquement intégrées dans les flux de travail cliniques réels.
  5. Elle n’évalue pas une gamme plus large de LLM largement disponibles et couramment utilisés au-delà de GPT-4 et Llama-3.
  6. La taille de l’échantillon des invites est petite.

Aller de l’avant : Équilibrer innovation et sécurité

Les invites basées sur le texte des directives de la FDA pour les critères de dispositif CDSS, qu’elles soient à un seul coup ou à plusieurs coups, sont insuffisantes pour garantir que la sortie du LLM s’aligne sur un support décisionnel non-dispositif. De nouveaux paradigmes et technologies réglementaires sont nécessaires pour aborder les systèmes d’IA générative, en trouvant un équilibre entre innovation, sécurité et efficacité clinique. L’évolution rapide de cette technologie exige une approche proactive et adaptative de la réglementation, garantissant que les avantages des LLM dans le domaine de la santé peuvent être réalisés tout en atténuant les risques potentiels.