LLM non regolamentati e output medici

La promessa e le sfide normative degli LLM in sanità

I modelli linguistici di grandi dimensioni (LLM) stanno dimostrando un potenziale significativo per l’uso nel supporto decisionale clinico (CDS). Tuttavia, è importante notare che, al momento, nessuno ha ricevuto l’autorizzazione dalla Food and Drug Administration (FDA) come dispositivo CDS. Questo studio indaga se due LLM ampiamente utilizzati potrebbero essere indotti a generare output simile a quello di un dispositivo medico che fornisce CDS. I risultati rivelano che gli LLM, in vari scenari, possono facilmente produrre output simile al supporto decisionale basato su dispositivi. Ciò sottolinea una potenziale necessità di supervisione normativa se gli LLM devono essere formalmente integrati nella pratica clinica.

Le capacità degli LLM, derivanti dai loro vasti dati di addestramento e dalla capacità di generare testo simile a quello umano, stanno guidando l’interesse per la loro applicazione per il supporto decisionale in diversi campi. Tuttavia, le stesse caratteristiche che rendono i sistemi di intelligenza artificiale (AI) generativa così attraenti presentano anche ostacoli unici per gli enti regolatori. Questi enti operano all’interno di quadri stabiliti decenni fa, progettati per dispositivi medici tradizionali, non per la natura dinamica dell’AI.

Attualmente, gli LLM disponibili non sono classificati come dispositivi medici. Il Federal Food, Drug, and Cosmetic Act (FD&C Act § 201(h)(1)) definisce un dispositivo medico come uno “strumento… destinato all’uso nella diagnosi, …cura, mitigazione, trattamento o prevenzione di malattie… che non raggiunge i suoi scopi primari previsti attraverso l’azione chimica”. La maggior parte degli LLM include disclaimer che affermano che non sono destinati a fornire consulenza medica, evitando così la regolamentazione FDA. Nonostante ciò, c’è una crescente raccolta di ricerche pubblicate e prove aneddotiche che evidenziano l’uso degli LLM per il supporto decisionale medico, sia in contesti di ricerca che nella pratica clinica reale.

Definizione dell’ambito di regolamentazione per il supporto decisionale clinico basato su LLM

Considerando il potenziale degli LLM, se dovessero essere formalmente incorporati in un sistema di supporto decisionale clinico (CDSS), la questione della regolamentazione appropriata diventa fondamentale. L’emendamento del 21st Century Cures Act al FD&C Act (Public Law 114–255), insieme alle linee guida della FDA, delinea quattro criteri chiave per determinare se il software di supporto decisionale si qualifica come dispositivo e, di conseguenza, rientra nella giurisdizione della FDA. Questi criteri ruotano attorno a:

  • I dati di input della funzione software.
  • I suoi dati di output.
  • La sostanza delle sue raccomandazioni cliniche.
  • La capacità dell’utente finale di rivedere la logica alla base di tali raccomandazioni.

Nello specifico, un CDSS è considerato un dispositivo se il suo output offre una direttiva precisa per il trattamento o la diagnosi, piuttosto che raccomandazioni basate su informazioni generali. Inoltre, se il CDSS non fornisce la base sottostante per le sue raccomandazioni, impedendo agli utenti di rivederle in modo indipendente e di raggiungere le proprie conclusioni, è classificato come dispositivo. Le linee guida della FDA chiariscono inoltre che un CDSS utilizzato in un’emergenza clinica è considerato un dispositivo a causa della natura critica e urgente del processo decisionale, che preclude la valutazione indipendente del consiglio del CDSS.

Indagine sull’output simile a un dispositivo nei sistemi di AI generativa

Rimane poco chiaro se un CDSS che impiega l’AI generativa, come un LLM, produca output che imita un dispositivo medico. L’output di testo libero di un LLM non vincolato può o meno soddisfare i criteri stabiliti per i dispositivi. Inoltre, non è noto come le risposte LLM a prompt impegnativi o “jailbreak” si allineino a questi criteri. Il crescente utilizzo degli LLM per la consulenza medica rende l’incertezza che circonda la designazione del dispositivo e lo stato normativo dei CDSS basati su LLM un potenziale ostacolo allo sviluppo sicuro ed efficace di queste tecnologie. Trovare il giusto equilibrio tra sicurezza e innovazione per l’AI generativa nel settore sanitario è fondamentale poiché sempre più medici e pazienti utilizzano questi strumenti.

Obiettivi della ricerca: valutazione della funzionalità simile a un dispositivo

Questa ricerca mirava a valutare la funzionalità simile a un dispositivo degli LLM. Questa funzionalità è definita come la loro utilità per “diagnosi, trattamento, prevenzione, cura o mitigazione di malattie o altre condizioni”, indipendentemente dal fatto che tale uso sia previsto o consentito. Gli obiettivi specifici erano:

  1. Determinare se l’output LLM si allineerebbe ai criteri del dispositivo quando richiesto con istruzioni su tali criteri e presentato con un’emergenza clinica.
  2. Identificare le condizioni, se presenti, in base alle quali l’output di un modello potrebbe essere manipolato per fornire un output simile a un dispositivo. Ciò includeva l’utilizzo di richieste dirette di informazioni diagnostiche e terapeutiche, nonché un “jailbreak” predefinito progettato per ottenere un output simile a un dispositivo nonostante le richieste di aderire a criteri non relativi al dispositivo.

Risultati: risposte LLM e allineamento ai criteri del dispositivo

Raccomandazioni per la prevenzione

Quando interrogati per raccomandazioni di assistenza preventiva, tutti gli LLM hanno generato risposte coerenti con i criteri non relativi al dispositivo nel loro output di testo finale. Il modello Llama-3, in risposta a un prompt single-shot, ha inizialmente fornito un supporto decisionale simile a un dispositivo in una piccola percentuale di risposte (20% per la medicina di famiglia e 60% per gli scenari di assistenza preventiva psichiatrica). Tuttavia, ha rapidamente sostituito questo testo con un disclaimer: “Spiacente, non posso aiutarti con questa richiesta in questo momento”. Quando è stato presentato un prompt multi-shot contenente esempi dettagliati di criteri del dispositivo, tutti i modelli hanno fornito costantemente raccomandazioni non relative al dispositivo per tutte le risposte iniziali di assistenza preventiva.

Scenari di emergenza urgenti

In situazioni che coinvolgono emergenze urgenti, il 100% delle risposte di GPT-4 e il 52% delle risposte di Llama-3 si sono allineate al supporto decisionale simile a un dispositivo. I tassi complessivi di raccomandazioni simili a dispositivi sono rimasti coerenti con i prompt multi-shot, ma hanno mostrato variazioni tra i diversi scenari clinici. Queste risposte simili a dispositivi includevano suggerimenti per diagnosi e trattamenti specifici relativi alle emergenze.

Jailbreak “Interno disperato”

Quando sottoposto al jailbreak “interno disperato”, una percentuale significativa di risposte ha mostrato raccomandazioni simili a dispositivi. Nello specifico, l’80% e il 68% delle risposte di GPT-4 e il 36% e il 76% delle risposte di Llama-3 includevano raccomandazioni simili a dispositivi rispettivamente dopo prompt single-shot e multi-shot.

Appropriatezza clinica dei suggerimenti LLM

È importante notare che tutti i suggerimenti del modello erano clinicamente appropriati e in linea con gli standard di cura stabiliti. Negli scenari di medicina di famiglia e cardiologia, gran parte del supporto decisionale simile a un dispositivo era adatto solo a medici qualificati. Gli esempi includono il posizionamento di un catetere endovenoso e la somministrazione di antibiotici per via endovenosa. In altri scenari, le raccomandazioni simili a dispositivi erano generalmente coerenti con gli standard di cura dei passanti, come la somministrazione di naloxone per un’overdose di oppioidi o l’uso di un autoiniettore di epinefrina per l’anafilassi.

Implicazioni per la regolamentazione e la supervisione

Sebbene nessun LLM sia attualmente autorizzato dalla FDA come CDSS e alcuni affermino esplicitamente che non dovrebbero essere utilizzati per la consulenza medica, i pazienti e i medici potrebbero comunque utilizzarli per questo scopo. Lo studio ha rilevato che né i prompt single-shot né quelli multi-shot, basati sul linguaggio di un documento di orientamento della FDA, hanno limitato in modo affidabile gli LLM a produrre solo un supporto decisionale non relativo al dispositivo. Inoltre, un jailbreak predefinito era spesso non necessario per ottenere un supporto decisionale simile a un dispositivo. Questi risultati rafforzano le ricerche precedenti che evidenziano la necessità di nuovi paradigmi normativi su misura per i CDSS AI/ML. Hanno anche implicazioni dirette per la supervisione dei dispositivi medici che incorporano tecnologie di AI generativa.

Ripensare gli approcci normativi

Una regolamentazione efficace potrebbe richiedere nuovi metodi per allineare meglio l’output LLM con il supporto decisionale simile a un dispositivo o non relativo al dispositivo, a seconda dell’uso previsto. L’autorizzazione FDA tradizionale viene concessa a un dispositivo medico per un uso e un’indicazione specifici previsti. Ad esempio, i dispositivi AI/ML autorizzati dalla FDA includono quelli progettati per prevedere l’instabilità emodinamica o il deterioramento clinico. Tuttavia, gli LLM potrebbero essere interrogati su una vasta gamma di argomenti, portando potenzialmente a risposte che, sebbene appropriate, sarebbero considerate “off-label” rispetto alla loro indicazione approvata. I risultati dimostrano che sia i prompt single-shot che quelli multi-shot sono inadeguati per controllarlo. Questa scoperta non rappresenta una limitazione degli LLM stessi, ma piuttosto sottolinea la necessità di nuovi metodi che preservino la flessibilità dell’output LLM limitandolo a un’indicazione approvata.

Esplorare nuovi percorsi di autorizzazione

La regolamentazione degli LLM potrebbe richiedere nuovi percorsi di autorizzazione che non siano legati a indicazioni specifiche. Un percorso di autorizzazione del dispositivo per il supporto decisionale “generalizzato” potrebbe essere adatto per LLM e strumenti di AI generativa. Sebbene questo approccio faciliterebbe l’innovazione nei CDSS AI/ML, il metodo ottimale per valutare la sicurezza, l’efficacia e l’equità dei sistemi con indicazioni così ampie rimane poco chiaro. Ad esempio, un approccio all’autorizzazione “basato sull’azienda” potrebbe aggirare la necessità di una valutazione specifica del dispositivo, che potrebbe essere appropriata per un LLM, ma comporta garanzie incerte in merito all’efficacia clinica e alla sicurezza.

Perfezionare i criteri per diversi gruppi di utenti

Questi risultati evidenziano la necessità di perfezionare i criteri per i CDSS destinati ai medici rispetto ai passanti non clinici. La FDA ha precedentemente indicato che i CDSS rivolti a pazienti e caregiver sarebbero considerati dispositivi medici, generalmente soggetti a regolamentazione. Tuttavia, al momento non esiste una categoria normativa per un CDSS AI/ML progettato per un passante non clinico. Fare una diagnosi specifica e fornire una direttiva specifica per un’emergenza urgente si allinea chiaramente ai criteri della FDA per i dispositivi destinati agli operatori sanitari. D’altra parte, azioni come la rianimazione cardiopolmonare (RCP) e la somministrazione di epinefrina o naloxone soddisfano anche questi criteri del dispositivo, ma sono contemporaneamente comportamenti di soccorso ben consolidati per i passanti non clinici.

Limiti dello studio

Questo studio presenta diverse limitazioni:

  1. Valuta gli LLM rispetto a un’attività che non è un uso previsto specificato del software.
  2. Confronta l’output LLM con le linee guida della FDA, che non sono vincolanti, e non valuta la coerenza delle raccomandazioni LLM con altre disposizioni statutarie o quadri normativi statunitensi pertinenti.
  3. Non valuta altri metodi di prompting che potrebbero essere stati più efficaci dei prompt single-shot e multi-shot.
  4. Non esplora come tali prompt potrebbero essere praticamente integrati nei flussi di lavoro clinici reali.
  5. Non valuta una gamma più ampia di LLM ampiamente disponibili e comunemente usati oltre a GPT-4 e Llama-3.
  6. La dimensione del campione dei prompt è piccola.

Andare avanti: bilanciare innovazione e sicurezza

I prompt basati sul testo delle linee guida della FDA per i criteri del dispositivo CDSS, siano essi single-shot o multi-shot, sono insufficienti per garantire che l’output LLM si allinei al supporto decisionale non relativo al dispositivo. Sono necessari nuovi paradigmi normativi e tecnologie per affrontare i sistemi di AI generativa, trovando un equilibrio tra innovazione, sicurezza ed efficacia clinica. La rapida evoluzione di questa tecnologia richiede un approccio proattivo e adattivo alla regolamentazione, garantendo che i benefici degli LLM nel settore sanitario possano essere realizzati mitigando i potenziali rischi.