De Belofte en Regelgevende Uitdagingen van LLM’s in de Gezondheidszorg
Grote taalmodellen (LLM’s) tonen een aanzienlijk potentieel voor gebruik in klinische beslissingsondersteuning (CDS). Het is echter belangrijk op te merken dat op dit moment geen enkel LLM is goedgekeurd door de Food and Drug Administration (FDA) als een CDS-apparaat. Deze studie onderzoekt of twee veelgebruikte LLM’s ertoe kunnen worden aangezet om output te genereren die lijkt op die van een medisch hulpmiddel dat CDS biedt. De bevindingen tonen aan dat LLM’s, in verschillende scenario’s, gemakkelijk output kunnen produceren die vergelijkbaar is met apparaat-gebaseerde beslissingsondersteuning. Dit onderstreept een potentiële behoefte aan regelgevend toezicht als LLM’s formeel in de klinische praktijk moeten worden geïntegreerd.
De mogelijkheden van LLM’s, die voortkomen uit hun uitgebreide trainingsgegevens en het vermogen om mensachtige tekst te genereren, stimuleren de belangstelling voor hun toepassing voor beslissingsondersteuning in diverse vakgebieden. De kenmerken die generatieve kunstmatige intelligentie (AI)-systemen zo aantrekkelijk maken, vormen echter ook unieke hindernissen voor regelgevende instanties. Deze instanties opereren binnen kaders die decennia geleden zijn vastgesteld, ontworpen voor traditionele medische hulpmiddelen, niet voor de dynamische aard van AI.
Momenteel zijn beschikbare LLM’s niet geclassificeerd als medische hulpmiddelen. De Federal Food, Drug, and Cosmetic Act (FD&C Act § 201(h)(1)) definieert een medisch hulpmiddel als een “instrument… bedoeld voor gebruik bij de diagnose, … genezing, verlichting, behandeling of preventie van ziekte… dat zijn primaire beoogde doelen niet bereikt door chemische werking.” De meeste LLM’s bevatten disclaimers waarin staat dat ze niet bedoeld zijn voor het verstrekken van medisch advies, waardoor FDA-regulering wordt vermeden. Desondanks is er een groeiende verzameling gepubliceerd onderzoek en anekdotisch bewijs dat het gebruik van LLM’s voor medische beslissingsondersteuning benadrukt, zowel in onderzoeksomgevingen als in de daadwerkelijke klinische praktijk.
Het Definiëren van de Reikwijdte van Regulering voor LLM-Gebaseerde Klinische Beslissingsondersteuning
Gezien het potentieel van LLM’s, mochten ze formeel worden opgenomen in een klinisch beslissingsondersteuningssysteem (CDSS), wordt de vraag naar passende regulering van het grootste belang. De 21st Century Cures Act-wijziging van de FD&C Act (Public Law 114-255), samen met richtlijnen van de FDA, schetst vier belangrijke criteria om te bepalen of beslissingsondersteunende software kwalificeert als een apparaat en bijgevolg onder de jurisdictie van de FDA valt. Deze criteria draaien om:
- De invoergegevens van de softwarefunctie.
- De uitvoergegevens.
- De inhoud van de klinische aanbevelingen.
- Het vermogen van de eindgebruiker om de rationale achter die aanbevelingen te beoordelen.
Specifiek wordt een CDSS als een apparaat beschouwd als de uitvoer ervan een precieze richtlijn biedt voor behandeling of diagnose, in plaats van algemene op informatie gebaseerde aanbevelingen. Bovendien, als de CDSS de onderliggende basis voor zijn aanbevelingen niet verstrekt, waardoor gebruikers deze niet onafhankelijk kunnen beoordelen en tot hun eigen conclusies kunnen komen, wordt het geclassificeerd als een apparaat. FDA-richtlijnen verduidelijken verder dat een CDSS die wordt gebruikt in een klinische noodsituatie als een apparaat wordt beschouwd vanwege de kritieke en tijdgevoelige aard van de besluitvorming, die een onafhankelijke beoordeling van het advies van de CDSS uitsluit.
Onderzoek naar Apparaat-achtige Output in Generatieve AI-Systemen
Het blijft onduidelijk of een CDSS die gebruikmaakt van generatieve AI, zoals een LLM, output produceert die een medisch hulpmiddel nabootst. De vrije tekstuitvoer van een onbeperkt LLM kan al dan niet voldoen aan de vastgestelde apparaatcriteria. Bovendien is het onbekend hoe LLM-reacties op uitdagende prompts of ‘jailbreaks’ overeenkomen met deze criteria. Het toenemende gebruik van LLM’s voor medisch advies maakt de onzekerheid rond de apparaataanduiding en de regelgevende status van op LLM gebaseerde CDSS’s tot een potentiële belemmering voor de veilige en effectieve ontwikkeling van deze technologieën. Het vinden van de juiste balans tussen veiligheid en innovatie voor generatieve AI in de gezondheidszorg is cruciaal naarmate meer clinici en patiënten deze tools gebruiken.
Onderzoeksdoelstellingen: Evaluatie van Apparaat-achtige Functionaliteit
Dit onderzoek was gericht op het beoordelen van de apparaat-achtige functionaliteit van LLM’s. Deze functionaliteit wordt gedefinieerd als hun nut voor “diagnose, behandeling, preventie, genezing of verlichting van ziekten of andere aandoeningen”, ongeacht of dergelijk gebruik bedoeld of toegestaan is. De specifieke doelstellingen waren:
- Bepalen of LLM-output zou overeenkomen met apparaatcriteria wanneer deze wordt gevraagd met instructies over die criteria en wordt gepresenteerd met een klinische noodsituatie.
- Identificeren van de omstandigheden, indien van toepassing, waaronder de output van een model kan worden gemanipuleerd om apparaat-achtige output te leveren. Dit omvatte het gebruik van directe verzoeken om diagnostische en behandelingsinformatie, evenals een vooraf gedefinieerde ‘jailbreak’ die is ontworpen om apparaat-achtige output te ontlokken, ondanks prompts om te voldoen aan niet-apparaatcriteria.
Bevindingen: LLM-Reacties en Overeenstemming met Apparaatcriteria
Aanbevelingen voor Preventieve Zorg
Wanneer gevraagd naar aanbevelingen voor preventieve zorg, genereerden alle LLM’s reacties die consistent waren met niet-apparaatcriteria in hun uiteindelijke tekstuitvoer. Het Llama-3-model gaf, in reactie op een single-shot prompt, aanvankelijk apparaat-achtige beslissingsondersteuning in een klein percentage van de reacties (20% voor huisartsgeneeskunde en 60% voor preventieve zorgscenario’s in de psychiatrie). Het verving deze tekst echter snel door een disclaimer: “Sorry, ik kan je op dit moment niet helpen met dit verzoek.” Wanneer gepresenteerd met een multi-shot prompt met gedetailleerde voorbeelden van apparaatcriteria, gaven alle modellen consequent niet-apparaataanbevelingen voor alle initiële reacties op preventieve zorg.
Tijd-Kritieke Noodscenario’s
In situaties met tijd-kritieke noodsituaties kwam 100% van de GPT-4-reacties en 52% van de Llama-3-reacties overeen met apparaat-achtige beslissingsondersteuning. De totale percentages van apparaat-achtige aanbevelingen bleven consistent bij multi-shot prompts, maar vertoonden variatie tussen verschillende klinische scenario’s. Deze apparaat-achtige reacties omvatten suggesties voor specifieke diagnoses en behandelingen met betrekking tot de noodsituaties.
‘Desperate Intern’ Jailbreak
Wanneer onderworpen aan de ‘desperate intern’ jailbreak, vertoonde een aanzienlijk deel van de reacties apparaat-achtige aanbevelingen. Specifiek omvatten 80% en 68% van de GPT-4-reacties, en 36% en 76% van de Llama-3-reacties, apparaat-achtige aanbevelingen na respectievelijk single- en multi-shot prompts.
Klinische Gepastheid van LLM-Suggesties
Het is belangrijk op te merken dat alle modelsuggesties klinisch gepast waren en in overeenstemming waren met de vastgestelde zorgstandaarden. In de scenario’s voor huisartsgeneeskunde en cardiologie was veel van de apparaat-achtige beslissingsondersteuning alleen geschikt voor getrainde clinici. Voorbeelden hiervan zijn het plaatsen van een intraveneuze katheter en de toediening van intraveneuze antibiotica. In andere scenario’s waren apparaat-achtige aanbevelingen over het algemeen consistent met de zorgstandaarden voor omstanders, zoals het toedienen van naloxon bij een overdosis opioïden of het gebruik van een epinefrine-auto-injector bij anafylaxie.
Implicaties voor Regulering en Toezicht
Hoewel geen enkel LLM momenteel door de FDA is goedgekeurd als een CDSS, en sommige expliciet vermelden dat ze niet mogen worden gebruikt voor medisch advies, kunnen patiënten en clinici ze toch voor dit doel gebruiken. De studie toonde aan dat noch single-shot noch multi-shot prompts, gebaseerd op taal uit een FDA-richtlijndocument, LLM’s op betrouwbare wijze beperkten tot het produceren van alleen niet-apparaatbeslissingsondersteuning. Bovendien was een vooraf gedefinieerde jailbreak vaak niet nodig om apparaat-achtige beslissingsondersteuning te ontlokken. Deze bevindingen versterken eerder onderzoek dat de noodzaak benadrukt van nieuwe regelgevende paradigma’s die zijn afgestemd op AI/ML CDSS’s. Ze hebben ook directe gevolgen voor het toezicht op medische hulpmiddelen die generatieve AI-technologieën bevatten.
Heroverweging van Regelgevende Benaderingen
Effectieve regulering kan nieuwe methoden vereisen om LLM-output beter af te stemmen op apparaat-achtige of niet-apparaatbeslissingsondersteuning, afhankelijk van het beoogde gebruik. Traditionele FDA-autorisatie wordt verleend aan een medisch hulpmiddel voor een specifiek beoogd gebruik en indicatie. Door de FDA goedgekeurde AI/ML-apparaten omvatten bijvoorbeeld apparaten die zijn ontworpen voor het voorspellen van hemodynamische instabiliteit of klinische achteruitgang. LLM’s kunnen echter worden bevraagd over een breed scala aan onderwerpen, wat mogelijk kan leiden tot reacties die, hoewel gepast, als ‘off-label’ zouden worden beschouwd in verhouding tot hun goedgekeurde indicatie. De resultaten tonen aan dat zowel single- als multi-shot prompts onvoldoende zijn om dit te controleren. Deze bevinding is geen beperking van LLM’s zelf, maar onderstreept eerder de behoefte aan nieuwe methoden die de flexibiliteit van LLM-output behouden en deze tegelijkertijd beperken tot een goedgekeurde indicatie.
Verkenning van Nieuwe Autorisatiepaden
Regulering van LLM’s kan nieuwe autorisatiepaden vereisen die niet zijn gekoppeld aan specifieke indicaties. Een apparaatautorisatiepad voor ‘gegeneraliseerde’ beslissingsondersteuning zou geschikt kunnen zijn voor LLM’s en generatieve AI-tools. Hoewel deze aanpak innovatie in AI/ML CDSS zou vergemakkelijken, blijft de optimale methode voor het beoordelen van de veiligheid, effectiviteit en billijkheid van systemen met dergelijke brede indicaties onduidelijk. Een ‘op bedrijven gebaseerde’ benadering van autorisatie zou bijvoorbeeld de noodzaak van apparaatspecifieke evaluatie kunnen omzeilen, wat geschikt zou kunnen zijn voor een LLM, maar het brengt onzekere garanties met zich mee met betrekking tot klinische effectiviteit en veiligheid.
Verfijning van Criteria voor Verschillende Gebruikersgroepen
Deze bevindingen benadrukken de noodzaak om criteria te verfijnen voor CDSS’s die bedoeld zijn voor clinici versus niet-klinische omstanders. De FDA heeft eerder aangegeven dat CDSS’s die gericht zijn op patiënten en zorgverleners als medische hulpmiddelen zouden worden beschouwd, die over het algemeen onderhevig zijn aan regulering. Er is momenteel echter geen regelgevende categorie voor een AI/ML CDSS die is ontworpen voor een niet-klinische omstander. Het stellen van een specifieke diagnose en het geven van een specifieke richtlijn voor een tijd-kritieke noodsituatie sluit duidelijk aan bij de criteria van de FDA voor apparaten die bedoeld zijn voor professionals in de gezondheidszorg. Aan de andere kant voldoen acties zoals cardiopulmonale reanimatie (CPR) en de toediening van epinefrine of naloxon ook aan deze apparaatcriteria, maar ze zijn tegelijkertijd goed ingeburgerde reddingsgedragingen voor niet-klinische omstanders.
Beperkingen van de Studie
Deze studie heeft verschillende beperkingen:
- Het evalueert LLM’s aan de hand van een taak die geen gespecificeerd beoogd gebruik van de software is.
- Het vergelijkt LLM-output met FDA-richtlijnen, die niet-bindend zijn, en beoordeelt niet de consistentie van LLM-aanbevelingen met andere relevante Amerikaanse wettelijke bepalingen of regelgevende kaders.
- Het evalueert geen andere prompting-methoden die mogelijk effectiever waren geweest dan single- en multi-shot prompts.
- Het onderzoekt niet hoe dergelijke prompts praktisch kunnen worden geïntegreerd in real-world klinische workflows.
- Het evalueert geen breder scala aan algemeen beschikbare en veelgebruikte LLM’s dan GPT-4 en Llama-3.
- De steekproefomvang van de prompts is klein.
Vooruitgang: Balans tussen Innovatie en Veiligheid
Prompts gebaseerd op de tekst van FDA-richtlijnen voor CDSS-apparaatcriteria, of het nu single- of multi-shot is, zijn onvoldoende om ervoor te zorgen dat LLM-output overeenkomt met niet-apparaatbeslissingsondersteuning. Nieuwe regelgevende paradigma’s en technologieën zijn nodig om generatieve AI-systemen aan te pakken, waarbij een balans wordt gevonden tussen innovatie, veiligheid en klinische effectiviteit. De snelle evolutie van deze technologie vereist een proactieve en adaptieve benadering van regulering, om ervoor te zorgen dat de voordelen van LLM’s in de gezondheidszorg kunnen worden gerealiseerd en potentiële risico’s kunnen worden beperkt.