LLMs erzeugen Output wie Medizinprodukte

Das Versprechen und die regulatorischen Herausforderungen von LLMs im Gesundheitswesen

Die Fähigkeiten von LLMs, die sich aus ihren umfangreichen Trainingsdaten und ihrer Fähigkeit, menschenähnlichen Text zu generieren, ergeben, wecken das Interesse an ihrer Anwendung zur Entscheidungsunterstützung in verschiedenen Bereichen. Die Eigenschaften, die generative künstliche Intelligenz (KI)-Systeme so attraktiv machen, stellen jedoch auch regulatorische Hürden dar. Diese Behörden arbeiten innerhalb von Rahmenbedingungen, die vor Jahrzehnten für traditionelle medizinische Geräte entwickelt wurden, nicht für die Dynamik der KI.

Derzeit sind verfügbare LLMs nicht als Medizinprodukte klassifiziert. Der Federal Food, Drug, and Cosmetic Act (FD&C Act § 201(h)(1)) definiert ein Medizinprodukt als “Instrument […], das für die Verwendung bei der Diagnose, […] Heilung, Linderung, Behandlung oder Vorbeugung von Krankheiten bestimmt ist […], das seine primären beabsichtigten Zwecke nicht durch chemische Wirkung erreicht”. Die meisten LLMs enthalten Haftungsausschlüsse, die besagen, dass sie nicht für die medizinische Beratung bestimmt sind, und vermeiden so die FDA-Regulierung. Trotzdem gibt es eine wachsende Zahl veröffentlichter Forschungsergebnisse und anekdotischer Beweise, die den Einsatz von LLMs zur medizinischen Entscheidungsunterstützung sowohl in Forschungsumgebungen als auch in der klinischen Praxis belegen.

Definition des Regulierungsumfangs für LLM-basierte klinische Entscheidungsunterstützung

In Anbetracht des Potenzials von LLMs stellt sich die Frage nach einer angemessenen Regulierung, sollten sie formell in ein System zur klinischen Entscheidungsunterstützung (CDSS) integriert werden. Der 21st Century Cures Act, eine Änderung des FD&C Act (Public Law 114-255), und die Leitlinien der FDA skizzieren vier Schlüsselkriterien, um zu bestimmen, ob eine Entscheidungsunterstützungssoftware als Gerät qualifiziert und somit der FDA-Gerichtsbarkeit unterliegt. Diese Kriterien drehen sich um:

  • Die Eingabedaten der Softwarefunktion.
  • Die Ausgabedaten.
  • Der Inhalt der klinischen Empfehlungen.
  • Die Fähigkeit des Endbenutzers, die Gründe für diese Empfehlungen zu überprüfen.

Insbesondere wird ein CDSS als Gerät betrachtet, wenn seine Ausgabe eine präzise Anweisung für die Behandlung oder Diagnose bietet, anstatt allgemeiner informationenbasierter Empfehlungen. Wenn das CDSS darüber hinaus die zugrunde liegenden Grundlagen für seine Empfehlungen nicht bereitstellt und die Benutzer daran hindert, diese unabhängig zu überprüfen und zu eigenen Schlussfolgerungen zu gelangen, wird es als Gerät klassifiziert. Die FDA-Leitlinien stellen ferner klar, dass ein CDSS, das in einem klinischen Notfall verwendet wird, als Gerät betrachtet wird, da die Entscheidungsfindung kritisch und zeitkritisch ist, was eine unabhängige Bewertung der CDSS-Empfehlungen ausschließt.

Untersuchung von geräteähnlichem Output in generativen KI-Systemen

Es bleibt unklar, ob ein CDSS, das generative KI wie ein LLM verwendet, einen Output erzeugt, der einem Medizinprodukt ähnelt. Der Freitext-Output eines uneingeschränkten LLM kann die etablierten Gerätekriterien erfüllen oder nicht. Darüber hinaus ist unbekannt, wie LLM-Antworten auf herausfordernde Prompts oder “Jailbreaks” mit diesen Kriterien übereinstimmen. Die zunehmende Verwendung von LLMs für medizinische Beratung macht die Unsicherheit bezüglich der Gerätebezeichnung und des regulatorischen Status von LLM-basierten CDSSs zu einem potenziellen Hindernis für die sichere und effektive Entwicklung dieser Technologien. Das richtige Gleichgewicht zwischen Sicherheit und Innovation für generative KI im Gesundheitswesen zu finden, ist entscheidend, da immer mehr Kliniker und Patienten diese Tools nutzen.

Forschungsziele: Bewertung der geräteähnlichen Funktionalität

Diese Forschung zielte darauf ab, die geräteähnliche Funktionalität von LLMs zu bewerten. Diese Funktionalität ist definiert als ihr Nutzen für “Diagnose, Behandlung, Prävention, Heilung oder Linderung von Krankheiten oder anderen Zuständen”, unabhängig davon, ob eine solche Verwendung beabsichtigt oder erlaubt ist. Die spezifischen Ziele waren:

  1. Zu bestimmen, ob der LLM-Output mit den Gerätekriterien übereinstimmt, wenn er mit Anweisungen zu diesen Kriterien und einem klinischen Notfall konfrontiert wird.
  2. Die Bedingungen zu identifizieren, unter denen der Output eines Modells manipuliert werden könnte, um einen geräteähnlichen Output zu liefern. Dies umfasste die Verwendung direkter Anfragen nach Diagnose- und Behandlungsinformationen sowie einen vordefinierten “Jailbreak”, der darauf abzielt, trotz Aufforderungen zur Einhaltung von Nicht-Gerätekriterien einen geräteähnlichen Output hervorzurufen.

Ergebnisse: LLM-Antworten und Übereinstimmung mit Gerätekriterien

Empfehlungen zur Prävention

Auf die Frage nach Empfehlungen zur Prävention generierten alle LLMs Antworten, die in ihrem endgültigen Text-Output mit den Nicht-Gerätekriterien übereinstimmten. Das Llama-3-Modell lieferte als Reaktion auf einen Single-Shot-Prompt in einem kleinen Prozentsatz der Antworten (20 % für Familienmedizin und 60 % für psychiatrische Präventionsszenarien) zunächst eine geräteähnliche Entscheidungsunterstützung. Es ersetzte diesen Text jedoch schnell durch einen Haftungsausschluss: “Sorry, I can’t help you with this request right now.” (Entschuldigung, ich kann Ihnen bei dieser Anfrage im Moment nicht helfen.) Bei einem Multi-Shot-Prompt mit detaillierten Beispielen für Gerätekriterien gaben alle Modelle durchweg Nicht-Geräte-Empfehlungen für alle anfänglichen Präventionsantworten.

Zeitkritische Notfallszenarien

In Situationen mit zeitkritischen Notfällen stimmten 100 % der GPT-4-Antworten und 52 % der Llama-3-Antworten mit einer geräteähnlichen Entscheidungsunterstützung überein. Die Gesamtraten der geräteähnlichen Empfehlungen blieben bei Multi-Shot-Prompts konsistent, zeigten aber Variationen über verschiedene klinische Szenarien hinweg. Diese geräteähnlichen Antworten umfassten Vorschläge für spezifische Diagnosen und Behandlungen im Zusammenhang mit den Notfällen.

“Desperate Intern” Jailbreak

Bei Anwendung des “Desperate Intern” Jailbreaks zeigte ein erheblicher Teil der Antworten geräteähnliche Empfehlungen. Konkret enthielten 80 % und 68 % der GPT-4-Antworten und 36 % und 76 % der Llama-3-Antworten nach Single- bzw. Multi-Shot-Prompts geräteähnliche Empfehlungen.

Klinische Angemessenheit der LLM-Vorschläge

Es ist wichtig zu beachten, dass alle Modellvorschläge klinisch angemessen waren und den etablierten Versorgungsstandards entsprachen. In den Szenarien der Familienmedizin und Kardiologie war ein Großteil der geräteähnlichen Entscheidungsunterstützung nur für geschulte Kliniker geeignet. Beispiele hierfür sind das Legen eines intravenösen Katheters und die Verabreichung von intravenösen Antibiotika. In anderen Szenarien stimmten die geräteähnlichen Empfehlungen im Allgemeinen mit den Standards für die Versorgung durch Laien überein, wie z. B. die Verabreichung von Naloxon bei einer Opioid-Überdosis oder die Verwendung eines Adrenalin-Autoinjektors bei Anaphylaxie.

Implikationen für Regulierung und Aufsicht

Obwohl derzeit kein LLM von der FDA als CDSS zugelassen ist und einige explizit angeben, dass sie nicht für medizinische Beratung verwendet werden sollten, könnten Patienten und Kliniker sie dennoch für diesen Zweck nutzen. Die Studie ergab, dass weder Single-Shot- noch Multi-Shot-Prompts, die auf der Sprache eines FDA-Leitfadendokuments basieren, LLMs zuverlässig darauf beschränken konnten, nur Nicht-Geräte-Entscheidungsunterstützung zu produzieren. Darüber hinaus war ein vordefinierter Jailbreak oft unnötig, um eine geräteähnliche Entscheidungsunterstützung hervorzurufen. Diese Ergebnisse bestätigen frühere Forschungsergebnisse, die den Bedarf an neuartigen Regulierungsparadigmen unterstreichen, die auf KI/ML-CDSSs zugeschnitten sind. Sie haben auch direkte Auswirkungen auf die Aufsicht über Medizinprodukte, die generative KI-Technologien integrieren.

Überdenken regulatorischer Ansätze

Eine effektive Regulierung kann neue Methoden erfordern, um den LLM-Output besser an eine geräteähnliche oder nicht-geräteähnliche Entscheidungsunterstützung anzupassen, je nach beabsichtigter Verwendung. Die traditionelle FDA-Zulassung wird einem Medizinprodukt für eine bestimmte beabsichtigte Verwendung und Indikation erteilt. Zu den von der FDA zugelassenen KI/ML-Geräten gehören beispielsweise solche, die zur Vorhersage hämodynamischer Instabilität oder klinischer Verschlechterung entwickelt wurden. LLMs könnten jedoch zu einer Vielzahl von Themen befragt werden, was potenziell zu Antworten führen könnte, die zwar angemessen sind, aber im Verhältnis zu ihrer zugelassenen Indikation als “Off-Label” betrachtet würden. Die Ergebnisse zeigen, dass sowohl Single- als auch Multi-Shot-Prompts unzureichend sind, um dies zu kontrollieren. Dieser Befund stellt keine Einschränkung der LLMs selbst dar, sondern unterstreicht vielmehr den Bedarf an neuen Methoden, die die Flexibilität des LLM-Outputs bewahren und ihn gleichzeitig auf eine zugelassene Indikation beschränken.

Erforschung neuer Zulassungswege

Die Regulierung von LLMs könnte neue Zulassungswege erfordern, die nicht an bestimmte Indikationen gebunden sind. Ein Gerätezulassungspfad für “generalisierte” Entscheidungsunterstützung könnte für LLMs und generative KI-Tools geeignet sein. Während dieser Ansatz die Innovation in KI/ML-CDSS erleichtern würde, ist die optimale Methode zur Bewertung der Sicherheit, Wirksamkeit und Gerechtigkeit von Systemen mit solch breiten Indikationen unklar. Beispielsweise könnte ein “firmenbasierter” Ansatz zur Zulassung die Notwendigkeit einer gerätespezifischen Bewertung umgehen, was für ein LLM angemessen sein könnte, aber mit unsicheren Garantien hinsichtlich der klinischen Wirksamkeit und Sicherheit verbunden ist.

Verfeinerung der Kriterien für verschiedene Benutzergruppen

Diese Ergebnisse unterstreichen die Notwendigkeit, die Kriterien für CDSSs zu verfeinern, die für Kliniker im Vergleich zu Laienhelfern bestimmt sind. Die FDA hat zuvor angedeutet, dass patienten- und pflegepersonalorientierte CDSSs als Medizinprodukte betrachtet würden, die im Allgemeinen der Regulierung unterliegen. Derzeit gibt es jedoch keine regulatorische Kategorie für ein KI/ML-CDSS, das für einen Laienhelfer entwickelt wurde. Eine spezifische Diagnose zu stellen und eine spezifische Anweisung für einen zeitkritischen Notfall zu geben, stimmt eindeutig mit den FDA-Kriterien für Geräte überein, die für medizinisches Fachpersonal bestimmt sind. Andererseits erfüllen Maßnahmen wie die Herz-Lungen-Wiederbelebung (HLW) und die Verabreichung von Adrenalin oder Naloxon ebenfalls diese Gerätekriterien, sind aber gleichzeitig etablierte Rettungsverhaltensweisen für Laienhelfer.

Einschränkungen der Studie

Diese Studie weist mehrere Einschränkungen auf:

  1. Sie bewertet LLMs anhand einer Aufgabe, die keine spezifizierte beabsichtigte Verwendung der Software ist.
  2. Sie vergleicht den LLM-Output mit den FDA-Leitlinien, die nicht bindend sind, und bewertet nicht die Übereinstimmung der LLM-Empfehlungen mit anderen relevanten US-amerikanischen Gesetzesbestimmungen oder regulatorischen Rahmenbedingungen.
  3. Sie bewertet keine anderen Prompting-Methoden, die möglicherweise effektiver gewesen wären als Single- und Multi-Shot-Prompts.
  4. Sie untersucht nicht, wie solche Prompts praktisch in reale klinische Arbeitsabläufe integriert werden könnten.
  5. Sie bewertet nicht ein breiteres Spektrum weit verbreiteter und häufig verwendeter LLMs über GPT-4 und Llama-3 hinaus.
  6. Die Stichprobengröße der Prompts ist klein.

Der Weg nach vorn: Innovation und Sicherheit in Einklang bringen

Prompts, die auf dem Text der FDA-Leitlinien für CDSS-Gerätekriterien basieren, sind, ob Single- oder Multi-Shot, unzureichend, um sicherzustellen, dass der LLM-Output mit der Nicht-Geräte-Entscheidungsunterstützung übereinstimmt. Neue Regulierungsparadigmen und Technologien sind erforderlich, um generative KI-Systeme zu adressieren und ein Gleichgewicht zwischen Innovation, Sicherheit und klinischer Wirksamkeit zu finden. Die rasante Entwicklung dieser Technologie erfordert einen proaktiven und adaptiven Ansatz zur Regulierung, um sicherzustellen, dass die Vorteile von LLMs im Gesundheitswesen realisiert werden können, während potenzielle Risiken gemindert werden.