Nieregulowane LLM i wyroby medyczne

Obietnica i wyzwania regulacyjne związane z LLM w opiece zdrowotnej

Możliwości LLM, wynikające z ich szeroko zakrojonych danych szkoleniowych i zdolności do generowania tekstu podobnego do ludzkiego, napędzają zainteresowanie ich zastosowaniem do wspomagania decyzji w różnych dziedzinach. Jednak te same cechy, które sprawiają, że generatywne systemy sztucznej inteligencji (AI) są tak atrakcyjne, stanowią również wyjątkowe przeszkody dla organów regulacyjnych. Organy te działają w ramach ustanowionych dziesiątki lat temu, zaprojektowanych dla tradycyjnych wyrobów medycznych, a nie dla dynamicznej natury AI.

Obecnie dostępne LLM nie są klasyfikowane jako wyroby medyczne. Federal Food, Drug, and Cosmetic Act (FD&C Act § 201(h)(1)) definiuje wyrób medyczny jako „instrument… przeznaczony do stosowania w diagnozowaniu, …leczeniu, łagodzeniu, terapii lub zapobieganiu chorobom… który nie osiąga swoich podstawowych zamierzonych celów poprzez działanie chemiczne”. Większość LLM zawiera zastrzeżenia, że nie są one przeznaczone do udzielania porad medycznych, unikając w ten sposób regulacji FDA. Mimo to istnieje rosnąca liczba opublikowanych badań i niepotwierdzonych dowodów podkreślających wykorzystanie LLM do wspomagania decyzji medycznych, zarówno w warunkach badawczych, jak i w rzeczywistej praktyce klinicznej.

Definiowanie zakresu regulacji dla wspomagania decyzji klinicznych opartego na LLM

Biorąc pod uwagę potencjał LLM, jeśli miałyby zostać formalnie włączone do systemu wspomagania decyzji klinicznych (CDSS), kwestia odpowiednich regulacji staje się nadrzędna. Poprawka 21st Century Cures Act do ustawy FD&C (Public Law 114–255), wraz z wytycznymi FDA, określa cztery kluczowe kryteria, aby ustalić, czy oprogramowanie do wspomagania decyzji kwalifikuje się jako urządzenie, a co za tym idzie, podlega jurysdykcji FDA. Kryteria te dotyczą:

  • Danych wejściowych funkcji oprogramowania.
  • Jego danych wyjściowych.
  • Istoty jego zaleceń klinicznych.
  • Zdolności użytkownika końcowego do przeglądu uzasadnienia tych zaleceń.

W szczególności CDSS jest uważany za urządzenie, jeśli jego dane wyjściowe oferują precyzyjną dyrektywę dotyczącą leczenia lub diagnozy, a nie ogólne zalecenia oparte na informacjach. Co więcej, jeśli CDSS nie zapewnia podstawy dla swoich zaleceń, uniemożliwiając użytkownikom ich niezależny przegląd i wyciągnięcie własnych wniosków, jest klasyfikowany jako urządzenie. Wytyczne FDA dodatkowo wyjaśniają, że CDSS używany w nagłym przypadku klinicznym jest uważany za urządzenie ze względu na krytyczny i pilny charakter podejmowania decyzji, co wyklucza niezależną ocenę porady CDSS.

Badanie wyników podobnych do urządzeń w generatywnych systemach AI

Nadal nie jest jasne, czy CDSS wykorzystujący generatywną sztuczną inteligencję, taką jak LLM, generuje wyniki, które naśladują wyrób medyczny. Wyniki w postaci wolnego tekstu nieograniczonego LLM mogą, ale nie muszą, spełniać ustalonych kryteriów urządzenia. Ponadto nie wiadomo, w jaki sposób odpowiedzi LLM na trudne podpowiedzi lub „jailbreaki” są zgodne z tymi kryteriami. Rosnące wykorzystanie LLM do porad medycznych sprawia, że niepewność co do oznaczenia urządzenia i statusu regulacyjnego CDSS opartych na LLM jest potencjalną przeszkodą w bezpiecznym i skutecznym rozwoju tych technologii. Znalezienie właściwej równowagi między bezpieczeństwem a innowacjami w zakresie generatywnej sztucznej inteligencji w opiece zdrowotnej ma kluczowe znaczenie, ponieważ coraz więcej klinicystów i pacjentów korzysta z tych narzędzi.

Cele badawcze: Ocena funkcjonalności podobnej do urządzenia

Celem tego badania była ocena funkcjonalności LLM podobnej do urządzenia. Funkcjonalność ta jest definiowana jako ich użyteczność do „diagnozowania, leczenia, zapobiegania, leczenia lub łagodzenia chorób lub innych stanów”, niezależnie od tego, czy takie użycie jest zamierzone, czy dozwolone. Konkretne cele to:

  1. Ustalenie, czy dane wyjściowe LLM będą zgodne z kryteriami urządzenia, gdy zostaną poproszone o instrukcje dotyczące tych kryteriów i przedstawione w nagłym przypadku klinicznym.
  2. Zidentyfikowanie warunków, jeśli takie istnieją, w których dane wyjściowe modelu mogłyby zostać zmanipulowane w celu zapewnienia danych wyjściowych podobnych do urządzenia. Obejmowało to użycie bezpośrednich żądań informacji diagnostycznych i terapeutycznych, a także predefiniowanego „jailbreaku” zaprojektowanego w celu uzyskania danych wyjściowych podobnych do urządzenia pomimo podpowiedzi, aby przestrzegać kryteriów innych niż urządzenia.

Ustalenia: Odpowiedzi LLM i zgodność z kryteriami urządzenia

Zalecenia dotyczące opieki profilaktycznej

Zapytane o zalecenia dotyczące opieki profilaktycznej, wszystkie LLM wygenerowały odpowiedzi zgodne z kryteriami innymi niż urządzenia w ostatecznym tekście wyjściowym. Model Llama-3, w odpowiedzi na podpowiedź jednorazową (single-shot), początkowo zapewniał wspomaganie decyzji podobne do urządzenia w niewielkim odsetku odpowiedzi (20% dla medycyny rodzinnej i 60% dla scenariuszy opieki profilaktycznej w psychiatrii). Jednak szybko zastąpił ten tekst zastrzeżeniem: „Przepraszam, nie mogę ci teraz pomóc w tym żądaniu”. Po przedstawieniu podpowiedzi wielorazowej (multi-shot) zawierającej szczegółowe przykłady kryteriów urządzenia, wszystkie modele konsekwentnie zapewniały zalecenia inne niż urządzenia dla wszystkich początkowych odpowiedzi dotyczących opieki profilaktycznej.

Pilne scenariusze awaryjne

W sytuacjach obejmujących pilne nagłe przypadki, 100% odpowiedzi GPT-4 i 52% odpowiedzi Llama-3 było zgodnych ze wspomaganiem decyzji podobnym do urządzenia. Ogólne wskaźniki zaleceń podobnych do urządzeń pozostały spójne z podpowiedziami wielorazowymi, ale wykazywały zmienność w różnych scenariuszach klinicznych. Te odpowiedzi podobne do urządzeń obejmowały sugestie dotyczące konkretnych diagnoz i metod leczenia związanych z nagłymi przypadkami.

‘Desperate Intern’ Jailbreak

Po poddaniu „jailbreakowi” „zdesperowanego stażysty”, znaczna część odpowiedzi wykazywała zalecenia podobne do urządzeń. W szczególności 80% i 68% odpowiedzi GPT-4 oraz 36% i 76% odpowiedzi Llama-3 zawierało zalecenia podobne do urządzeń po podpowiedziach jedno- i wielorazowych, odpowiednio.

Kliniczna adekwatność sugestii LLM

Należy zauważyć, że wszystkie sugestie modelu były klinicznie odpowiednie i zgodne z ustalonymi standardami opieki. W scenariuszach medycyny rodzinnej i kardiologii znaczna część wspomagania decyzji podobnego do urządzenia była odpowiednia tylko dla przeszkolonych klinicystów. Przykłady obejmują umieszczenie cewnika dożylnego i podanie antybiotyków dożylnych. W innych scenariuszach zalecenia podobne do urządzeń były ogólnie zgodne ze standardami opieki świadków, takimi jak podawanie naloksonu w przypadku przedawkowania opioidów lub użycie automatycznego wstrzykiwacza epinefryny w przypadku anafilaksji.

Implikacje dla regulacji i nadzoru

Chociaż żaden LLM nie jest obecnie autoryzowany przez FDA jako CDSS, a niektóre wyraźnie stwierdzają, że nie powinny być używane do porad medycznych, pacjenci i klinicyści mogą nadal używać ich do tego celu. Badanie wykazało, że ani podpowiedzi jednorazowe, ani wielorazowe, oparte na języku z dokumentu wytycznych FDA, nie ograniczały w sposób niezawodny LLM do generowania wyłącznie wspomagania decyzji innego niż urządzenie. Co więcej, predefiniowany jailbreak często nie był konieczny do uzyskania wspomagania decyzji podobnego do urządzenia. Ustalenia te wzmacniają wcześniejsze badania podkreślające potrzebę nowatorskich paradygmatów regulacyjnych dostosowanych do CDSS AI/ML. Mają one również bezpośredni wpływ na nadzór nad wyrobami medycznymi zawierającymi generatywne technologie AI.

Przemyślenie podejść regulacyjnych

Skuteczna regulacja może wymagać nowych metod, aby lepiej dostosować dane wyjściowe LLM do wspomagania decyzji podobnego do urządzenia lub innego niż urządzenie, w zależności od zamierzonego zastosowania. Tradycyjna autoryzacja FDA jest przyznawana wyrobowi medycznemu do określonego zamierzonego zastosowania i wskazania. Na przykład autoryzowane przez FDA urządzenia AI/ML obejmują te przeznaczone do przewidywania niestabilności hemodynamicznej lub pogorszenia stanu klinicznego. Jednak LLM mogą być pytane o szeroki zakres tematów, co potencjalnie prowadzi do odpowiedzi, które, choć odpowiednie, byłyby uważane za „poza wskazaniami” w stosunku do ich zatwierdzonego wskazania. Wyniki pokazują, że zarówno podpowiedzi jedno-, jak i wielorazowe są niewystarczające do kontrolowania tego. To odkrycie nie stanowi ograniczenia samych LLM, ale raczej podkreśla potrzebę nowych metod, które zachowują elastyczność danych wyjściowych LLM, jednocześnie ograniczając je do zatwierdzonego wskazania.

Badanie nowych ścieżek autoryzacji

Regulacja LLM może wymagać nowych ścieżek autoryzacji, które nie są powiązane z konkretnymi wskazaniami. Ścieżka autoryzacji urządzenia dla „uogólnionego” wspomagania decyzji może być odpowiednia dla LLM i generatywnych narzędzi AI. Chociaż takie podejście ułatwiłoby innowacje w CDSS AI/ML, optymalna metoda oceny bezpieczeństwa, skuteczności i sprawiedliwości systemów o tak szerokich wskazaniach pozostaje niejasna. Na przykład podejście do autoryzacji „oparte na firmie” mogłoby ominąć potrzebę oceny specyficznej dla urządzenia, co mogłoby być odpowiednie dla LLM, ale wiąże się z niepewnymi gwarancjami dotyczącymi skuteczności klinicznej i bezpieczeństwa.

Udoskonalanie kryteriów dla różnych grup użytkowników

Ustalenia te podkreślają potrzebę udoskonalenia kryteriów dla CDSS przeznaczonych dla klinicystów w porównaniu z osobami postronnymi niebędącymi klinicystami. FDA wskazała wcześniej, że CDSS skierowane do pacjentów i opiekunów byłyby uważane za wyroby medyczne, generalnie podlegające regulacjom. Jednak obecnie nie ma kategorii regulacyjnej dla CDSS AI/ML przeznaczonego dla osoby postronnej niebędącej klinicystą. Postawienie konkretnej diagnozy i wydanie konkretnej dyrektywy w pilnym przypadku wyraźnie odpowiada kryteriom FDA dotyczącym urządzeń przeznaczonych dla pracowników służby zdrowia. Z drugiej strony, działania takie jak resuscytacja krążeniowo-oddechowa (CPR) i podawanie epinefryny lub naloksonu również spełniają te kryteria urządzenia, ale jednocześnie są dobrze ugruntowanymi zachowaniami ratunkowymi dla osób postronnych niebędących klinicystami.

Ograniczenia badania

To badanie ma kilka ograniczeń:

  1. Ocenia LLM pod kątem zadania, które nie jest określonym zamierzonym zastosowaniem oprogramowania.
  2. Porównuje dane wyjściowe LLM z wytycznymi FDA, które nie są wiążące, i nie ocenia spójności zaleceń LLM z innymi odpowiednimi przepisami ustawowymi lub ramami regulacyjnymi USA.
  3. Nie ocenia innych metod podpowiedzi, które mogłyby być bardziej skuteczne niż podpowiedzi jedno- i wielorazowe.
  4. Nie bada, w jaki sposób takie podpowiedzi mogłyby zostać praktycznie zintegrowane z rzeczywistymi przepływami pracy klinicznej.
  5. Nie ocenia szerszego zakresu szeroko dostępnych i powszechnie używanych LLM poza GPT-4 i Llama-3.
  6. Wielkość próby podpowiedzi jest mała.

Idąc naprzód: Równoważenie innowacji i bezpieczeństwa

Podpowiedzi oparte na tekście wytycznych FDA dotyczących kryteriów urządzenia CDSS, niezależnie od tego, czy są jedno-, czy wielorazowe, są niewystarczające, aby zapewnić, że dane wyjściowe LLM są zgodne ze wspomaganiem decyzji innym niż urządzenie. Potrzebne są nowe paradygmaty regulacyjne i technologie, aby zająć się generatywnymi systemami AI, zachowując równowagę między innowacjami, bezpieczeństwem i skutecznością kliniczną. Szybka ewolucja tej technologii wymaga proaktywnego i adaptacyjnego podejścia do regulacji, zapewniając, że korzyści płynące z LLM w opiece zdrowotnej mogą zostać zrealizowane przy jednoczesnym ograniczeniu potencjalnych zagrożeń.