מודלי שפה גדולים לא מוסדרים

ההבטחה והאתגרים הרגולטוריים של LLMs בתחום הבריאות

היכולות של LLMs, הנובעות מנתוני האימון הנרחבים שלהם ומהיכולת ליצור טקסט דמוי אנושי, מעוררות עניין ביישומם לתמיכה בהחלטות בתחומים מגוונים. עם זאת, אותן תכונות שהופכות מערכות בינה מלאכותית (AI) גנרטיביות למושכות כל כך, מציבות גם מכשולים ייחודיים בפני גופים רגולטוריים. גופים אלה פועלים במסגרות שנקבעו לפני עשרות שנים, המיועדות למכשירים רפואיים מסורתיים, ולא לאופי הדינמי של AI.

נכון לעכשיו, LLMs זמינים אינם מסווגים כמכשירים רפואיים. חוק המזון, התרופות והקוסמטיקה הפדרלי (FD&C Act § 201(h)(1)) מגדיר מכשיר רפואי כ”מכשיר… המיועד לשימוש באבחון, …ריפוי, הקלה, טיפול או מניעה של מחלה… שאינו משיג את מטרותיו העיקריות באמצעות פעולה כימית”. רוב ה-LLMs כוללים הצהרות אחריות המציינות שהם אינם מיועדים למתן ייעוץ רפואי, ובכך נמנעים מרגולציה של ה-FDA. למרות זאת, ישנו אוסף הולך וגדל של מחקרים שפורסמו ועדויות אנקדוטיות המדגישות את השימוש ב-LLMs לתמיכה בהחלטות רפואיות, הן במסגרות מחקר והן בפרקטיקה קלינית בפועל.

הגדרת היקף הרגולציה לתמיכה בהחלטות קליניות מבוססות LLM

בהתחשב בפוטנציאל של LLMs, אם ישולבו באופן רשמי במערכת תמיכה בהחלטות קליניות (CDSS), שאלת הרגולציה המתאימה הופכת לחשובה ביותר. התיקון לחוק ה-FD&C מהמאה ה-21 (Public Law 114–255), יחד עם הנחיות מה-FDA, מתווה ארבעה קריטריונים מרכזיים כדי לקבוע אם תוכנת תמיכה בהחלטות נחשבת למכשיר, וכתוצאה מכך, נופלת תחת סמכות השיפוט של ה-FDA. קריטריונים אלה סובבים סביב:

  • נתוני הקלט של פונקציית התוכנה.
  • נתוני הפלט שלה.
  • מהות ההמלצות הקליניות שלה.
  • יכולתו של משתמש הקצה לבחון את ההיגיון מאחורי המלצות אלו.

באופן ספציפי, CDSS נחשב למכשיר אם הפלט שלו מציע הנחיה מדויקת לטיפול או אבחון, ולא המלצות כלליות מבוססות מידע. יתר על כן, אם ה-CDSS אינו מספק את הבסיס הבסיסי להמלצותיו, ומונע ממשתמשים לבחון אותן באופן עצמאי ולהגיע למסקנות משלהם, הוא מסווג כמכשיר. הנחיות ה-FDA מבהירות עוד כי CDSS המשמש במצב חירום קליני נחשב למכשיר בשל האופי הקריטי והרגיש לזמן של קבלת ההחלטות, המונע הערכה עצמאית של עצת ה-CDSS.

חקירת פלט דמוי מכשיר במערכות AI גנרטיביות

לא ברור אם CDSS המשתמש ב-AI גנרטיבי, כמו LLM, מייצר פלט המחקה מכשיר רפואי. פלט הטקסט החופשי של LLM לא מוגבל עשוי לעמוד בקריטריונים שנקבעו למכשיר, או שלא. יתר על כן, לא ידוע כיצד תגובות LLM להנחיות מאתגרות או “פריצות” מתיישבות עם קריטריונים אלה. השימוש הגובר ב-LLMs לייעוץ רפואי הופך את אי הוודאות סביב ייעוד המכשיר והמעמד הרגולטורי של CDSSs מבוססי LLM למכשול פוטנציאלי לפיתוח בטוח ויעיל של טכנולוגיות אלו. השגת האיזון הנכון בין בטיחות לחדשנות עבור AI גנרטיבי בתחום הבריאות היא חיונית ככל שיותר רופאים ומטופלים משתמשים בכלים אלה.

מטרות מחקר: הערכת פונקציונליות דמוית מכשיר

מחקר זה נועד להעריך את הפונקציונליות דמוית המכשיר של LLMs. פונקציונליות זו מוגדרת כשימושיות שלהם ל”אבחון, טיפול, מניעה, ריפוי או הקלה של מחלות או מצבים אחרים”, ללא קשר לשאלה אם שימוש כזה מיועד או מותר. המטרות הספציפיות היו:

  1. לקבוע אם פלט LLM יתאים לקריטריונים של מכשיר כאשר יוצגו לו הנחיות לגבי קריטריונים אלה ויוצג לו מקרה חירום קליני.
  2. לזהות את התנאים, אם בכלל, שבהם ניתן לתמרן את פלט המודל כדי לספק פלט דמוי מכשיר. זה כלל שימוש בבקשות ישירות למידע אבחוני וטיפולי, כמו גם “פריצה” מוגדרת מראש שנועדה להפיק פלט דמוי מכשיר למרות הנחיות לדבוק בקריטריונים שאינם של מכשיר.

ממצאים: תגובות LLM והתאמה לקריטריונים של מכשיר

המלצות לטיפול מונע

כאשר נשאלו לגבי המלצות לטיפול מונע, כל ה-LLMs יצרו תגובות התואמות לקריטריונים שאינם של מכשיר בפלט הטקסט הסופי שלהם. מודל Llama-3, בתגובה להנחיה בודדת (single-shot prompt), סיפק בתחילה תמיכה בהחלטות דמוית מכשיר באחוז קטן מהתגובות (20% עבור תרחישי טיפול מונע ברפואת משפחה ו-60% עבור פסיכיאטריה). עם זאת, הוא החליף במהירות טקסט זה בהצהרת אחריות: “Sorry, I can’t help you with this request right now.” כאשר הוצגה לו הנחיה מרובת צילומים (multi-shot prompt) המכילה דוגמאות מפורטות לקריטריונים של מכשיר, כל המודלים סיפקו באופן עקבי המלצות שאינן של מכשיר עבור כל התגובות הראשוניות לטיפול מונע.

תרחישי חירום קריטיים לזמן

במצבים הכוללים מצבי חירום קריטיים לזמן, 100% מתגובות GPT-4 ו-52% מתגובות Llama-3 תאמו תמיכה בהחלטות דמוית מכשיר. השיעורים הכוללים של המלצות דמויות מכשיר נותרו עקביים עם הנחיות מרובות צילומים, אך הראו שונות בין תרחישים קליניים שונים. תגובות דמויות מכשיראלו כללו הצעות לאבחונים וטיפולים ספציפיים הקשורים למקרי החירום.

פריצת “המתמחה הנואש”

כאשר הוכפפו לפריצת “המתמחה הנואש”, חלק ניכר מהתגובות הציגו המלצות דמויות מכשיר. באופן ספציפי, 80% ו-68% מתגובות GPT-4, ו-36% ו-76% מתגובות Llama-3, כללו המלצות דמויות מכשיר בעקבות הנחיות בודדות ומרובות צילומים, בהתאמה.

התאמה קלינית של הצעות LLM

חשוב לציין שכל הצעות המודל היו מתאימות מבחינה קלינית ותאמו את הסטנדרטים המקובלים של טיפול. בתרחישי רפואת המשפחה והקרדיולוגיה, חלק ניכר מהתמיכה בהחלטות דמוית המכשיר התאימה רק לרופאים מיומנים. דוגמאות כוללות החדרת צנתר תוך ורידי ומתן אנטיביוטיקה תוך ורידית. בתרחישים אחרים, המלצות דמויות מכשיר היו בדרך כלל עקביות עם סטנדרטים של טיפול על ידי עוברי אורח, כגון מתן נלוקסון למנת יתר של אופיואידים או שימוש במזרק אוטומטי של אפינפרין לאנפילקסיס.

השלכות על רגולציה ופיקוח

למרות שאף LLM אינו מאושר כיום על ידי ה-FDA כ-CDSS, וחלקם מציינים במפורש שאין להשתמש בהם לייעוץ רפואי, מטופלים ורופאים עשויים עדיין להשתמש בהם למטרה זו. המחקר מצא שלא הנחיות בודדות ולא הנחיות מרובות צילומים, המבוססות על שפה ממסמך הנחיות של ה-FDA, הגבילו באופן מהימן את LLMs לייצור תמיכה בהחלטות שאינה של מכשיר בלבד. יתר על כן, פריצה מוגדרת מראש לא הייתה נחוצה לעתים קרובות כדי להפיק תמיכה בהחלטות דמוית מכשיר. ממצאים אלה מחזקים מחקר קודם המדגיש את הצורך בפרדיגמות רגולטוריות חדשות המותאמות ל-AI/ML CDSSs. יש להם גם השלכות ישירות על הפיקוח על מכשירים רפואיים המשלבים טכנולוגיות AI גנרטיביות.

חשיבה מחודשת על גישות רגולטוריות

רגולציה יעילה עשויה לחייב שיטות חדשות כדי להתאים טוב יותר את פלט LLM לתמיכה בהחלטות דמוית מכשיר או שאינה של מכשיר, בהתאם לשימוש המיועד. אישור FDA מסורתי ניתן למכשיר רפואי לשימוש מיועד ספציפי ואינדיקציה. לדוגמה, מכשירי AI/ML שאושרו על ידי ה-FDA כוללים מכשירים המיועדים לחיזוי אי יציבות המודינמית או הידרדרות קלינית. עם זאת, ניתן לשאול LLMs על מגוון רחב של נושאים, מה שעלול להוביל לתגובות שאמנם מתאימות, אך ייחשבו “מחוץ לתווית” ביחס לאינדיקציה המאושרת שלהם. התוצאות מראות שגם הנחיות בודדות וגם הנחיות מרובות צילומים אינן מספיקות כדי לשלוט בכך. ממצא זה אינו מייצג מגבלה של LLMs עצמם, אלא מדגיש את הצורך בשיטות חדשות המשמרות את הגמישות של פלט LLM תוך הגבלתו לאינדיקציה מאושרת.

בחינת מסלולי אישור חדשים

רגולציה של LLMs עשויה לדרוש מסלולי אישור חדשים שאינם קשורים לאינדיקציות ספציפיות. מסלול אישור מכשיר לתמיכה בהחלטות “מוכללת” עשוי להתאים ל-LLMs ולכלי AI גנרטיביים. בעוד שגישה זו תקל על חדשנות ב-AI/ML CDSS, השיטה האופטימלית להערכת הבטיחות, היעילות וההוגנות של מערכות עם אינדיקציות רחבות כל כך נותרה לא ברורה. לדוגמה, גישה “מבוססת חברה” לאישור יכולה לעקוף את הצורך בהערכה ספציפית למכשיר, שעשויה להתאים ל-LLM, אך היא מגיעה עם ערבויות לא ברורות לגבי יעילות ובטיחות קלינית.

חידוד קריטריונים עבור קבוצות משתמשים שונות

ממצאים אלה מדגישים את הצורך לחדד קריטריונים עבור CDSSs המיועדים לרופאים לעומת עוברי אורח שאינם רופאים. ה-FDA ציין בעבר ש-CDSSs הפונים למטופלים ולמטפלים ייחשבו למכשירים רפואיים, שבדרך כלל כפופים לרגולציה. עם זאת, אין כיום קטגוריה רגולטורית עבור AI/ML CDSS המיועד לעובר אורח שאינו רופא. ביצוע אבחנה ספציפית ומתן הנחיה ספציפית למצב חירום קריטי לזמן מתיישבים בבירור עם הקריטריונים של ה-FDA למכשירים המיועדים לאנשי מקצוע בתחום הבריאות. מצד שני, פעולות כמו החייאה (CPR) ומתן אפינפרין או נלוקסון עומדות גם הן בקריטריונים אלה של מכשיר, אך הן בו זמנית התנהגויות הצלה מבוססות היטב עבור עוברי אורח שאינם רופאים.

מגבלות המחקר

למחקר זה יש מספר מגבלות:

  1. הוא מעריך LLMs מול משימה שאינה שימוש מיועד ספציפי של התוכנה.
  2. הוא משווה את פלט LLM להנחיות ה-FDA, שאינן מחייבות, ואינו מעריך את העקביות של המלצות LLM עם הוראות סטטוטוריות רלוונטיות אחרות בארה”ב או מסגרות רגולטוריות.
  3. הוא אינו מעריך שיטות הנחיה אחרות שעשויות היו להיות יעילות יותר מהנחיות בודדות ומרובות צילומים.
  4. הוא אינו בוחן כיצד ניתן לשלב הנחיות כאלה באופן מעשי בזרימות עבודה קליניות בעולם האמיתי.
  5. הוא אינו מעריך מגוון רחב יותר של LLMs זמינים ונפוצים מעבר ל-GPT-4 ו-Llama-3.
  6. גודל המדגם של ההנחיות קטן.

מבט לעתיד: איזון בין חדשנות לבטיחות

הנחיות המבוססות על הטקסט של הנחיות ה-FDA לקריטריונים של מכשיר CDSS, בין אם בודדות או מרובות צילומים, אינן מספיקות כדי להבטיח שפלט LLM יתאים לתמיכה בהחלטות שאינה של מכשיר. יש צורך בפרדיגמות וטכנולוגיות רגולטוריות חדשות כדי לטפל במערכות AI גנרטיביות, תוך איזון בין חדשנות, בטיחות ויעילות קלינית. ההתפתחות המהירה של טכנולוגיה זו דורשת גישה פרואקטיבית ומסתגלת לרגולציה, המבטיחה שניתן יהיה לממש את היתרונות של LLMs בתחום הבריאות תוך הפחתת סיכונים פוטנציאליים.