ההתקדמות הבלתי פוסקת של הבינה המלאכותית ממשיכה לעצב מחדש תעשיות, ואולי בשום מקום אחר ההימור אינו גבוה יותר, והפוטנציאל אינו עמוק יותר, מאשר בתחום הרפואה. במשך שנים, מודלי ה-AI החזקים ביותר, במיוחד מודלי שפה גדולים (LLMs), המסוגלים לעבד וליצור טקסט דמוי אנושי, שכנו במידה רבה מאחורי החומות המגוננות של ענקיות טכנולוגיה. מערכות קנייניות אלו, כמו ה-GPT-4 המדובר רבות מבית OpenAI, הפגינו יכולת מרשימה, שאף התרחבה לתחום המורכב של אבחון רפואי. עם זאת, טבע ה’קופסה השחורה’ שלהן והצורך לשלוח מידע רגיש לשרתים חיצוניים הציבו מכשולים משמעותיים לאימוץ נרחב ובטוח במסגרות בריאות, שבהן פרטיות המטופל אינה רק העדפה, אלא חובה. שאלה קריטית נותרה בעינה: האם עולם ה-AI בקוד פתוח המתפתח יוכל לעמוד באתגר, ולהציע עוצמה דומה מבלי להתפשר על שליטה וסודיות?
ממצאים אחרונים המגיעים מהמסדרונות המכובדים של Harvard Medical School (HMS) מצביעים על כך שהתשובה היא כן מהדהד, ומסמנים נקודת מפנה פוטנציאלית ביישום AI בסביבות קליניות. חוקרים השוו בקפדנות מודל קוד פתוח מוביל למקבילו הקנייני הבולט, וחשפו תוצאות שעשויות להביא לדמוקרטיזציה של הגישה לכלי עזר אבחוניים מתקדמים.
מתמודד חדש נכנס לזירת האבחון
במחקר שמשך את תשומת לבן של קהילות הרפואה והטכנולוגיה כאחד, חוקרי HMS העמידו את מודל הקוד הפתוח Llama 3.1 405B מול ה-GPT-4 האימתני. שדה הניסוי היה סט שנבחר בקפידה של 70 מקרי בוחן רפואיים מאתגרים. אלו לא היו תרחישים שגרתיים; הם ייצגו חידות אבחוניות מורכבות שלעיתים קרובות נתקלים בהן בפרקטיקה הקלינית. המטרה הייתה ברורה: להעריך את החדות האבחונית של כל מודל AI ראש בראש.
התוצאות, שפורסמו לאחרונה, היו מדהימות. מודל ה-Llama 3.1 405B, הזמין באופן חופשי למשתמשים להורדה, בדיקה ושינוי, הפגין דיוק אבחוני שווה ערך, ובמדדים מסוימים אף עלה על זה של GPT-4. באופן ספציפי, כאשר הוערכה נכונות ההצעה האבחונית הראשונית שהוצעה על ידי כל מודל, ל-Llama 3.1 405B היה יתרון. יתר על כן, כאשר נלקחה בחשבון האבחנה הסופית שהוצעה לאחר עיבוד פרטי המקרה, המתמודד בקוד פתוח הוכיח שוב את יכולתו מול אמת המידה המבוססת.
הישג זה משמעותי לא רק בזכות הביצועים עצמם, אלא בזכות מה שהוא מייצג. לראשונה, כלי קוד פתוח נגיש ושקוף הוכיח שהוא מסוגל לפעול באותה רמה גבוהה כמו המערכות המובילות בקוד סגור במשימה התובענית של אבחון רפואי המבוסס על מקרי בוחן. Arjun K. Manrai ’08, פרופסור ב-HMS שפיקח על המחקר, תיאר את השוויון בביצועים כ’מרשים למדי’, במיוחד בהתחשב בהקשר ההיסטורי.
יתרון הקוד הפתוח: פתיחת פרטיות נתונים והתאמה אישית
הגורם המשנה-משחק האמיתי שהודגש על ידי מחקר הרווארד טמון בהבדל הבסיסי בין מודלים של קוד פתוח למודלים קנייניים: נגישות ושליטה. מודלים קנייניים כמו GPT-4 דורשים בדרך כלל מהמשתמשים לשלוח נתונים לשרתי הספק לצורך עיבוד. בתחום הבריאות, זה מיד מעורר דגלים אדומים. מידע על מטופלים – תסמינים, היסטוריה רפואית, תוצאות בדיקות – הוא בין הנתונים הרגישים ביותר שניתן להעלות על הדעת, המוגן על ידי תקנות מחמירות כמו HIPAA בארצות הברית. האפשרות של העברת נתונים אלה מחוץ לרשת המאובטחת של בית חולים, אפילו לטובת הפוטנציאל של ניתוח AI מתקדם, היוותה מכשול מרכזי.
מודלים של קוד פתוח, כגון Llama 3.1 405B, משנים באופן יסודי דינמיקה זו. מכיוון שהקוד והפרמטרים של המודל זמינים לציבור, מוסדות יכולים להוריד ולפרוס אותו בתוך התשתית המאובטחת שלהם.
- ריבונות נתונים: בתי חולים יכולים להריץ את ה-AI כולו על השרתים המקומיים שלהם או בעננים פרטיים. נתוני המטופלים לעולם אינם צריכים לעזוב את הסביבה המוגנת של המוסד, ובכך למעשה מבטלים את חששות הפרטיות הקשורים להעברת נתונים חיצונית. מושג זה מכונה לעתים קרובות הבאת ה’מודל לנתונים’, במקום שליחת ה’נתונים למודל’.
- אבטחה משופרת: שמירת התהליך בתוך הבית מפחיתה באופן משמעותי את משטח התקיפה לפריצות נתונים פוטנציאליות הקשורות לספקי AI של צד שלישי. השליטה על הסביבה התפעולית נשארת לחלוטין בידי מוסד הבריאות.
- שקיפות ויכולת ביקורת: מודלים של קוד פתוח מאפשרים לחוקרים ולקלינאים לבדוק באופן פוטנציאלי את ארכיטקטורת המודל, ובמידה מסוימת, להבין את תהליכי קבלת ההחלטות שלו טוב יותר ממערכות קנייניות אטומות. שקיפות זו יכולה לטפח אמון רב יותר ולהקל על איתור באגים או עידון.
Thomas A. Buckley, דוקטורנט בתוכנית AI ברפואה של הרווארד והמחבר הראשון של המחקר, הדגיש יתרון קריטי זה. ‘מודלים של קוד פתוח פותחים מחקר מדעי חדש מכיוון שניתן לפרוס אותם ברשת של בית החולים עצמו’, הוא הצהיר. יכולת זו חורגת מהפוטנציאל התיאורטי ופותחת את הדלת ליישום מעשי ובטוח.
יתר על כן, טבע הקוד הפתוח מאפשר רמות חסרות תקדים של התאמה אישית. בתי חולים וקבוצות מחקר יכולים כעת לכוונן (fine-tune) את מודלי הבסיס החזקים הללו באמצעות נתוני המטופלים הספציפיים שלהם.
- כוונון ספציפי לאוכלוסייה: ניתן להתאים מודל כדי לשקף טוב יותר את הדמוגרפיה, המחלות הנפוצות והאתגרים הבריאותיים הייחודיים של אוכלוסייה מקומית או אזורית ספציפית המשרתת על ידי מערכת בית חולים.
- התאמה לפרוטוקולים: ניתן להתאים את התנהגות ה-AI כך שתתאים למסלולי האבחון הספציפיים של בית החולים, לפרוטוקולי הטיפול או לתקני הדיווח.
- יישומים מיוחדים: חוקרים יכולים לפתח גרסאות מיוחדות מאוד של המודל המותאמות לתחומים רפואיים מסוימים, כגון תמיכה בפרשנות ניתוח תמונות רדיולוגיה, סריקת דוחות פתולוגיה או זיהוי דפוסי מחלות נדירות.
Buckley פירט על השלכה זו: ‘חוקרים יכולים כעת להשתמש ב-AI קליני מתקדם ישירות עם נתוני מטופלים… בתי חולים יכולים להשתמש בנתוני מטופלים כדי לפתח מודלים מותאמים אישית (לדוגמה, כדי להתאים לאוכלוסיית המטופלים שלהם)’. פוטנציאל זה לכלי AI מותאמים אישית, שפותחו בבטחה בתוך הבית, מייצג קפיצת מדרגה משמעותית קדימה.
הקשר: גל ההלם של AI במקרים מורכבים
חקירת צוות הרווארד את Llama 3.1 405B לא נערכה בחלל ריק. היא קיבלה השראה חלקית מההדים שיצרו מחקרים קודמים, במיוחד מאמר בולט משנת 2023. מחקר זה הציג את המיומנות המפתיעה של מודלי GPT בהתמודדות עם כמה מהמקרים הקליניים המבלבלים ביותר שפורסמו בכתב העת היוקרתי New England Journal of Medicine (NEJM). ‘רישומי המקרים של בית החולים הכללי מסצ’וסטס’ (Case Records of the Massachusetts General Hospital) ב-NEJM אלה הם אגדיים בחוגים רפואיים – מקרים מורכבים, לעתים קרובות מדהימים, המאתגרים אפילו קלינאים מנוסים.
‘המאמר הזה זכה לתשומת לב רבה ובעצם הראה שמודל השפה הגדול הזה, ChatGPT, יכול איכשהו לפתור את המקרים הקליניים המאתגרים להפליא האלה, מה שדי זעזע אנשים’, נזכר Buckley. הרעיון ש-AI, למעשה מכונת זיהוי תבניות מורכבת שאומנה על כמויות עצומות של טקסט, יכולה לפענח תעלומות אבחוניות שלעתים קרובות דורשות אינטואיציה קלינית עמוקה וניסיון, היה מרתק, ועבור חלקם, מטריד.
‘המקרים האלה קשים לשמצה’, הוסיף Buckley. ‘הם חלק מהמקרים המאתגרים ביותר שנראו בבית החולים הכללי מסצ’וסטס, כך שהם מפחידים לרופאים, וזה מפחיד באותה מידה כשמודל AI יכול לעשות את אותו הדבר’. הדגמה מוקדמת זו הדגישה את הפוטנציאל הגולמי של LLMs ברפואה, אך גם הגבירה את הדחיפות בטיפול בסוגיות הפרטיות והשליטה הטבועות במערכות קנייניות. אם AI הופך להיות כל כך מוכשר, הבטחת השימוש הבטוח והאתי בו עם נתוני מטופלים אמיתיים הפכה לחיונית.
שחרור מודל Llama 3.1 405B של Meta ייצג נקודת מפנה פוטנציאלית. קנה המידה העצום של המודל – המצוין על ידי ה-‘405B’ שלו, המתייחס ל-405 מיליארד פרמטרים (המשתנים שהמודל מתאים במהלך האימון כדי לבצע תחזיות) – סימן רמה חדשה של תחכום בקהילת הקוד הפתוח. קנה מידה מסיבי זה רמז שהוא עשוי להחזיק במורכבות הדרושה כדי להתחרות בביצועים של מודלים קנייניים מהשורה הראשונה כמו GPT-4. ‘זו הייתה בערך הפעם הראשונה שבה שקלנו, אה, אולי קורה משהו ממש שונה במודלים של קוד פתוח’, ציין Buckley, והסביר את המוטיבציה להעמיד את Llama 3.1 405B למבחן בתחום הרפואי.
תכנון העתיד: מחקר ושילוב בעולם האמיתי
האישור שמודלי קוד פתוח בעלי ביצועים גבוהים הם ברי קיימא למשימות רפואיות רגישות נושא השלכות עמוקות. כפי שהדגיש פרופסור Manrai, המחקר ‘פותח ומאפשר הרבה מחקרים וניסויים חדשים’. היכולת לעבוד ישירות עם נתוני מטופלים בתוך רשתות בתי חולים מאובטחות, ללא המכשולים האתיים והלוגיסטיים של שיתוף נתונים חיצוני, מסירה צוואר בקבוק מרכזי למחקר AI קליני.
דמיינו את האפשרויות:
- תמיכה בהחלטות בזמן אמת: כלי AI המשולבים ישירות במערכות רשומות רפואיות אלקטרוניות (EHR), המנתחים נתוני מטופלים נכנסים בזמן אמת כדי להציע אבחנות פוטנציאליות, לסמן ערכי מעבדה קריטיים או לזהות אינטראקציות תרופתיות פוטנציאליות, כל זאת בזמן שהנתונים נשארים מאובטחים בתוך מערכת בית החולים.
- מחזורי מחקר מואצים: חוקרים יכולים לבדוק ולעדן במהירות השערות AI באמצעות מאגרי נתונים מקומיים גדולים, מה שעשוי להאיץ את גילוי סמנים אבחוניים חדשים או יעילות טיפולים.
- פיתוח כלים היפר-מתמחים: צוותים יכולים להתמקד בבניית עוזרי AI עבור התמחויות רפואיות נישתיות או פרוצדורות ספציפיות ומורכבות, שאומנו על נתונים פנימיים רלוונטיים ביותר.
הפרדיגמה משתנה, כפי ש-Manrai ניסח זאת בתמציתיות: ‘עם מודלי הקוד הפתוח האלה, אתה יכול להביא את המודל לנתונים, בניגוד לשליחת הנתונים שלך למודל’. לוקליזציה זו מעצימה מוסדות בריאות וחוקרים, מטפחת חדשנות תוך שמירה על תקני פרטיות מחמירים.
האלמנט האנושי ההכרחי: AI כטייס משנה, לא כקברניט
למרות הביצועים המרשימים והפוטנציאל המבטיח של כלי AI כמו Llama 3.1 405B, החוקרים המעורבים ממהרים למתן את ההתלהבות במידה מכרעת של ריאליזם. בינה מלאכותית, לא משנה כמה מתוחכמת, אינה עדיין – ואולי לעולם לא תהיה – תחליף לקלינאים אנושיים. הן Manrai והן Buckley הדגישו כי פיקוח אנושי נותר חיוני לחלוטין.
למודלי AI, כולל LLMs, יש מגבלות מובנות:
- חוסר הבנה אמיתית: הם מצטיינים בזיהוי תבניות וסינתזת מידע המבוססים על נתוני האימון שלהם, אך חסרה להם אינטואיציה קלינית אמיתית, שכל ישר, והיכולת להבין את הניואנסים של הקשר חייו של המטופל, מצבו הרגשי או רמזים לא מילוליים.
- פוטנציאל להטיה: מודלי AI יכולים לרשת הטיות הקיימות בנתוני האימון שלהם, מה שעלול להוביל להמלצות או אבחנות מוטות, במיוחד עבור קבוצות מטופלים שאינן מיוצגות מספיק. מודלים של קוד פתוח מציעים יתרון פוטנציאלי כאן, שכן לעיתים ניתן לבחון את נתוני האימון והתהליכים מקרוב יותר, אך הסיכון נותר בעינו.
- ‘הזיות’ ושגיאות: ידוע ש-LLMs מייצרים מדי פעם מידע שנשמע סביר אך שגוי (מה שמכונה ‘הזיות’). בהקשר רפואי, לשגיאות כאלה עלולות להיות השלכות חמורות.
- חוסר יכולת להתמודד עם חידוש: בעוד שהם יכולים לעבד דפוסים ידועים, AI עשוי להתקשות עם הצגות חדשות באמת של מחלות או שילובים ייחודיים של תסמינים שאינם מיוצגים היטב בנתוני האימון שלהם.
לכן, תפקידם של רופאים ואנשי מקצוע אחרים בתחום הבריאות אינו פוחת אלא משתנה. הם הופכים למאמתים, למפרשים ולקובעי ההחלטות הסופיים והחיוניים. ‘המשתפים הקליניים שלנו היו חשובים מאוד, מכיוון שהם יכולים לקרוא את מה שהמודל מייצר ולהעריך אותו איכותית’, הסביר Buckley. הפלט של ה-AI הוא רק הצעה, פיסת נתונים שיש להעריך באופן ביקורתי בתוך התמונה הקלינית הרחבה יותר. ‘תוצאות אלו אמינות רק כאשר ניתן להעריך אותן על ידי רופאים’.
Manrai הדהד תחושה זו, וראה ב-AI לא אבחון אוטונומי, אלא עוזר בעל ערך. בהודעה לעיתונות קודמת, הוא מסגר כלים אלה כ’טייסי משנה יקרי ערך עבור קלינאים עסוקים’ פוטנציאליים, בתנאי שהם ‘משמשים בחוכמה ומשולבים באחריות בתשתית הבריאות הנוכחית’. המפתח טמון בשילוב מתחשב, שבו AI מגביר את היכולות האנושיות – אולי על ידי סיכום מהיר של היסטוריות מטופלים נרחבות, הצעת אבחנות מבדלות למקרים מורכבים, או סימון סיכונים פוטנציאליים – במקום לנסות להחליף את שיקול הדעת של הקלינאי.
‘אך נותר חיוני שרופאים יעזרו להניע את המאמצים הללו כדי לוודא ש-AI עובד עבורם’, הזהיר Manrai. הפיתוח והפריסה של AI קליני חייבים להיות מאמץ משותף, המונחה על ידי הצרכים והמומחיות של אלה הנמצאים בחזית הטיפול בחולים, תוך הבטחה שהטכנולוגיה משרתת, ולא מכתיבה, את הפרקטיקה הרפואית. מחקר הרווארד מדגים שכלים חזקים ובטוחים הופכים לזמינים; הצעד הקריטי הבא הוא לרתום אותם באחריות.