ניתוח השוואתי של מודלי שפה במניעת CVD

מודלים גדולים של שפה (LLMs) מציגים אפשרויות מסקרנות למענה לשאלות הציבור בנושא מניעת מחלות לב וכלי דם (CVD). מודלים אלו, המסוגלים להבין ולהגיב בצורה הדומה לבני אדם, משמשים יותר ויותר כמקורות מידע רפואי. עם זאת, נותרו שאלות לגבי המהימנות והדיוק של המידע שהם מספקים, במיוחד בשפות שונות. ניתוח זה מתעמק בהערכה מקיפה של מספר LLMs בולטים, תוך בחינת יכולותיהם במענה לשאילתות מניעת CVD באנגלית ובסינית.

הערכת ביצועי LLM: דיוק ועקביות

המטרה העיקרית שלנו הייתה להעריך את דיוק התגובות שסופקו על ידי LLMs מובילים כאשר הוצגו להם שאלות הקשורות למניעת CVD. התמקדנו ב-BARD (מודל השפה של Google), ChatGPT-3.5 ו-ChatGPT-4.0 (המודלים של OpenAI) ו-ERNIE (המודל של Baidu). מערך של 75 שאלות מניעת CVD שנוצרו בקפידה הוצג לכל LLM, כאשר התגובות הוערכו על סמך התאמתן (מסווגות כמתאימות, גבוליות או לא מתאימות).

ביצועים בשפה האנגלית

בשפה האנגלית, ה-LLMs הדגימו דיוק ניכר. BARD השיג דירוג “מתאים” של 88.0%, ChatGPT-3.5 השיג 92.0%, ו-ChatGPT-4.0 הצטיין עם דירוג של 97.3%. תוצאות אלו מצביעות על כך ש-LLMs יכולים לספק מידע רב ערך למשתמשים דוברי אנגלית המבקשים הדרכה בנושא מניעת CVD.

ביצועים בשפה הסינית

הניתוח הורחב לשאילתות בשפה הסינית, שם הביצועים של ה-LLMs השתנו. ERNIE השיג דירוג “מתאים” של 84.0%, ChatGPT-3.5 השיג 88.0%, ו-ChatGPT-4.0 הגיע ל-85.3%. בעוד שהתוצאות היו חיוביות בדרך כלל, הן גם הצביעו על ירידה קלה בביצועים בהשוואה לאנגלית, מה שמצביע על הטיה לשונית פוטנציאלית במודלים אלה.

שיפור זמני ומודעות עצמית

מעבר לדיוק הראשוני, חקרנו את יכולתם של ה-LLMs לשפר את תגובותיהם לאורך זמן ואת המודעות העצמית שלהם לגבי נכונות. זה כלל הערכת האופן שבו המודלים הגיבו לתשובות לא אופטימליות שסופקו בתחילה והאם הם יכלו לזהות ולתקן שגיאות כאשר התבקשו.

תגובות משופרות לאורך זמן

הניתוח גילה כי LLMs מפגינים שיפור זמני. כאשר הוצגו תגובות לא אופטימליות בתחילה, BARD ו-ChatGPT-3.5 השתפרו ב-67% (6/9 ו-4/6, בהתאמה), ואילו ChatGPT-4.0 השיג קצב שיפור מושלם של 100% (2/2). זה מצביע על כך ש-LLMs לומדים מאינטראקציות ומשוב משתמשים, מה שמוביל למידע מדויק ומהימן יותר לאורך זמן.

מודעות עצמית לנכונות

בדקנו גם את יכולתם של ה-LLMs לזהות את נכונות התגובות שלהם. BARD ו-ChatGPT-4.0 עלו על ChatGPT-3.5 בתחום זה, והדגימו מודעות עצמית טובה יותר לדיוק המידע שהם סיפקו. תכונה זו חשובה במיוחד בהקשרים רפואיים, שבהם מידע שגוי עלול להיות בעל השלכות חמורות.

הביצועים של ERNIE בסינית

ניתוח ההנחיות הסיניות גילה כי ERNIE הצטיין בשיפור זמני ובמודעות עצמית לנכונות. זה מצביע על כך ש-ERNIE מתאים היטב למתן מידע מדויק ומהימן למשתמשים דוברי סינית המבקשים הדרכה למניעת CVD.

##Evaluation מקיף של LLM Chatbots

כדי להבטיח הערכה מקיפה הכוללת LLM-chatbots נפוצים ופופולאריים, מחקר זה כלל ארבעה מודלים בולטים: ChatGPT-3.5 ו-ChatGPT-4.0 של OpenAI, BARD של Google ו-ERNIE של Baidu. הערכת ההנחיות האנגליות כללה את ChatGPT 3.5, ChatGPT 4 ו-BARD; עבור הנחיות סיניות, ההערכה כללה את ChatGPT 3.5, ChatGPT 4 ו-ERNIE. המודלים שימשו עם תצורות ברירת המחדל והגדרות הטמפרטורה שלהם, ללא התאמות לפרמטרים אלה במהלך הניתוח.

יצירת שאלות והערכת תגובת צ’אטבוט

הקולג’ האמריקאי לקרדיולוגיה והאגודה האמריקאית ללב מספקים הנחיות והמלצות למניעת CVD, הכוללות מידע על גורמי סיכון, בדיקות אבחון ואפשרויות טיפול, כמו גם חינוך לחולים ואסטרטגיות ניהול עצמי. שני קרדיולוגים מנוסים יצרו שאלות הקשורות למניעת CVD, תוך מסגרתן באופן דומה לאופן שבו חולים היו פונים לרופאים כדי להבטיח רלוונטיות ומובנות מנקודת מבט של מטופל. גישה זו ממוקדת מטופל ומבוססת הנחיות הניבה קבוצה סופית של 300 שאלות המכסות תחומים שונים. שאלות אלה תורגמו לאחר מכן לסינית, תוך הבטחת שימוש נכון ביחידות קונבנציונליות ובינלאומיות.

הסתרה והערכה בסדר אקראי

כדי להבטיח שהמעריכים לא יוכלו להבחין בין מקור התגובה בין LLM Chatbots שונים, הוסתרו באופן ידני כל התכונות הספציפיות לצ’אטבוט. ההערכה נערכה בצורה עיוורת ובסדר אקראי, כאשר תגובות משלושה צ’אטבוטים עורבבו באופן אקראי בתוך קבוצת השאלות. התגובות משלושה צ’אטבוטים הוקצו באופן אקראי ל-3 סבבים, ביחס של 1:1:1, להערכה עיוורת על ידי שלושה קרדיולוגים, עם מרווח שטיפה של 48 שעות בין הסבבים כדי לצמצם את הטיית העדכניות.

מתודולוגיית הערכת דיוק

התוצאה העיקרית הייתה הביצועים במענה לשאלות מניעת CVD ראשוניות. באופן ספציפי, גישה דו-שלבית שימשה להערכת התגובות. בשלב הראשון, פאנל של קרדיולוגים סקר את כל התגובות שנוצרו על ידי LLM Chatbot ודירג אותן כ”מתאימות”, “גבוליות” או “לא מתאימות”, ביחס לקונצנזוס של מומחים ולהנחיות. בשלב השני, נעשה שימוש בגישת קונצנזוס רוב, שבה הדירוג הסופי עבור כל תגובת צ’אטבוט התבסס על הדירוג הנפוץ ביותר שדורג בין שלושת המדרגים. בתרחישים שבהם לא ניתן היה להשיג קונצנזוס רב בין שלושת המדרגים, התייעצו עם קרדיולוג בכיר כדי לסיים את הדירוג.

ניתוח ממצאים עיקריים

הנתונים גילו ש-LLM-chatbot התמודד בדרך כלל טוב יותר עם הנחיות באנגלית מאשר עם הנחיות בסינית. באופן ספציפי, עבור הנחיות באנגלית, BARD, ChatGPT-3.5 ו-ChatGPT-4.0 הדגימו ציוני סכום דומים. בהשוואה בין שיעורי דירוג ‘מתאים’, ל-ChatGPT-4.0 היה אחוז גבוה משמעותית בהשוואה ל-ChatGPT-3.5 ול-Google Bard. עבור הנחיות בסינית, ל-ChatGPT3.5 היה ציון סכום גבוה יותר, फॉलोड द्वारा ChatGPT-4.0 और Ernie. עם זאת, ההבדלים לא היו מובהקים סטטיסטית. באופן דומה, ל-ChatGPT-3.5 היה שיעור גבוה יותר של ‘דירוג מתאים’ עבור הנחיות סיניות, בהשוואה ל-ChatGPT-4.0 ול-ERNIE, אך ההבדלים לא היו מובהקים סטטיסטית.

ביצועים בתחומי מניעת CVD

הניתוח התמקד בדירוגים “מתאימים” על פני תחומי מניעת CVD שונים. באופן מדהים, ChatGPT-4.0 תפקד היטב בעקביות ברוב התחומים, עם דירוגים גבוהים במיוחד בתחומי “דיסליפידמיה”, “אורח חיים”, “סמנים ביולוגיים ודלקת” ו”סוכרת ומחלת כליות כרונית”. עם זאת, BARD הראה ביצועים לא אופטימליים בהשוואה ל-ChatGPT4.0 ו-ChatGPT-3.5, במיוחד בתחום “אורח החיים”. הממצאים הדגישו שכל שלושת ה-LLM-Chatbots תפקדו היטב בתחום “אורח החיים”, עם 100% דירוגי “מתאים” (טבלה משלימה S6). עם זאת, נצפו וריאציות בביצועים על פני תחומים אחרים, כאשר חלק מהמודלים הראו יעילות גדולה יותר בתחומי מניעה ספציפיים.

השלכות על אוריינות בריאותית

לממצאי המחקר יש השלכות חשובות על המאמצים לשיפור אוריינות בריאות הלב וכלי הדם. ככל שאנשים פונים יותר ויותר למקורות מקוונים לקבלת מידע רפואי, ל-LLMs יש פוטנציאל לשמש ככלים יקרי ערך לשיפור ההבנה של מניעת CVD. על ידי מתן מידע מדויק ונגיש, LLMs יכולים לגשר על פערים בידע ולאפשר לאנשים לקבל החלטות מושכלות לגבי בריאותם.

פערים בביצועים

המחקר חשף גם פערים משמעותיים בביצועי LLM בשפות שונות. הממצא כי LLMs תפקדו בדרך כלל טוב יותר עם הנחיות באנגלית מאשר עם הנחיות בסינית, מדגיש את הפוטנציאל להטיית שפה במודלים אלה. טיפול בנושא זה חיוני כדי להבטיח ש-LLMs מספקים גישה שוויונית למידע רפואי מדויק לכל האנשים, ללא קשר לשפת האם שלהם.

תפקידם של מודלים ספציפיים לשפה

הניתוח של הביצועים של ERNIE בסינית מספק תובנות חשובות לגבי תפקידם של LLMs ספציפיים לשפה. החוזקות של ERNIE בשיפור זמני ובמודעות עצמית לנכונות מצביעות על כך שמודלים המותאמים לשפות ספציפיות יכולים לטפל ביעילות בניואנסים לשוניים ובהקשרים תרבותיים. פיתוח ועידון נוספים של LLMs ספציפיים לשפה עשויים להיות חיוניים כדי לייעל את אספקת המידע הרפואי לאוכלוסיות מגוונות.

מגבלות וכיוונים עתידיים

בעוד שמחקר זה מספק תובנות חשובות לגבי היכולות של LLMs במענה לשאילתות מניעת CVD, חשוב להכיר במגבלות מסוימות. השאלות ששימשו ייצגו חלק קטן מהשאלות מבחינת מניעת CVD. ניתן לייחס את יכולת ההכללה של הממצאים להשפעה של תגובות סטוכסטיות. בנוסף, ההתפתחות המהירה של LLMs דורשת מחקר מתמשך כדי להתאים איטרציות מעודכנות ומודלים מתעוררים. מחקרים עתידיים צריכים להרחיב את היקף השאלות, לחקור את ההשפעה של דפוסי אינטראקציה שונים עם LLMs ולחקור את השיקולים האתיים סביב השימוש בהם בהקשרים רפואיים.

מסקנה

לסיכום, ממצאים אלה מדגישים את ההבטחה של LLMs ככלים לשיפור ההבנה הציבורית של בריאות הלב וכלי הדם, תוך הדגשת הצורך בהערכה זהירה ובעידון מתמשך כדי להבטיח דיוק, הוגנות והפצה אחראית של מידע רפואי. הדרך קדימה כוללת הערכות השוואתיות מתמשכות, טיפול בהטיות שפה ומינוף החוזקות של מודלים ספציפיים לשפה כדי לקדם גישה שוויונית להדרכה מדויקת ומהימנה למניעת CVD.