מבוא
בשנים האחרונות, ההתקדמות הטכנולוגית בתחום הבינה המלאכותית (AI) ומודלים שפתיים גדולים (LLM) מביאה עמה פוטנציאל לשינוי משמעותי בחינוך הרפואי ובשיטות הערכת הידע. במיוחד, התפתחויות אלו יכולות להפוך את המידע הרפואי לנגיש יותר ולהפוך את ההערכות לאינטראקטיביות יותר.
מחקרים קודמים בחנו את הביצועים של LLM בבחינות רישוי רפואיות שונות, כגון בחינת רישוי הרופאים של ארצות הברית (USMLE) ובחינת רישוי הרופאים היפנית (JMLE), אך בחינות אלו שונות באופן משמעותי מה-TUS במבנה ובתוכן. ה-TUS מתמקד במדעי היסוד ובמדעי הקליניקה, תוך שימת לב מיוחדת להקשר הרפואי הטורקי, מה שמספק הזדמנות ייחודית להעריך את יכולות ה-LLM בסביבת הערכה ייחודית. מחקר זה נועד למלא את הפער הזה על ידי הערכת הביצועים של ארבעה LLM מובילים ב-TUS. בנוסף, מחקר זה בוחן את ההשלכות הפוטנציאליות של ממצאים אלו על תכנון הלימודים, הכשרה רפואית בסיוע AI ועתיד ההערכה הרפואית בטורקיה. באופן ספציפי, אנו בוחנים כיצד הביצועים של LLM יכולים ליידע פיתוח של משאבי חינוך ואסטרטגיות הערכה יעילות יותר, המותאמות לתכנית הלימודים הרפואית הטורקית. בחינה זו לא רק תורמת להבנת הביצועים של שפות ספציפיות, אלא גם לדיון רחב יותר על האופן שבו ניתן לשלב בינה מלאכותית ביעילות בחינוך ובהערכה רפואית גלובלית.
תוצאות מחקרים אלה מצביעות על כך ש-ChatGPT ו-LLM דומים יכולים למלא תפקיד משמעותי בתהליכי חינוך רפואי והערכת ידע. בינה מלאכותית ו-LLM בשיטות אחזור מידע רפואי והערכה יכולים לאפשר פיתוח של גישות חדשניות ושיטות למידה, במיוחד בחינוך רפואי. מחקר זה נועד לחקור עוד יותר את ההשפעה של LLM על חינוך רפואי והערכת ידע על ידי הערכת הביצועים של ChatGPT 4, Gemini 1.5 Pro ו-Cohere-Command R+ בבחינת הכניסה להתמחות רפואית בטורקיה.
מחקר זה בוחן את היישומים של מודלים מתקדמים של בינה מלאכותית (AI), במיוחד ChatGPT 4, Gemini 1.5 Pro, Command R+ ו-Llama 3 70B, בחינוך ובהערכה רפואית, תוך התמקדות בביצועיהם בפתרון שאלות בבחינות רפואיות מקצועיות. המחקר מעריך את יכולתם של מודלים אלה לבצע ניתוח מקיף ושיטתי של שאלות מבחינת הכניסה להתמחות רפואית בטורקיה, תוך הדגשת הפוטנציאל של AI ברפואה, תוך התחשבות בגורמים כמו יכולת הסבר ודיוק. התוצאות מצביעות על כך שמודלים של AI יכולים לתרום באופן משמעותי לתהליכי חינוך והערכה רפואית, ולסלול את הדרך ליישומים חדשים ותחומי מחקר. המטרה העיקרית של מאמר זה היא להעריך את ההתקדמות המהירה בטכנולוגיות AI ולהשוות את יכולות התגובה של מודלים שונים של AI. המחקר מבצע ניתוח השוואתי של ChatGPT 4, Gemini 1.5 Pro, Command R+ ו-Llama 3 70B, תוך הערכת הביצועים שלהם ב-240 שאלות מבחינת הכניסה להתמחות רפואית בטורקיה במחצית הראשונה של 2021.
השוואה זו נועדה להבהיר את מסלול ההתפתחות וההבדלים של טכנולוגיות AI, תוך התמקדות בתועלת שלהן בתחומים מיוחדים כמו חינוך רפואי והכנה לבחינות. המטרה הסופית היא לספק תובנות שיעזרו למשתמשים לבחור את כלי הלמידה המתאימים ביותר לצרכים הספציפיים שלהם.
שיטות
השאלות הוצגו ל-LLM בשפה הטורקית. השאלות התקבלו מהאתר הרשמי של מרכז הבחירה וההשמה של סטודנטים, והוצגו בפורמט של שאלות רב-ברירתיות (עם חמש אפשרויות A עד E), כאשר רק תשובה אחת היא הטובה ביותר. התשובות ניתנו על ידי ה-LLM בשפה הטורקית.
תהליך ההערכה התבסס על התשובות הנכונות שפורסמו על ידי מרכז הבחירה וההשמה של סטודנטים. במאמר נכתב: ‘התשובה ה’נכונה’ לשאלות של מודל הבינה המלאכותית הוגדרה על פי התשובות שפורסמו על ידי מרכז הבחירה וההשמה של סטודנטים. רק תשובות שזוהו כנכונות על פי ההוראות בטקסט השאלה התקבלו כ’נכונות’’. מכיוון שהשאלות והתשובות היו בשפה הטורקית, תהליך ההערכה כלל השוואת התשובות הטורקיות של ה-LLM עם מפתח התשובות הטורקי הרשמי שסופק על ידי מרכז הבחירה וההשמה של סטודנטים.
מערך נתונים לחינוך רפואי
מחקר זה משתמש ב-ChatGPT 4, Gemini 1.5 Pro, Command R+ ו-Llama 3 70B כדי לבדוק את יכולותיהם של מודלים של בינה מלאכותית בהערכת ידע ומקרים רפואיים. המחקר בוצע על שאלות מבחינת הכניסה להתמחות רפואית בטורקיה שנערכה ב-21 במרץ 2021. בחינת הכניסה להתמחות רפואית בטורקיה היא בחינה שאורגנה על ידי מרכז הבחירה וההשמה של סטודנטים וכוללת 240 שאלות. שאלות ידע בסיסי בקטגוריה הראשונה בודקות את הידע והאתיקה הנדרשים להשלמת השכלה רפואית. הקטגוריה השנייה היא שאלות מקרים המכסות מספר מחלות המודדות חשיבה אנליטית ויכולת ניתוח.
סיווג קושי שאלות
רמות הקושי של השאלות סווגו על סמך נתוני ביצועי הנבחנים הרשמיים שפורסמו על ידי מרכז הבחירה וההשמה של סטודנטים. באופן ספציפי, שיעור התשובות הנכונות לכל שאלה שדווח על ידי המרכז שימש לסיווג השאלות לחמש רמות קושי:
- רמה 1 (הקלה ביותר): שאלות עם שיעור תשובות נכונות של 80% ומעלה.
- רמה 2: שאלות עם שיעור תשובות נכונות בין 60% ל-79.9%.
- רמה 3 (בינונית): שאלות עם שיעור תשובות נכונות בין 40% ל-59.9%.
- רמה 4: שאלות עם שיעור תשובות נכונות בין 20% ל-39.9%.
- רמה 5 (הקשה ביותר): שאלות עם שיעור תשובות נכונות של 19.9% ומטה.
התשובה ה’נכונה’ לשאלות של מודל הבינה המלאכותית הוגדרה על פי התשובות שפורסמו על ידי מרכז הבחירה וההשמה של סטודנטים. רק תשובות שזוהו כנכונות על פי ההוראות בטקסט השאלה התקבלו כ’נכונות’. בנוסף, רמת הקושי של כל שאלה סווגה לרמות 1 עד 5 בהתבסס על שיעור התשובות הנכונות שפורסם על ידי מרכז הבחירה וההשמה של סטודנטים. שאלות עם שיעור תשובות נכונות של 80% ומעלה נחשבו לקלות ביותר (רמה 1), ואילו שאלות עם שיעור תשובות נכונות של 19.9% ומטה נחשבו לקשות ביותר (רמה 5).
תחומי ידע ומקרים
בחינת הכניסה להתמחות רפואית בטורקיה היא צעד מכריע עבור בוגרי רפואה טורקים המתמחים, והיא מעריכה את הידע של הנבחנים ואת תחומי המקרים בשני תחומים מרכזיים. הבנת ההבדלים בין תחומים אלה חיונית להכנה נאותה. תחום הידע מתמקד בהערכת ההבנה התיאורטית של הנבחן וידע עובדתי בתחום הרפואה שבחר. הוא בודק את השליטה במושגי יסוד ועקרונות, ומבסס מידע רפואי הרלוונטי להתמחות. הוא מייצג את תחום הידע הרפואי הספציפי הנבדק, כגון מדעי הרפואה הבסיסיים (אנטומיה, ביוכימיה, פיזיולוגיה וכו’) ומדעי הקליניקה (רפואה פנימית, כירורגיה, רפואת ילדים וכו’) תחום המקרים, לעומת זאת, מייצג תרחישים או מצבים אמיתיים של יישום ידע, כגון פתרון בעיות, חשיבה אנליטית, חשיבה ביקורתית, קבלת החלטות ויישום מושגים למצבים אמיתיים.
הנדסת הנחיות
הנדסת הנחיות היא תכנון וכוונון עדין של הנחיות בשפה טבעית כדי לקבל תגובות ספציפיות ממודל שפה או ממערכת AI. באפריל 2024, אספנו תגובות על ידי שאילת שאילתות ישירות למודלים של שפה דרך ממשקי האינטרנט שלהם.
כדי להבטיח הערכה הוגנת של היכולות המקוריות של כל מודל, יושמה בקרה מתודולוגית קפדנית באופן הצגת השאלות ל-LLM. כל שאלה הוזנה בנפרד, וההפעלה אופסה לפני הצגת שאלה חדשה כדי למנוע מהמודל ללמוד או להסתגל על סמך אינטראקציות קודמות.
ניתוח נתונים
כל הניתוחים בוצעו באמצעות Microsoft Office Excel ותוכנת Python. כדי להשוות את הביצועים של LLM ברמות קושי שונות של שאלות, בוצע מבחן חי בריבוע לא מזווג. סף ערך p של p < 0.05 שימש לקביעת מובהקות סטטיסטית. הניתוח העריך אם דיוק המודל משתנה בהתאם לרמת הקושי של השאלה.
שיקולים אתיים
מחקר זה השתמש רק במידע שפורסם באינטרנט ואינו מערב נבדקים אנושיים. לכן, אין צורך באישור ועדת האתיקה של אוניברסיטת Baskent.
תוצאות
מספר התשובות הנכונות הממוצע של נבחנים שנבחנו בבחינת מדעי הרפואה הבסיסיים בסמסטר הראשון של בחינת הכניסה להתמחות רפואית בטורקיה בשנת 2021 היה 51.63. מספר התשובות הנכונות הממוצע לבחינת מדעי הרפואההקליניים היה 63.95. מספר התשובות הנכונות הממוצע לבחינת מדעי הרפואה הקליניים היה גבוה מבחינת מדעי הרפואה הבסיסיים. במקביל למצב זה, טכנולוגיות הבינה המלאכותית גם הצליחו יותר לענות על בחינת מדעי הרפואה הקליניים.
ביצועי AI
ביצועי פלטפורמות ה-AI הוערכו באמצעות מדדים זהים לאלו של נבחנים אנושיים.
ChatGPT 4:
ChatGPT 4 השיג ציון ממוצע של 103 תשובות נכונות בחלק מדעי הרפואה הבסיסיים וציון ממוצע של 110 תשובות נכונות בחלק מדעי הרפואה הקליניים. זה מייצג דיוק כולל של 88.75%, שהוא טוב משמעותית מהנבחנים האנושיים הממוצעים בשני החלקים (p < 0.001).
Llama 3 70B:
Llama 3 70B השיג ציון ממוצע של 95 תשובות נכונות בחלק מדעי הרפואה הבסיסיים וציון ממוצע של 95 תשובות נכונות בחלק מדעי הרפואה הקליניים. זה מייצג דיוק כולל של 79.17%, שהוא גם גבוה משמעותית מהביצועים האנושיים הממוצעים (p < 0.01).
Gemini 1.5 Pro:
Gemini 1.5 Pro השיג ציון ממוצע של 94 תשובות נכונות בחלק מדעי הרפואה הבסיסיים וציון ממוצע של 93 תשובות נכונות בחלק מדעי הרפואה הקליניים. זה מייצג דיוק כולל של 78.13%, שהוא גבוה משמעותית מהביצועים האנושיים הממוצעים (p < 0.01).
Command R+:
Command R+ השיג ציון ממוצע של 60 תשובות נכונות בחלק מדעי הרפואה הבסיסיים וציון ממוצע של 60 תשובות נכונות בחלק מדעי הרפואה הקליניים. זה מייצג דיוק כולל של 50%, שאינו שונה משמעותית מהביצועים האנושיים הממוצעים בחלק מדעי הרפואה הבסיסיים (p = 0.12), אך נמוך משמעותית בחלק מדעי הרפואה הקליניים (p < 0.05).
ביצועי פלטפורמות ה-AI הוערכו באמצעות מדדים זהים לאלו של נבחנים אנושיים.
תרשים 3 משווה את הדיוק של LLM שונים בהתבסס על קושי השאלה - ChatGPT 4: המודל בעל הביצועים הטובים ביותר. ככל שקושי השאלה גדל, הדיוק גדל, גם בשאלות המאתגרות ביותר הוא מתקרב ל-70% - Llama 3 70B: מודל עם ביצועים בינוניים. ככל שקושי השאלה גדל, הדיוק גדל תחילה ואז יורד. בשאלות המאתגרות ביותר, הדיוק שלו הוא כ-25%. Gemini 1.5 70B: הביצועים שלו דומים ל-Llama 3 70B. ככל שקושי השאלה גדל, הדיוק גדל תחילה ואז יורד. בשאלות המאתגרות ביותר, הדיוק שלו הוא כ-20%. Command R+: מודל עם הביצועים הנמוכים ביותר. הדיוק שלו יורד ככל שקושי השאלה גדל, והוא נשאר בסביבות 15% בשאלות המאתגרות ביותר
לסיכום, ChatGPT 4 הוא המודל הפחות מושפע מקושי השאלה והוא בעל הדיוק הכולל הגבוה ביותר. Llama 3 70B ו-Gemini 1.5 Pro בעלי ביצועים בינוניים, ואילו ל-Command R+ יש שיעור הצלחה נמוך יותר משאר המודלים. ככל שקושי השאלה גדל, דיוק המודלים יורד. זה מצביע על כך של-LLM עדיין יש מקום לשיפור בהבנה וענייה נכונה על שאלות מורכבות
בטבלה 1, מודל ChatGPT 4 בולט כמודל בעל הביצועים הטובים ביותר עם שיעור הצלחה של 88.75%. זה מצביע על כך שיש לו יכולת מוצקה להבין ולענות על שאלות בצורה מדויקת. מודל Llama 3 70B מגיע למקום השני עם שיעור הצלחה של 79.17%. למרות שהוא מפגר אחרי מודל ChatGPT 4, הוא עדיין מפגין רמה גבוהה של מיומנות במענה על שאלות. מודל Gemini 1.5 Pro מגיע מיד אחר כך עם שיעור הצלחה של 78.13%. הביצועים שלו דומים למודל Llama 3 70B, מה שמצביע על כך שיש לו יכולות חזקות של מענה על שאלות. מצד שני, מודל Command R+ מפגר אחרי שאר המודלים עם שיעור הצלחה של 50%. זה מצביע על כך שהוא עלול להיתקל בקשיים בשאלות מסוימות, או שהוא זקוק לכוונון עדין נוסף כדי לשפר את הביצועים. התפלגות התשובות הנכונות ברמות קושי שונות. לדוגמה, כל המודלים הצליחו בשאלות קלות (רמת קושי 1), כאשר מודל ChatGPT 4 השיג ציון מושלם. בשאלות בדרגת קושי בינונית (רמות 2 ו-3), מודלי ChatGPT 4 ו-Llama 3 70B המשיכו להצליח.
לעומת זאת, מודל Gemini 1.5 Pro החל להראות כמה חולשות. בשאלות קשות (רמות 4 ו-5), הביצועים של כל המודלים ירדו, כאשר מודל Command R+ נאבק הכי הרבה. בסך הכל, תוצאות אלו מספקות תובנות חשובות לגבי החוזקות והחולשות של כל מודל AI, ויכולות ליידע עבודת פיתוח ושיפור עתידית
בטבלה 3, ביוכימיה במדעי הרפואה הבסיסיים השיגה ציון מושלם עבור ChatGPT 4, מה שמעיד על היכולת המצוינת שלו לענות על שאלות בתחום זה. Llama 3 70B ו-Gemini 1.5 Pro גם הצליחו, אך ל-Command R+ היו ביצועים ירודים עם דיוק של 50%. המודלים בעלי הביצועים הטובים ביותר בפרמקולוגיה, פתולוגיה ומיקרוביולוגיה (ChatGPT 4 ו-Llama 3 70B) הראו עקביות מידע חזקה, עם דיוק שנע בין 81% ל-90%. Gemini 1.5 Pro ו-Command R+ פיגרו מאחור, אך עדיין הצליחו. אנטומיה ופיזיולוגיה הציבו כמה אתגרים בפני המודלים. ChatGPT 4 ו-Meta AI-Llama 3 70B הצליחו, בעוד של-Gemini 1.5 Pro ו-Command R+ היה דיוק מתחת ל-70%, מה שמעיד על ביצועים ירודים.
רפואת ילדים במדעי הרפואה הקליניים הייתה קריטית לכל המודלים, כאשר ChatGPT 4 השיג ציון כמעט מושלם (90%). Llama 3 70B הגיע מיד אחריו, ואפילו Command R+ השיג דיוק של 43%. רפואה פנימית וכירורגיה כללית הציגו ביצועים טובים יותר מהמודלים הטובים ביותר, עם דיוק שנע בין 79% ל-90%. Gemini 1.5 Pro ו-Command R+ פיגרו מאחור, אך עדיין הצליחו. פחות שאלות הוגשו בתחומים כמו הרדמה והחייאה, רפואה דחופה, נוירולוגיה ודרמטולוגיה, אך המודלים הצליחו בסך הכל. ChatGPT 4 ו-Llama 3 70B הראו דיוק יוצא דופן בתחומים אלה
בנוגע להשוואת מודלים, ChatGPT 4 הוא המודל בעל הביצועים הטובים ביותר ברוב התחומים, עם דיוק כולל של 88.75%. היתרון שלו טמון ביכולתו לענות על שאלות במדעי הרפואה הבסיסיים והקליניים בצורה מדויקת. Llama 3 70B מגיע מיד אחריו, עם דיוק כולל של 79.17%. למרות שהוא לא יכול להתחרות לחלוטין בביצועים של ChatGPT 4, הוא עדיין מפגין עקביות מידע חזקה על פני תחומים שונים. Gemini 1.5 Pro ו-Command R+ מפגרים מאחור, עם דיוק כולל של 78.13% ו-50% בהתאמה. למרות שהם הראו הבטחה בתחומים מסוימים, הם התקשו לשמור על עקביות בכל התחומים
בקיצור, ChatGPT 4 הוא כרגע המודל המתאים ביותר לענות על שאלות במדעי הרפואה בתחומים שונים. Gemini 1.5 Pro ו-Command R+ מראים פוטנציאל, אך זקוקים לשיפור משמעותי כדי להתחרות במודלים בעלי הביצועים הטובים ביותר
בטבלה 4, בנוגע לתחום הידע, ChatGPT 4 השיג דיוק של 86.7% (85/98) במדעי הרפואה הבסיסיים, ועלה על שאר המודלים. ChatGPT 4 שוב הצליח, עם דיוק של 89.7% (61/68) במדעי הרפואה הקליניים. בנוגע לתחום המקרים, ChatGPT 4 השיג דיוק של 81.8% (18/22) במדעי הרפואה הבסיסיים. במדעי הרפואה הקליניים, ל-ChatGPT 4 היו ביצועים דומים, עם דיוק של 94.2% (49/52)
השוואות זוגיות של המודלים הראו ש-ChatGPT 4 הצליח משמעותית יותר משאר המודלים בשני התחומים וסוגי השאלות. ל-Llama 3 70B ול-Gemini 1.5 Pro היו ביצועים דומים, בעוד ש-Command R+ פיגר מאחור. על פי ניתוח זה, אנו יכולים להסיק ש-ChatGPT 4 הציג ביצועים יוצאי דופן בתחומי הידע והמקרים, כמו גם במדעי הרפואה הבסיסיים והקליניים.
ניתוח סטטיסטי
ביצועי ה-LLM נותחו באמצעות Microsoft Office Excel ו-Python (גרסה 3.10.2). כדי להשוות את הביצועים של המודלים ברמות קושי שונות של שאלות, בוצע מבחן חי בריבוע לא מזווג. טבלאות תלות נבנו עבור התשובות הנכונות והלא נכונות של כל מודל AI לפי רמת קושי, ומבחן חי בריבוע יושם כדי לקבוע אם יש הבדל משמעותי סטטיסטית בביצועים על פני רמות קושי. סף ערך p של <0.05 שימש לקביעת מובהקות סטטיסטית. ערך ה-p עבור ChatGPT 4 היה 0.00028, והוא היה משמעותי ב-p < 0.05, מה שמצביע על כך שיש הבדל משמעותי בביצועים על פני רמות קושי שונות. ערך ה-p עבור Gemini 1.5 Pro היה 0.047, והוא היה משמעותי ב-p < 0.05, מה שמצביע על כך שיש הבדל משמעותי בביצועים על פני רמות קושי שונות. ערך ה-p עבור Command R+ היה 0.197, והוא לא היה משמעותי ב-p < 0.05, מה שמצביע על כך שאין הבדל משמעותי בביצועים על פני רמות קושי שונות. ערך ה-p עבור Llama 3 70B: 0.118, ערך p: 0.118, והוא לא היה משמעותי ב-p < 0.05, מה שמצביע על כך שאין הבדל משמעותי בביצועים על פני רמות קושי שונות.
הדיוק של ChatGPT 4 ו-Gemini 1.5 Pro על פני קושי שאלות שונה הראה הבדלים משמעותיים סטטיסטית, מה שמצביע על כך שהביצועים שלהם משתנים משמעותית בהתאם לקושי השאלה. Command R+ ו-Llama 3 70B לא הראו הבדלי ביצועים משמעותיים ברמות קושי, מה שמצביע על כך שהביצועים עקביים יותר ללא קשר לקושי השאלה. תוצאות אלו עשויות להצביע על כך שלמודלים שונים יש חוזקות וחולשות שונות בטיפול במורכבות ובנושאים הקשורים לקשיים שונים.
דיון
ה-TUS הוא בחינה לאומית מכרעת עבור בוגרי רפואה טורקים המעוניינים בהכשרה מקצועית. הבחינה כוללת שאלות רבות ברירה המכסות מדעי יסוד ומדעי קליניקה, עם מערכת דירוג מרכזית הקובעת דירוגי תוכניות התמחות
בהערכת הביצועים של מודלים גדולים של שפה ב-TUS, GPT-4 הוא המודל בעל הביצועים הטובים ביותר. באופן דומה, ChatGPT הוא מודל AI רב עוצמה המציג ביצועים קרובים לרמה אנושית או גבוהה ממנה בתחום הכירורגיה, ועונה נכון על 71% ו-68% משאלות רבות ברירה SCORE ו-Data-B בהתאמה. יתר על כן, ChatGPT הצטיין בבחינות בריאות הציבור, עלה על שיעורי המעבר הנוכחיים וסיפק תובנות ייחודיות. ממצאים אלו מדגישים את הביצועים המעולים של GPT-4 ו-ChatGPT בהערכות רפואיות, ומדגימים את הפוטנציאל שלהם לשפר את החינוך הרפואי ואת הסיוע האבחוני הפוטנציאלי.
עבור מחנכים ומבחנים רפואיים, הדיוק הגובר של LLM מעלה שאלות חשובות לגבי עיצוב והערכת הבחינות. אם מודלים של AI יכולים לפתור בחינות רפואיות סטנדרטיות בדיוק רב, ייתכן שהערכות עתידיות יצטרכו לשלב שאלות של חשיבה מסדר גבוה יותר ושיפוט קליני החורגות מזכירה פשוטה. בנוסף, מוסדות רפואיים בטורקיה יכולים לחקור אסטרטגיות חינוך בסיוע AI, כגון מערכות למידה מותאמות אישית המתאימות חומרי למידה לצרכים האישיים של הסטודנטים.
מנקודת מבט לאומית, מחקר זה מדגיש את החשיבות הגוברת של AI בחינוך הרפואי בטורקיה. מכיוון ש-LLM אלה מצליחים בשאלות רפואיות בשפה הטורקית, הם יכולים לגשר על הפער בגישה למשאבי חינוך איכותיים עבור סטודנטים באזורים מוחלשים. יתר על כן, קובעי המדיניות צריכים לשקול כיצד לשלב מודלים של AI בתוכניות חינוך רפואי המשך ולמידה לאורך החיים עבור אנשי מקצוע בתחום הבריאות בטורקיה.
לסיכום, למרות שמודלי AI כמו ChatGPT-4 מציגים דיוק יוצא דופן, יש להעריך היטב את תפקידם בחינוך הרפואי. היתרונות הפוטנציאליים של למידה בסיוע AI הם עצומים, אך יישום נכון דורש הבטחה שכלים אלה ישמשו באחריות, באופן אתי ובשילוב עם מומחיות אנושית.
מגבלות
מחקר זה מספק תובנות חשובות לגבי הביצועים של מודלים גדולים של שפה (LLM) בבחינת הכניסה להתמחות רפואית בטורקיה (TUS), אך יש להכיר בכמה מגבלות חשובות כדי להכניס את הממצאים להקשר ולהנחות מחקר עתידי. ראשית, לא בטוח אם נתוני האימון של מודלי ה-AI המוערכים במחקר זה כללו שאלות TUS. מכיוון ששאלות TUS קודמות זמינות לציבור, השאלות המשמשות במחקר זה עשויות להיות חלק מנתוני האימון של המודלים. זה מעלה חששות לגבי השאלה האם הביצועים של המודלים משקפים הבנה אמיתית או רק יכולת לזכור שאלות ספציפיות. מחקרים עתידיים צריכים לפתח שיטות להערכת האם מודלי AI מציגים יכולות ניתוח אמיתיות או מסתמכים על מידע שנזכר.
שנית, למודלי AI יש פוטנציאל להציג הטיות הנובעות מנתוני האימון שלהם. הטיות אלו עשויות לנבוע מייצוג לא מאוזן של מצבים רפואיים, אוכלוסיות או נקודות מבט מסוימות בנתוני האימון. לדוגמה, הביצועים של המודלים בשפה הטורקית עשויים להיות שונים מאנגלית עקב הבדלים בכמות ובאיכות נתוני האימון הזמינים בכל שפה. יתר על כן, ייתכן שהמודלים לא יהיו מדויקים בעת מענה על שאלות הדורשות הבנה של שיטות רפואיות מקומיות או הקשר תרבותי בטורקיה. הטיות אלו עשויות להגביל את הכלליות של הממצאים ולהעלות חששות אתיים לגבי השימוש ב-AI בחינוך ובעיסוק רפואי.
מגבלה שלישית היא שהמחקר מתמקד רק בשאלות רבות ברירה. בפועל הקליני בעולם האמיתי, אנשי מקצוע בתחום הבריאות צריכים להיות בעלי מיומנויות כמו ניתוח מקרים מורכבים, פירוש ממצאים מעורפלים וקבלת החלטות בתנאי אי ודאות. יתר על כן, היכולת להעביר אבחנות, תוכניות טיפול וסיכונים בצורה ברורה וחומלת למטופלים ולעמיתים היא חיונית. היכולת של מודלי AI לבצע משימות אלו לא נבדקה, ויכולותיהם עשויות להיות מוגבלות על ידי העיצוב והאימון הנוכחיים שלהם. מחקרים עתידיים צריכים להעריך את מודלי ה-AI במצבים מציאותיים יותר, כגון הדמיות מקרים קליניים והערכות פתוחות.
רביעית, המחקר לא כלל שאלות פתוחות. שאלות פתוחות חיוניות להערכת מיומנויות קוגניטיביות מסדר גבוה יותר, כגון חשיבה ביקורתית, סינתזת מידע וניתוח קליני. סוגי שאלות אלו דורשים יכולת לייצר תגובות עקביות ורלוונטיות להקשר, ולא רק לבחור את האפשרות הנכונה מתוך רשימה. הביצועים של מודלי AI במשימות כאלה עשויים להיות שונים מאוד מהביצועים שלהם בשאלות רבות ברירה, המייצגות תחום חשוב למחקר עתידי