مقدمة
في السنوات الأخيرة، أحدثت التطورات التكنولوجية، مثل الذكاء الاصطناعي (AI) والنماذج اللغوية الكبيرة (LLM)، تحولات محتملة في التعليم الطبي وأساليب تقييم المعرفة. وعلى وجه الخصوص، يمكن لهذه التطورات أن تجعل المعلومات الطبية أسهل الوصول إليها، وأن تجعل التقييم أكثر تفاعلية.
استكشفت الدراسات السابقة أداء النماذج اللغوية الكبيرة في مختلف اختبارات الترخيص الطبي، مثل اختبار الترخيص الطبي للولايات المتحدة (USMLE) واختبار الترخيص الطبي الياباني (JMLE)، ولكن هذه الاختبارات تختلف اختلافًا كبيرًا عن TUS في الهيكل والمحتوى. يركز TUS على العلوم الأساسية والعلوم السريرية، مع اهتمام خاص بالسياق الطبي التركي، مما يوفر فرصة فريدة لتقييم قدرات النماذج اللغوية الكبيرة في بيئة تقييم فريدة. تهدف هذه الدراسة إلى سد هذه الفجوة من خلال تقييم أداء أربعة نماذج لغوية كبيرة رائدة في TUS. بالإضافة إلى ذلك، تستكشف هذه الدراسة الآثار المحتملة لهذه النتائج على تصميم المناهج الدراسية، والتدريب الطبي المدعوم بالذكاء الاصطناعي، ومستقبل التقييم الطبي في تركيا. على وجه التحديد، قمنا بالتحقيق في كيف يمكن لأداء النماذج اللغوية الكبيرة أن يفيد في تطوير موارد تعليمية واستراتيجيات تقييم أكثر فعالية ومصممة خصيصًا للمناهج الطبية التركية. لا تساهم هذه الدراسة في فهم أداء لغة معينة فحسب، بل تساهم أيضًا في المناقشة الأوسع حول كيفية دمج الذكاء الاصطناعي بشكل فعال في التعليم والتقييم الطبي العالميين.
تشير نتائج هذه الدراسات إلى أن ChatGPT والنماذج اللغوية الكبيرة المماثلة يمكن أن تلعب دورًا مهمًا في التعليم الطبي وعمليات تقييم المعرفة. يمكن للذكاء الاصطناعي والنماذج اللغوية الكبيرة في استرجاع المعلومات الطبية وأساليب التقييم أن يمكّن تطوير أساليب مبتكرة وأساليب التعلم، وخاصة في التعليم الطبي. تهدف هذه الدراسة إلى زيادة التحقيق في تأثير النماذج اللغوية الكبيرة على التعليم الطبي وتقييم المعرفة من خلال تقييم أداء ChatGPT 4 و Gemini 1.5 Pro و Cohere-Command R+ في امتحان القبول للإقامة الطبية في تركيا.
تستكشف هذه الدراسة تطبيق نماذج الذكاء الاصطناعي (AI) المتقدمة - وتحديدًا ChatGPT 4 و Gemini 1.5 Pro و Command R+ و Llama 3 70B - في التعليم والتقييم الطبي، مع التركيز على أدائها في حل أسئلة امتحانات التخصصات الطبية. قيمت الدراسة قدرة هذه النماذج على إجراء تحليل شامل ومنهجي لأسئلة امتحان القبول للإقامة الطبية في تركيا، مع تسليط الضوء على إمكانات الذكاء الاصطناعي في الطب عند النظر في عوامل مثل القدرة على التفسير والدقة. تشير النتائج إلى أن نماذج الذكاء الاصطناعي يمكن أن تعزز بشكل كبير عمليات التعليم والتقييم الطبي، مما يفتح طرقًا لتطبيقات جديدة ومجالات البحث. يتمثل الهدف الأساسي لهذه الورقة في تقييم التقدم السريع في تقنيات الذكاء الاصطناعي ومقارنة استجابات نماذج الذكاء الاصطناعي المختلفة. أجرت الدراسة تحليلًا مقارنًا لـ ChatGPT 4 و Gemini 1.5 Pro و Command R+ و Llama 3 70B، وتقييم أدائهم على 240 سؤالًا من الفصل الدراسي الأول لامتحان القبول للإقامة الطبية في تركيا لعام 2021.
تهدف هذه المقارنة إلى توضيح مسار التطور والاختلافات في تقنيات الذكاء الاصطناعي، مع التركيز على فائدتها في المجالات المتخصصة مثل التعليم الطبي والإعداد للامتحانات. الهدف النهائي هو تقديم رؤى تساعد المستخدمين على اختيار أدوات الدراسة الأنسب لاحتياجاتهم الخاصة.
المنهجية
تم طرح الأسئلة على النماذج اللغوية الكبيرة باللغة التركية. تم الحصول على هذه الأسئلة من الموقع الرسمي لمركز اختيار وتوظيف الطلاب، وكانت بتنسيق أسئلة الاختيار من متعدد (مع خمسة خيارات من A إلى E)، مع وجود إجابة واحدة فقط هي الأفضل. قدمت النماذج اللغوية الكبيرة الإجابات باللغة التركية.
تستند عملية التقييم إلى الإجابات الصحيحة التي نشرها مركز اختيار وتوظيف الطلاب. وذكر المقال: ‘تم تعريف الإجابات ‘الصحيحة’ لأسئلة نماذج الذكاء الاصطناعي بناءً على الإجابات التي نشرها مركز اختيار وتوظيف الطلاب. تم قبول الإجابات التي تم تحديدها على أنها صحيحة بناءً على التعليمات الواردة في نص السؤال فقط على أنها ‘صحيحة’’. نظرًا لأن الأسئلة والإجابات باللغة التركية، فقد تضمنت عملية التقييم مقارنة الإجابات التركية للنماذج اللغوية الكبيرة مع مفتاح الإجابات التركية الرسمي الذي قدمه مركز اختيار وتوظيف الطلاب.
مجموعة بيانات التعليم الطبي
استخدمت هذه الدراسة ChatGPT 4 و Gemini 1.5 Pro و Command R+ و Llama 3 70B لاختبار قدرة نماذج الذكاء الاصطناعي في تقييم المعرفة الطبية والحالات. أجريت الدراسة على أسئلة امتحان القبول للإقامة الطبية في تركيا الذي عقد في 21 مارس 2021. امتحان القبول للإقامة الطبية في تركيا هو امتحان ينظمه مركز اختيار وتوظيف الطلاب ويتكون من 240 سؤالاً. تختبر أسئلة المعرفة الأساسية في الفئة الأولى المعرفة والأخلاق المطلوبة لإكمال التعليم الطبي. الفئة الثانية هي أسئلة الحالات التي تغطي العديد من الأمراض التي تقيس التفكير التحليلي ومهارات الاستدلال.
تصنيف صعوبة الأسئلة
تم تصنيف مستوى صعوبة الأسئلة بناءً على بيانات أداء المرشحين الرسمية التي نشرها مركز اختيار وتوظيف الطلاب. على وجه التحديد، تم استخدام معدل الإجابات الصحيحة لكل سؤال كما ورد في المركز لتصنيف الأسئلة إلى خمسة مستويات صعوبة:
- المستوى 1 (الأسهل): الأسئلة التي لديها معدل إجابات صحيحة بنسبة 80٪ أو أعلى.
- المستوى 2: الأسئلة التي لديها معدل إجابات صحيحة بين 60٪ و 79.9٪.
- المستوى 3 (متوسط): الأسئلة التي لديها معدل إجابات صحيحة بين 40٪ و 59.9٪.
- المستوى 4: الأسئلة التي لديها معدل إجابات صحيحة بين 20٪ و 39.9٪.
- المستوى 5 (الأصعب): الأسئلة التي لديها معدل إجابات صحيحة بنسبة 19.9٪ أو أقل.
تم تعريف الإجابات ‘الصحيحة’ لأسئلة نماذج الذكاء الاصطناعي بناءً على الإجابات التي نشرها مركز اختيار وتوظيف الطلاب. تم قبول الإجابات التي تم تحديدها على أنها صحيحة بناءً على التعليمات الواردة في نص السؤال فقط على أنها ‘صحيحة’. بالإضافة إلى ذلك، تم تصنيف مستوى صعوبة كل سؤال على مقياس من 1 إلى 5 بناءً على معدل الإجابات الصحيحة التي نشرها مركز اختيار وتوظيف الطلاب. تعتبر الأسئلة التي لديها معدل إجابات صحيحة بنسبة 80٪ أو أعلى هي الأسهل (المستوى 1)، بينما تعتبر الأسئلة التي لديها معدل إجابات صحيحة بنسبة 19.9٪ أو أقل هي الأصعب (المستوى 5).
مجالات المعرفة والحالات
يعد امتحان القبول للإقامة الطبية في تركيا خطوة حاسمة لخريجي الطب في تركيا للتخصص، حيث يقيم المرشحين في مجالين حاسمين: مجالات المعرفة والحالات. يعد فهم التمييز بين هذه المجالات أمرًا ضروريًا للتحضير الكافي. يركز مجال المعرفة على تقييم الفهم النظري والمعرفة الواقعية للمرشحين في مجال الطب الذي يختارونه. يختبر إتقان المفاهيم والمبادئ الأساسية، وإنشاء معلومات طبية ذات صلة بالتخصص. إنه يمثل مجال المعرفة الطبية المحدد الذي يتم اختباره، مثل العلوم الطبية الأساسية (التشريح والكيمياء الحيوية وعلم وظائف الأعضاء وما إلى ذلك) والعلوم السريرية (الطب الباطني والجراحة وطب الأطفال وما إلى ذلك). من ناحية أخرى، يمثل مجال الحالات سيناريوهات أو مواقف واقعية يتم فيها تطبيق المعرفة، مثل حل المشكلات والتفكير التحليلي والتفكير النقدي واتخاذ القرارات وتطبيق المفاهيم على المواقف الحقيقية.
هندسة المطالبات
هندسة المطالبات هي تصميم وضبط المطالبات باللغة الطبيعية للحصول على استجابات محددة من نموذج لغوي أو نظام ذكاء اصطناعي. في أبريل 2024، قمنا بجمع الاستجابات من خلال الاستعلام عن النماذج اللغوية مباشرةً عبر واجهات الويب الخاصة بها.
لضمان تقييم عادل للقدرات الأصلية لكل نموذج، تم تنفيذ سيطرة منهجية صارمة في كيفية تقديم الأسئلة إلى النماذج اللغوية الكبيرة. تم إدخال كل سؤال على حدة وإعادة تعيين الجلسة قبل تقديم سؤال جديد لمنع النموذج من التعلم أو التكيف بناءً على التفاعلات السابقة.
تحليل البيانات
تم إجراء جميع التحليلات باستخدام Microsoft Office Excel وبرامج Python. لمقارنة أداء النماذج اللغوية الكبيرة عبر صعوبات الأسئلة المختلفة، تم إجراء اختبار مربع كاي غير المقترن. تم استخدام حد قيمة p < 0.05 لتحديد الأهمية الإحصائية. قيم التحليل ما إذا كانت دقة النموذج تختلف حسب مستوى صعوبة السؤال.
الاعتبارات الأخلاقية
تستخدم هذه الدراسة المعلومات المنشورة فقط على الإنترنت ولا تتضمن أي مشاركين بشريين. لذلك، ليست هناك حاجة إلى موافقة لجنة الأخلاقيات بجامعة باشكنت.
النتائج
كان متوسط عدد الإجابات الصحيحة للمرشحين الذين خضعوا لامتحان العلوم الطبية الأساسية في الفصل الدراسي الأول من امتحان القبول للإقامة الطبية في تركيا لعام 2021 هو 51.63. كان متوسط عدد الإجابات الصحيحة لامتحان العلوم الطبية السريرية هو 63.95. كان متوسط عدد الإجابات الصحيحة لامتحان العلوم الطبية السريرية أعلى من امتحان العلوم الطبية الأساسية. بالتوازي مع هذا الموقف، كانت تقنيات الذكاء الاصطناعي أكثر نجاحًا في الإجابة على امتحان العلوم الطبية السريرية أيضًا.
أداء الذكاء الاصطناعي
تم تقييم أداء منصات الذكاء الاصطناعي باستخدام نفس المقاييس المستخدمة للمرشحين البشريين.
ChatGPT 4:
حصل ChatGPT 4 على متوسط درجة 103 إجابات صحيحة في قسم العلوم الطبية الأساسية ومتوسط درجة 110 إجابات صحيحة في قسم العلوم الطبية السريرية. يمثل هذا دقة إجمالية قدرها 88.75٪، وهو أعلى بكثير من متوسط أداء المرشحين البشريين في كلا القسمين (p < 0.001).
Llama 3 70B:
حصل Llama 3 70B على متوسط درجة 95 إجابة صحيحة في قسم العلوم الطبية الأساسية ومتوسط درجة 95 إجابة صحيحة في قسم العلوم الطبية السريرية. يمثل هذا دقة إجمالية قدرها 79.17٪، وهو أيضًا أعلى بكثير من متوسط الأداء البشري (p < 0.01).
Gemini 1.5 Pro:
حصل Gemini 1.5 Pro على متوسط درجة 94 إجابة صحيحة في قسم العلوم الطبية الأساسية ومتوسط درجة 93 إجابة صحيحة في قسم العلوم الطبية السريرية. يمثل هذا دقة إجمالية قدرها 78.13٪، وهو أعلى بكثير من متوسط الأداء البشري (p < 0.01).
Command R+:
حصل Command R+ على متوسط درجة 60 إجابة صحيحة في قسم العلوم الطبية الأساسية ومتوسط درجة 60 إجابة صحيحة في قسم العلوم الطبية السريرية. يمثل هذا دقة إجمالية قدرها 50٪، وهو ليس مختلفًا بشكل كبير عن متوسط الأداء البشري في قسم العلوم الطبية الأساسية (p = 0.12)، ولكنه أقل بكثير في قسم العلوم الطبية السريرية (p < 0.05).
تم تقييم أداء منصات الذكاء الاصطناعي باستخدام نفس المقاييس المستخدمة للمرشحين البشريين.
يقارن الشكل 3 دقة النماذج اللغوية الكبيرة المختلفة بناءً على صعوبة السؤال - ChatGPT 4: النموذج الأفضل أداءً. تزداد الدقة مع زيادة صعوبة السؤال، وتقترب من 70٪ حتى في أصعب الأسئلة - Llama 3 70B: نموذج متوسط الأداء. تزداد الدقة ثم تنخفض مع زيادة صعوبة السؤال. تبلغ دقته حوالي 25٪ في أصعب الأسئلة. Gemini 1.5 70B: أداؤه مشابه لأداء Llama 3 70B. تزداد الدقة ثم تنخفض مع زيادة صعوبة السؤال. تبلغ دقته حوالي 20٪ في أصعب الأسئلة. Command R+: النموذج الأقل أداءً. تنخفض دقته مع زيادة صعوبة السؤال، وتبقى ثابتة عند حوالي 15٪ في أصعب الأسئلة
باختصار، ChatGPT 4 هو النموذج الأقل تأثرًا بصعوبة السؤال ولديه أعلى دقة إجمالية. كان أداء Llama 3 70B و Gemini 1.5 Pro متوسطًا، بينما كان معدل نجاح Command R+ أقل من النماذج الأخرى. تنخفض دقة النموذج مع زيادة صعوبة السؤال. يشير هذا إلى أن النماذج اللغوية الكبيرة لا تزال بحاجة إلى تحسين في فهم الأسئلة المعقدة والإجابة عليها بشكل صحيح
في الجدول 1، يبرز نموذج ChatGPT 4 كأفضل نموذج أداءً بنسبة نجاح تبلغ 88.75٪. يشير هذا إلى أنه يتمتع بقدرة قوية على فهم الأسئلة والإجابة عليها بدقة. احتل نموذج Llama 3 70B المرتبة الثانية بنسبة نجاح تبلغ 79.17٪. على الرغم من أنه متخلف عن نموذج ChatGPT 4، إلا أنه لا يزال يُظهر مستوى عالٍ من الكفاءة في الإجابة على الأسئلة. يتبع نموذج Gemini 1.5 Pro عن كثب بنسبة نجاح تبلغ 78.13٪. أداؤه مشابه لأداء نموذج Llama 3 70B، مما يشير إلى أن لديه قدرات قوية في الإجابة على الأسئلة. من ناحية أخرى، يتخلف نموذج Command R+ عن النماذج الأخرى بنسبة نجاح تبلغ 50٪. يشير هذا إلى أنه قد يواجه صعوبات مع أسئلة معينة أو أنه يحتاج إلى مزيد من الضبط الدقيق لتحسين الأداء. توزيع الإجابات الصحيحة عبر مستويات الصعوبة المختلفة. على سبيل المثال، كان أداء جميع النماذج جيدًا في الأسئلة السهلة (مستوى الصعوبة 1)، حيث حصل نموذج ChatGPT 4 على درجة مثالية. في الأسئلة ذات الصعوبة المتوسطة (المستويان 2 و 3)، استمر نموذج ChatGPT 4 ونموذج Llama 3 70B في الأداء الجيد.
في المقابل، بدأ نموذج Gemini 1.5 Pro في إظهار بعض أوجه القصور. في الأسئلة الصعبة (المستويان 4 و 5)، انخفض أداء جميع النماذج، حيث كان نموذج Command R+ هو الأكثر معاناة. بشكل عام، توفر هذه النتائج رؤى قيمة حول نقاط القوة والضعف في كل نموذج من نماذج الذكاء الاصطناعي ويمكن أن تفيد جهود التطوير والتحسين المستقبلية
في الجدول 3، حصلت الكيمياء الحيوية في العلوم الطبية الأساسية على درجة مثالية من ChatGPT 4، مما يدل على قدرتها الاستثنائية على الإجابة على الأسئلة في هذا المجال. كان أداء Llama 3 70B و Gemini 1.5 Pro جيدًا أيضًا، لكن Command R+ كان أداؤه ضعيفًا بدقة 50٪. أظهرت النماذج الأفضل أداءً (ChatGPT 4 و Llama 3 70B) في علم الأدوية وعلم الأمراض وعلم الأحياء الدقيقة اتساقًا قويًا في المعلومات، حيث تراوحت الدقة بين 81٪ و 90٪. كان أداء Gemini 1.5 Pro و Command R+ أقل، لكنهما كانا لا يزالان يؤديان بشكل جيد. شكل علم التشريح وعلم وظائف الأعضاء بعض التحديات للنماذج. كان أداء ChatGPT 4 و Meta AI-Llama 3 70B جيدًا، بينما كان أداء Gemini 1.5 Pro و Command R+ ضعيفًا بدقة أقل من 70٪.
كان طب الأطفال في العلوم الطبية السريرية أمرًا بالغ الأهمية لجميع النماذج، حيث حصل ChatGPT 4 على درجة شبه مثالية (90٪). تبع ذلك Llama 3 70B عن كثب، وحتى Command R+ حقق دقة 43٪. كان أداء الطب الباطني والجراحة العامة أفضل من أفضل النماذج بدقة تتراوح بين 79٪ و 90٪. كان أداء Gemini 1.5 Pro و Command R+ أقل، لكنهما كانا لا يزالان يؤديان بشكل جيد. كانت هناك عدد قليل من الأسئلة المقدمة في التخصصات مثل التخدير والإنعاش وطب الطوارئ وعلم الأعصاب والأمراض الجلدية، لكن النماذج أدت بشكل جيد بشكل عام. أظهر ChatGPT 4 و Llama 3 70B دقة استثنائية في هذه المجالات
فيما يتعلق بمقارنة النماذج، كان ChatGPT 4 هو النموذج الأفضل أداءً في معظم المجالات بدقة إجمالية تبلغ 88.75٪. تكمن قوته في قدرته على الإجابة بدقة على أسئلة العلوم الطبية الأساسية والسريرية. تبع ذلك Llama 3 70B بدقة إجمالية تبلغ 79.17٪. على الرغم من أنه لم يتمكن من مطابقة أداء ChatGPT 4 تمامًا، إلا أنه لا يزال يُظهر اتساقًا قويًا في المعرفة عبر المجالات المختلفة. كان أداء Gemini 1.5 Pro و Command R+ أقل بدقة إجمالية تبلغ 78.13٪ و 50٪ على التوالي. على الرغم من أنها أظهرت وعدًا في مجالات معينة، إلا أنها كافحت من أجل الحفاظ على الاتساق عبر جميع المجالات
باختصار، ChatGPT 4 هو حاليًا الأنسب للإجابة على أسئلة العلوم الطبية في المجالات المختلفة. يظهر Gemini 1.5 Pro و Command R+ إمكانات، لكنهما يحتاجان إلى تحسينات كبيرة للمنافسة مع النماذج الأفضل أداءً
في الجدول 4، فيما يتعلق بمجال المعرفة، كان ChatGPT 4 أفضل من النماذج الأخرى بدقة 86.7٪ (85/98) في العلوم الطبية الأساسية. كان ChatGPT 4 مرة أخرى الأفضل أداءً بدقة 89.7٪ (61/68) في العلوم الطبية السريرية. فيما يتعلق بمجال الحالات، كان ChatGPT 4 دقيقًا بنسبة 81.8٪ (18/22) في العلوم الطبية الأساسية. كان أداء ChatGPT 4 مشابهًا في العلوم الطبية السريرية بدقة 94.2٪ (49/52)
أظهرت المقارنات الزوجية للنماذج أن ChatGPT 4 يتفوق بشكل كبير على النماذج الأخرى في كلا المجالين وأنواع الأسئلة. كان أداء Llama 3 70B و Gemini 1.5 Pro مشابهًا، بينما كان أداء Command R+ أقل. بناءً على هذا التحليل، يمكننا أن نستنتج أن ChatGPT 4 يُظهر أداءً متميزًا في مجالي المعرفة والحالات، وكذلك في مجالي العلوم الطبية الأساسية والسريرية.
التحليل الإحصائي
تم تحليل أداء النماذج اللغوية الكبيرة باستخدام Microsoft Office Excel و Python (الإصدار 3.10.2). لمقارنة أداء النموذج عبر مستويات صعوبة الأسئلة المختلفة، تم إجراء اختبار مربع كاي غير المقترن. تم إنشاء جداول طوارئ للإجابات الصحيحة والخاطئة لكل نموذج من نماذج الذكاء الاصطناعي مصنفة حسب مستوى الصعوبة، وتم تطبيق اختبار مربع كاي لتحديد ما إذا كانت هناك اختلافات كبيرة إحصائيًا في الأداء عبر مستويات الصعوبة. تم استخدام حد قيمة p < 0.05 لتحديد الأهمية الإحصائية. كانت قيمة p لـ ChatGPT 4 هي 0.00028 وهي مهمة عند p < 0.05، مما يشير إلى وجود اختلاف كبير في الأداء عبر مستويات الصعوبة المختلفة. كانت قيمة p لـ Gemini 1.5 Pro هي 0.047 وهي مهمة عند p < 0.05، مما يشير إلى وجود اختلاف كبير في الأداء عبر مستويات الصعوبة المختلفة. كانت قيمة p لـ Command R+ هي 0.197 وهي غير مهمة عند p < 0.05، مما يشير إلى عدم وجود اختلاف كبير في الأداء عبر مستويات الصعوبة المختلفة. قيمة p لـ Llama 3 70B: 0.118، قيمة p: 0.118، وهي غير مهمة عند p < 0.05، مما يشير إلى عدم وجود اختلاف كبير في الأداء عبر مستويات الصعوبة المختلفة.
تظهر دقة ChatGPT 4 و Gemini 1.5 Pro عبر صعوبة السؤال اختلافًا كبيرًا إحصائيًا، مما يشير إلى أن أدائها يختلف اختلافًا كبيرًا باختلاف صعوبة السؤال. لم يُظهر Command R+ و Llama 3 70B فروقًا كبيرة في الأداء عبر مستويات الصعوبة، مما يشير إلى أداء أكثر اتساقًا بغض النظر عن صعوبة السؤال. قد تشير هذه النتائج إلى أن النماذج المختلفة لديها نقاط قوة وضعف مختلفة في التعامل مع التعقيدات والمواضيع المرتبطة بمستويات الصعوبة المختلفة.
مناقشة
TUS هو امتحان وطني حاسم لخريجي الطب في تركيا لمتابعة التدريب المتخصص. يتكون الامتحان من أسئلة الاختيار من متعدد التي تغطي العلوم الأساسية والسريرية، ويتميز بنظام تصنيف مركزي لتحديد ترتيب برامج التخصص
عند تقييم أداء النماذج اللغوية الكبيرة في TUS، كان GPT-4 هو النموذج الأفضل أداءً. وبالمثل، فإن ChatGPT هو نموذج ذكاء اصطناعي قوي أظهر أداءً يقارب أو يتجاوز المستوى البشري في الجراحة، حيث أجاب بشكل صحيح على 71٪ و 68٪ من أسئلة الاختيار من متعدد SCORE و Data-B على التوالي. بالإضافة إلى ذلك، تفوق ChatGPT في امتحانات الصحة العامة، متجاوزًا معدلات النجاح الحالية وقدم رؤى فريدة. تسلط هذه النتائج الضوء على الأداء الاستثنائي لـ GPT-4 و ChatGPT في التقييمات الطبية، مما يدل على إمكاناتهما لتعزيز التعليم الطبي والمساعدة التشخيصية المحتملة.
بالنسبة للمعلمين الطبيين والممتحنين، فإن الدقة المتزايدة باستمرار للنماذج اللغوية الكبيرة تثير أسئلة مهمة حول تصميم الامتحانات والتقييم. إذا كان بإمكان نماذج الذكاء الاصطناعي حل الاختبارات الطبية الموحدة بدقة عالية، فقد تحتاج التقييمات المستقبلية إلى دمج أسئلة الاستدلال والتقييم السريري ذات الترتيب الأعلى التي تتجاوز مجرد الاسترجاع. بالإضافة إلى ذلك، يمكن للمؤسسات الطبية التركية استكشاف استراتيجيات التعليم المدعومة بالذكاء الاصطناعي، مثل أنظمة التعلم التكيفي التي تصمم المواد الدراسية وفقًا للاحتياجات الفردية للطلاب.
من منظور وطني، تسلط هذه الدراسة الضوء على الأهمية المتزايدة للذكاء الاصطناعي في التعليم الطبي التركي. نظرًا لأن هذه النماذج اللغوية الكبيرة تؤدي أداءً جيدًا في الأسئلة الطبية باللغة التركية، فيمكنها سد الفجوة في الوصول إلى موارد تعليمية عالية الجودة للطلاب في المناطق المحرومة. بالإضافة إلى ذلك، يجب على صانعي السياسات التفكير في كيفية دمج نماذج الذكاء الاصطناعي في برامج التعليم الطبي المستمر والتعلم مدى الحياة للعاملين في مجال الرعاية الصحية في تركيا.
في الختام، على الرغم من أن نماذج الذكاء الاصطناعي مثل ChatGPT-4 تُظهر دقة غير عادية، إلا أنه يجب تقييم دورها في التعليم الطبي بعناية. الفوائد المحتملة للتعلم المدعوم بالذكاء الاصطناعي هائلة، ولكن التنفيذ الصحيح يتطلب التأكد من أن هذه الأدوات تُستخدم بطريقة مسؤولة وأخلاقية، وبالتزامن مع الخبرة البشرية.
القيود
تقدم هذه الدراسة رؤى قيمة حول أداء النماذج اللغوية الكبيرة (LLM) في امتحان القبول للإقامة الطبية في تركيا (TUS)، ولكن من الضروري الاعتراف بالعديد من القيود الهامة لوضع النتائج في سياقها وتوجيه البحوث المستقبلية. أولاً، ليس من المؤكد ما إذا كانت بيانات التدريب لنماذج الذكاء الاصطناعي التي تم تقييمها في هذه الدراسة تتضمن أسئلة TUS. نظرًا لأن أسئلة TUS السابقة متاحة للجمهور، فمن المحتمل أن تكون الأسئلة المستخدمة في هذه الدراسة جزءًا من بيانات تدريب النموذج. يثير هذا مخاوف بشأن ما إذا كان أداء النموذج يعكس فهمًا حقيقيًا أم مجرد القدرة على تذكر أسئلة معينة. يجب أن تطور الدراسات المستقبلية طرقًا لتقييم ما إذا كانت نماذج الذكاء الاصطناعي تُظهر قدرات استدلال حقيقية أم أنها تعتمد على المعلومات المحفوظة.
ثانيًا، من المحتمل أن تُظهر نماذج الذكاء الاصطناعي تحيزات ناشئة عن بيانات التدريب الخاصة بها. قد تنشأ هذه التحيزات من التمثيل غير المتوازن لبعض الحالات الطبية أو التركيبة السكانية أو وجهات النظر في بيانات التدريب. على سبيل المثال، قد يختلف أداء النموذج في اللغة التركية عن اللغة الإنجليزية بسبب الاختلافات في كمية ونوعية بيانات التدريب المتاحة في كل لغة. بالإضافة إلى ذلك، قد تكون هذه النماذج أقل دقة في الإجابة على الأسئلة التي تتطلب معرفة الممارسات الطبية المحلية التركية أو الخلفيات الثقافية. قد تحد هذه التحيزات من عمومية النتائج وتثير مخاوف أخلاقية بشأن استخدام الذكاء الاصطناعي في التعليم والممارسة الطبية.
القيد الثالث هو أن الدراسة تركز فقط على أسئلة الاختيار من متعدد. في الممارسة السريرية الواقعية، يحتاج المهنيون الطبيون إلى امتلاك مهارات مثل الاستدلال في الحالات المعقدة، وتفسير النتائج الغامضة، واتخاذ القرارات في ظل عدم اليقين. بالإضافة إلى ذلك، فإن القدرة على توصيل التشخيصات وخطط العلاج والمخاطر للمرضى والزملاء بطريقة واضحة ورحيمة أمر بالغ الأهمية. لم يتم اختبار قدرة نماذج الذكاء الاصطناعي على أداء هذه المهام، وقد تكون قدراتها محدودة بسبب تصميمها وتدريبها الحاليين. يجب أن تقيم الدراسات المستقبلية نماذج الذكاء الاصطناعي في إعدادات أكثر واقعية، مثل محاكاة الحالات السريرية والتقييمات ذات الإجابات المفتوحة.
رابعًا، لم تتضمن الدراسة أسئلة ذات إجابات مفتوحة. تعتبر الأسئلة ذات الإجابات المفتوحة ضرورية لتقييم المهارات المعرفية ذات الترتيب الأعلى مثل التفكير النقدي وتجميع المعلومات والاستدلال السريري. تتطلب هذه الأنواع من الأسئلة القدرة على إنتاج استجابات متماسكة وذات صلة بالسياق بدلاً من مجرد تحديد الخيار الصحيح من قائمة. قد يختلف أداء نماذج الذكاء الاصطناعي في مثل هذه المهام اختلافًا كبيرًا عن أدائها في أسئلة الاختيار من متعدد، مما يمثل مجالًا مهمًا للبحث المستقبلي.
القيد الخامس هو أن نماذج الذكاء الاصطناعي لم يتم اختبارها تحت ضغط الوقت. يخضع المرشحون البشريون لقيود زمنية صارمة أثناء الامتحانات، مما قد يؤثر على أدائهم. في المقابل، لم تخضع نماذج الذكاء الاصطناعي في هذه الدراسة لضغوط الوقت، مما سمح لها بالعمل دون ضغوط بيئة موقوتة