تحليل مقارن لأداء نماذج اللغة في الوقاية من أمراض القلب

تقييم أداء نماذج اللغة الكبيرة: الدقة والاتساق

هدفنا الرئيسي هو تقييم دقة الاستجابات التي تقدمها نماذج اللغة الكبيرة الرائدة عند تقديم أسئلة تتعلق بالوقاية من أمراض القلب والأوعية الدموية. لقد ركزنا على BARD (نموذج اللغة من Google)، وChatGPT-3.5 وChatGPT-4.0 (نماذج OpenAI)، وERNIE (نموذج Baidu). تم طرح مجموعة من 75 سؤالاً تم تصميمها بدقة حول الوقاية من أمراض القلب والأوعية الدموية على كل نموذج لغوي كبير، مع تقييم الإجابات بناءً على مدى ملاءمتها (تم تصنيفها على أنها مناسبة أو هامشية أو غير مناسبة).

الأداء باللغة الإنجليزية

في اللغة الإنجليزية، أظهرت نماذج اللغة الكبيرة دقة ملحوظة. حقق BARD تصنيف “مناسب” بنسبة 88.0٪، وسجل ChatGPT-3.5 نسبة 92.0٪، وتفوق ChatGPT-4.0 بنسبة 97.3٪. تشير هذه النتائج إلى أن نماذج اللغة الكبيرة يمكن أن توفر معلومات قيمة للمستخدمين الناطقين باللغة الإنجليزية الذين يبحثون عن إرشادات حول الوقاية من أمراض القلب والأوعية الدموية.

الأداء باللغة الصينية

امتد التحليل إلى الاستعلامات باللغة الصينية، حيث اختلف أداء نماذج اللغة الكبيرة. حقق ERNIE تصنيف “مناسب” بنسبة 84.0٪، وسجل ChatGPT-3.5 نسبة 88.0٪، ووصل ChatGPT-4.0 إلى 85.3٪. في حين أن النتائج كانت إيجابية بشكل عام، إلا أنها أشارت أيضًا إلى انخفاض طفيف في الأداء مقارنة باللغة الإنجليزية، مما يشير إلى تحيز لغوي محتمل في هذه النماذج.

التحسين الزمني والوعي الذاتي

بالإضافة إلى الدقة الأولية، قمنا بالتحقيق في قدرة نماذج اللغة الكبيرة على تحسين استجاباتها بمرور الوقت ووعيها الذاتي بصحتها. وشمل ذلك تقييم كيفية استجابة النماذج للإجابات دون المستوى الأمثل التي تم تقديمها في البداية وما إذا كان بإمكانها تحديد الأخطاء وتصحيحها عند مطالبتها بذلك.

استجابات محسنة بمرور الوقت

وكشف التحليل أن نماذج اللغة الكبيرة تظهر تحسناً زمنياً. عند تقديم استجابات دون المستوى الأمثل في البداية، تحسن BARD وChatGPT-3.5 بنسبة 67٪ (6/9 و4/6 على التوالي)، بينما حقق ChatGPT-4.0 معدل تحسن مثالي بنسبة 100٪ (2/2). يشير هذا إلى أن نماذج اللغة الكبيرة تتعلم من تفاعلات المستخدمين وتعليقاتهم، مما يؤدي إلى معلومات أكثر دقة وموثوقية بمرور الوقت.

الوعي الذاتي بالصحة

قمنا أيضًا بفحص قدرة نماذج اللغة الكبيرة على التعرف على صحة استجاباتها. تفوق BARD وChatGPT-4.0 على ChatGPT-3.5 في هذا المجال، مما يدل على وعي ذاتي أفضل بدقة المعلومات التي قدموها. هذه الميزة قيمة بشكل خاص في السياقات الطبية، حيث يمكن أن يكون للمعلومات غير الصحيحة عواقب وخيمة.

أداء ERNIE باللغة الصينية

وكشف تحليل المطالبات الصينية أن ERNIE تفوق في التحسين الزمني والوعي الذاتي بالصحة. يشير هذا إلى أن ERNIE مناسب تمامًا لتوفير معلومات دقيقة وموثوقة للمستخدمين الناطقين باللغة الصينية الذين يبحثون عن إرشادات للوقاية من أمراض القلب والأوعية الدموية.

تقييم شامل لروبوتات الدردشة LLM

لضمان إجراء تقييم شامل يتضمن روبوتات الدردشة الشائعة والشعبية التي تعمل بنماذج اللغة الكبيرة، تضمنت هذه الدراسة أربعة نماذج بارزة: ChatGPT-3.5 وChatGPT-4.0 من OpenAI، وBARD من Google، وERNIE من Baidu. تضمن تقييم المطالبات الإنجليزية ChatGPT 3.5 وChatGPT 4 وBARD؛ أما بالنسبة للمطالبات الصينية، فقد تضمن التقييم ChatGPT 3.5 وChatGPT 4 وERNIE. تم استخدام النماذج مع التكوينات والإعدادات الافتراضية لدرجة الحرارة الخاصة بها، دون تعديلات على هذه المعلمات أثناء التحليل.

توليد الأسئلة وتقييم استجابة روبوت الدردشة

تقدم الكلية الأمريكية لأمراض القلب وجمعية القلب الأمريكية إرشادات وتوصيات للوقاية من أمراض القلب والأوعية الدموية، والتي تشمل معلومات حول عوامل الخطر والاختبارات التشخيصية وخيارات العلاج، بالإضافة إلى تثقيف المرضى واستراتيجيات الإدارة الذاتية. قام اثنان من أطباء القلب ذوي الخبرة بإنشاء أسئلة متعلقة بالوقاية من أمراض القلب والأوعية الدموية، وتأطيرها بشكل مشابه لكيفية استفسار المرضى مع الأطباء لضمان الملاءمة والفهم من منظور المريض. أدى هذا النهج الذي يركز على المريض والقائم على الإرشادات إلى مجموعة نهائية من 300 سؤال تغطي مجالات مختلفة. ثم تمت ترجمة هذه الأسئلة إلى اللغة الصينية، مما يضمن الاستخدام المناسب للوحدات التقليدية والدولية.

إخفاء الهوية والتقييم المرتب عشوائيًا

لضمان عدم قدرة المصححين على تمييز أصل الاستجابة بين روبوتات الدردشة LLM المختلفة، تم إخفاء أي ميزات خاصة بروبوت الدردشة يدويًا. تم إجراء التقييم بطريقة معماة ومرتبة عشوائيًا، مع تبديل الاستجابات من ثلاثة روبوتات دردشة عشوائيًا داخل مجموعة الأسئلة. تم تعيين الاستجابات من ثلاثة روبوتات دردشة عشوائيًا إلى 3 جولات، بنسبة 1:1:1، للتقييم المعمى من قبل ثلاثة أطباء قلب، مع فترة فاصلة مدتها 48 ساعة بين الجولات للتخفيف من التحيز الحديث.

منهجية تقييم الدقة

كان الناتج الأساسي هو الأداء في الاستجابة لأسئلة الوقاية الأولية من أمراض القلب والأوعية الدموية. على وجه التحديد، تم استخدام نهج من خطوتين لتقييم الاستجابات. في الخطوة الأولى، راجعت لجنة من أطباء القلب جميع الاستجابات التي تم إنشاؤها بواسطة روبوت الدردشة LLM وقيمتها على أنها “مناسبة” أو “هامشية” أو “غير مناسبة”، فيما يتعلق بإجماع الخبراء والإرشادات. في الخطوة الثانية، تم استخدام نهج إجماع الأغلبية، حيث استند التصنيف النهائي لكل استجابة من روبوت الدردشة إلى التصنيف الأكثر شيوعًا الذي تم تصنيفه بين المصححين الثلاثة. في السيناريوهات التي لا يمكن فيها تحقيق إجماع الأغلبية بين المصححين الثلاثة، تمت استشارة طبيب قلب كبير لإنهاء التصنيف.

تحليل النتائج الرئيسية

كشفت البيانات أن روبوت الدردشة LLM كان أداؤه أفضل بشكل عام مع المطالبات الإنجليزية منه مع المطالبات الصينية. على وجه التحديد، بالنسبة للمطالبات الإنجليزية، أظهرت BARD وChatGPT-3.5 وChatGPT-4.0 درجات مجموع مماثلة. عند مقارنة نسب التصنيف “المناسب”، كان لدى ChatGPT-4.0 نسبة مئوية أعلى بشكل ملحوظ مقارنة بـ ChatGPT-3.5 وGoogle Bard. بالنسبة للمطالبات الصينية، كان لدى ChatGPT3.5 درجة مجموع أعلى، تليها ChatGPT-4.0 وErnie. ومع ذلك، لم تكن الاختلافات ذات دلالة إحصائية. وبالمثل، كان لدى ChatGPT-3.5 نسبة أعلى من “التصنيف المناسب” للمطالبات الصينية، مقارنة بـ ChatGPT-4.0 وERNIE، لكن الاختلافات لم تكن ذات دلالة إحصائية.

الأداء عبر مجالات الوقاية من أمراض القلب والأوعية الدموية

ركز التحليل على التصنيفات “المناسبة” عبر مجالات مختلفة للوقاية من أمراض القلب والأوعية الدموية. والجدير بالذكر أن ChatGPT-4.0 كان أداؤه جيدًا باستمرار في معظم المجالات، مع تصنيفات عالية بشكل خاص في مجالات “خلل شحميات الدم” و”نمط الحياة” و”العلامات الحيوية والالتهابات” و”DM وCKD”. ومع ذلك، أظهر BARD أداءً دون المستوى الأمثل مقارنة بـ ChatGPT4.0 وChatGPT-3.5، خاصة في مجال “نمط الحياة”. أبرزت النتائج أن جميع روبوتات الدردشة الثلاثة LLM كان أداؤها جيدًا في مجال “نمط الحياة”، مع تصنيفات “مناسبة” بنسبة 100٪ (الجدول التكميلي S6). ومع ذلك، لوحظت اختلافات في الأداء عبر المجالات الأخرى، حيث أظهرت بعض النماذج فعالية أكبر في مجالات وقائية محددة.

الآثار المترتبة على الثقافة الصحية

تحمل نتائج الدراسة آثارًا مهمة على الجهود المبذولة لتحسين الثقافة الصحية القلبية الوعائية. نظرًا لأن الأفراد يتجهون بشكل متزايد إلى الموارد عبر الإنترنت للحصول على معلومات طبية، فإن نماذج اللغة الكبيرة لديها القدرة على أن تكون بمثابة أدوات قيمة لتعزيز فهم الوقاية من أمراض القلب والأوعية الدموية. من خلال توفير معلومات دقيقة وسهلة الوصول إليها، يمكن لنماذج اللغة الكبيرة سد الفجوات في المعرفة وتمكين الأفراد من اتخاذ قرارات مستنيرة بشأن صحتهم.

التفاوتات في الأداء

وكشفت الدراسة أيضًا عن تفاوتات كبيرة في أداء نماذج اللغة الكبيرة عبر لغات مختلفة. إن اكتشاف أن نماذج اللغة الكبيرة كانت تعمل بشكل أفضل بشكل عام مع المطالبات الإنجليزية منه مع المطالبات الصينية يسلط الضوء على احتمال وجود تحيز لغوي في هذه النماذج. تعد معالجة هذه المشكلة أمرًا بالغ الأهمية لضمان توفير نماذج اللغة الكبيرة وصولاً عادلاً إلى المعلومات الطبية الدقيقة لجميع الأفراد، بغض النظر عن لغتهم الأم.

دور النماذج الخاصة باللغة

يوفر تحليل أداء ERNIE باللغة الصينية رؤى قيمة حول دور نماذج اللغة الكبيرة الخاصة باللغة. تشير نقاط قوة ERNIE في التحسين الزمني والوعي الذاتي بالصحة إلى أن النماذج المصممة خصيصًا للغات معينة يمكن أن تعالج بشكل فعال الفروق اللغوية الدقيقة والسياقات الثقافية. قد يكون إجراء مزيد من التطوير والتحسين لنماذج اللغة الكبيرة الخاصة باللغة أمرًا ضروريًا لتحسين تقديم المعلومات الطبية لمختلف السكان.

القيود والاتجاهات المستقبلية

في حين أن هذه الدراسة تقدم رؤى قيمة حول قدرات نماذج اللغة الكبيرة في معالجة استفسارات الوقاية من أمراض القلب والأوعية الدموية، فمن الضروري الاعتراف ببعض القيود. الأسئلة المستخدمة تمثل جزءًا صغيرًا من الأسئلة من حيث الوقاية من أمراض القلب والأوعية الدموية. تخضع قابلية تعميم النتائج لتأثير الاستجابات العشوائية. بالإضافة إلى ذلك، يتطلب التطور السريع لنماذج اللغة الكبيرة إجراء بحث مستمر لاستيعاب التكرارات المحدثة والنماذج الناشئة. يجب أن توسع الدراسات المستقبلية نطاق الأسئلة، وتستكشف تأثير أنماط التفاعل المختلفة مع نماذج اللغة الكبيرة، وتتحقق من الاعتبارات الأخلاقية المحيطة باستخدامها في السياقات الطبية.

خاتمة

في الختام، تؤكد هذه النتائج على وعد نماذج اللغة الكبيرة كأدوات لتعزيز الفهم العام لصحة القلب والأوعية الدموية، مع التأكيد أيضًا على الحاجة إلى التقييم الدقيق والتحسين المستمر لضمان الدقة والإنصاف والنشر المسؤول للمعلومات الطبية. يتضمن المسار إلى الأمام تقييمات مقارنة مستمرة، ومعالجة التحيزات اللغوية، والاستفادة من نقاط قوة النماذج الخاصة باللغة لتعزيز الوصول العادل إلى إرشادات الوقاية من أمراض القلب والأوعية الدموية الدقيقة والموثوقة.