الذكاء الاصطناعي المفتوح يضاهي الخاص بالتشخيص الطبي

يستمر التقدم المتواصل للذكاء الاصطناعي في إعادة تشكيل الصناعات، وربما لا يوجد مجال تكون فيه المخاطر أعلى، أو الإمكانات أعمق، من مجال الطب. لسنوات، كانت أقوى نماذج الذكاء الاصطناعي، وخاصة النماذج اللغوية الكبيرة (LLMs)، القادرة على معالجة وتوليد نصوص شبيهة بالبشر، تقبع إلى حد كبير خلف الجدران الواقية لعمالقة التكنولوجيا. أظهرت هذه الأنظمة المسجلة الملكية، مثل GPT-4 من OpenAI الذي نوقش على نطاق واسع، كفاءة ملحوظة، حتى أنها امتدت إلى المجال المعقد للتشخيص الطبي. ومع ذلك، فإن طبيعتها كـ ‘صندوق أسود’ وضرورة إرسال معلومات حساسة إلى خوادم خارجية شكلت عقبات كبيرة أمام التبني الواسع والآمن داخل بيئات الرعاية الصحية، حيث لا تعد خصوصية المريض مجرد تفضيل، بل هي تفويض. ظل سؤال حاسم يلوح في الأفق: هل يمكن لعالم الذكاء الاصطناعي مفتوح المصدر المزدهر أن يرتقي إلى مستوى التحدي، مقدمًا قوة مماثلة دون المساس بالتحكم والسرية؟

تشير النتائج الأخيرة الصادرة عن أروقة كلية الطب بجامعة Harvard (HMS) الموقرة إلى أن الإجابة هي نعم مدوية، مما يمثل نقطة تحول محتملة في تطبيق الذكاء الاصطناعي داخل البيئات السريرية. قام الباحثون بمقارنة دقيقة بين نموذج رائد مفتوح المصدر ونظيره المسجل الملكية البارز، وكشفوا عن نتائج يمكن أن تضفي طابعًا ديمقراطيًا على الوصول إلى مساعدات التشخيص المتطورة.

منافس جديد يدخل ساحة التشخيص

في دراسة استحوذت على اهتمام كل من المجتمعات الطبية والتقنية، وضع باحثو HMS نموذج Llama 3.1 405B مفتوح المصدر في مواجهة GPT-4 الهائل. كانت ساحة الاختبار عبارة عن مجموعة منتقاة بعناية من 70 دراسة حالة طبية صعبة. لم تكن هذه سيناريوهات روتينية؛ بل مثلت ألغازًا تشخيصية معقدة غالبًا ما تواجه في الممارسة السريرية. كان الهدف واضحًا: تقييم الفطنة التشخيصية لكل نموذج ذكاء اصطناعي وجهًا لوجه.

كانت النتائج، التي نُشرت مؤخرًا، مذهلة. أظهر نموذج Llama 3.1 405B، المتاح مجانًا للمستخدمين لتنزيله وفحصه وتعديله، دقة تشخيصية تضاهي، وفي بعض المقاييس تتجاوز، دقة GPT-4. على وجه التحديد، عند تقييم صحة الاقتراح التشخيصي الأولي الذي قدمه كل نموذج، كان لـ Llama 3.1 405B الأفضلية. علاوة على ذلك، عند النظر في التشخيص النهائي المقترح بعد معالجة تفاصيل الحالة، أثبت المنافس مفتوح المصدر مرة أخرى جدارته في مواجهة المعيار الراسخ.

هذا الإنجاز مهم ليس فقط للأداء نفسه، ولكن لما يمثله. لأول مرة، أثبتت أداة مفتوحة المصدر شفافة ويمكن الوصول إليها بسهولة أنها قادرة على العمل بنفس المستوى العالي مثل الأنظمة الرائدة مغلقة المصدر في المهمة الصعبة المتمثلة في التشخيص الطبي بناءً على دراسات الحالة. وصف Arjun K. Manrai ’08، الأستاذ في HMS الذي أشرف على البحث، التكافؤ في الأداء بأنه ‘ملحوظ جدًا’، خاصة بالنظر إلى السياق التاريخي.

ميزة المصدر المفتوح: فتح قفل خصوصية البيانات والتخصيص

يكمن التغيير الحقيقي الذي أبرزته دراسة Harvard في الفرق الأساسي بين النماذج مفتوحة المصدر والنماذج المسجلة الملكية: إمكانية الوصول والتحكم. تتطلب النماذج المسجلة الملكية مثل GPT-4 عادةً من المستخدمين إرسال البيانات إلى خوادم المزود للمعالجة. في مجال الرعاية الصحية، يثير هذا الأمر على الفور علامات الخطر. تعد معلومات المريض - الأعراض، التاريخ الطبي، نتائج الاختبارات - من بين أكثر البيانات حساسية التي يمكن تخيلها، وهي محمية بموجب لوائح صارمة مثل HIPAA في الولايات المتحدة. كان احتمال نقل هذه البيانات خارج الشبكة الآمنة للمستشفى، حتى من أجل الاستفادة المحتملة من تحليل الذكاء الاصطناعي المتقدم، عائقًا رئيسيًا.

تغير النماذج مفتوحة المصدر، مثل Llama 3.1 405B، هذه الديناميكية بشكل أساسي. نظرًا لأن كود النموذج ومعلماته متاحة للجمهور، يمكن للمؤسسات تنزيله ونشره داخل بنيتها التحتية الآمنة الخاصة بها.

  • سيادة البيانات: يمكن للمستشفيات تشغيل الذكاء الاصطناعي بالكامل على خوادمها المحلية أو السحابات الخاصة. لا تحتاج بيانات المريض أبدًا إلى مغادرة بيئة المؤسسة المحمية، مما يزيل فعليًا مخاوف الخصوصية المرتبطة بنقل البيانات الخارجية. غالبًا ما يشار إلى هذا المفهوم باسم جلب ‘النموذج إلى البيانات’، بدلاً من إرسال ‘البيانات إلى النموذج’.
  • الأمان المعزز: يؤدي الحفاظ على العملية داخل المؤسسة إلى تقليل سطح الهجوم بشكل كبير لخروقات البيانات المحتملة المتعلقة بمقدمي خدمات الذكاء الاصطناعي من الأطراف الثالثة. يظل التحكم في بيئة التشغيل بالكامل مع مؤسسة الرعاية الصحية.
  • الشفافية وقابلية التدقيق: تسمح النماذج مفتوحة المصدر للباحثين والأطباء بفحص بنية النموذج، وإلى حد ما، فهم عمليات اتخاذ القرار بشكل أفضل من الأنظمة المسجلة الملكية غير الشفافة. يمكن لهذه الشفافية أن تعزز ثقة أكبر وتسهل تصحيح الأخطاء أو التحسين.

أكد Thomas A. Buckley، طالب دكتوراه في برنامج الذكاء الاصطناعي في الطب بجامعة Harvard والمؤلف الأول للدراسة، على هذه الميزة الحاسمة. صرح قائلاً: ‘تفتح النماذج مفتوحة المصدر أبحاثًا علمية جديدة لأنه يمكن نشرها في شبكة المستشفى الخاصة’. تتجاوز هذه القدرة الإمكانات النظرية وتفتح الباب للتطبيق العملي والآمن.

علاوة على ذلك، تتيح الطبيعة مفتوحة المصدر مستويات غير مسبوقة من التخصيص. يمكن للمستشفيات والمجموعات البحثية الآن ضبط هذه النماذج الأساسية القوية باستخدام بيانات مرضاهم المحددة.

  • الضبط الخاص بالسكان: يمكن تكييف النموذج ليعكس بشكل أفضل التركيبة السكانية والأمراض السائدة والتحديات الصحية الفريدة لمجموعة سكانية محلية أو إقليمية معينة تخدمها منظومة المستشفى.
  • مواءمة البروتوكول: يمكن تعديل سلوك الذكاء الاصطناعي ليتوافق مع مسارات التشخيص المحددة للمستشفى أو بروتوكولات العلاج أو معايير الإبلاغ.
  • التطبيقات المتخصصة: يمكن للباحثين تطوير إصدارات متخصصة للغاية من النموذج مصممة خصيصًا لمجالات طبية معينة، مثل دعم تفسير تحليل صور الأشعة، أو فحص تقارير علم الأمراض، أو تحديد أنماط الأمراض النادرة.

أوضح Buckley هذا المعنى الضمني: ‘يمكن للباحثين الآن استخدام أحدث ما توصل إليه الذكاء الاصطناعي السريري مباشرة مع بيانات المرضى… يمكن للمستشفيات استخدام بيانات المرضى لتطوير نماذج مخصصة (على سبيل المثال، لتتوافق مع مجموعة مرضاهم الخاصة)’. تمثل هذه الإمكانية لأدوات الذكاء الاصطناعي المخصصة، التي يتم تطويرها بأمان داخل المؤسسة، قفزة كبيرة إلى الأمام.

السياق: موجة الصدمة للذكاء الاصطناعي في الحالات المعقدة

لم يتم إجراء تحقيق فريق Harvard في Llama 3.1 405B في فراغ. لقد كان مستوحى جزئيًا من التموجات التي أحدثتها الأبحاث السابقة، ولا سيما ورقة بحثية بارزة عام 2023. أظهرت تلك الدراسة الكفاءة المدهشة لنماذج GPT في التعامل مع بعض الحالات السريرية الأكثر إرباكًا المنشورة في المجلة المرموقة New England Journal of Medicine (NEJM). تعتبر ‘سجلات الحالات لمستشفى Massachusetts General’ في NEJM أسطورية في الأوساط الطبية - حالات معقدة، وغالبًا ما تكون محيرة، تتحدى حتى الأطباء المتمرسين.

يتذكر Buckley قائلاً: ‘حظيت هذه الورقة بالكثير من الاهتمام وأظهرت بشكل أساسي أن هذا النموذج اللغوي الكبير، ChatGPT، يمكنه بطريقة ما حل هذه الحالات السريرية الصعبة للغاية، وهو ما صدم الناس نوعًا ما’. كانت فكرة أن الذكاء الاصطناعي، وهو في الأساس آلة معقدة لمطابقة الأنماط تم تدريبها على كميات هائلة من النصوص، يمكنه كشف ألغاز التشخيص التي غالبًا ما تتطلب حدسًا وخبرة سريرية عميقة، رائعة ومقلقة للبعض.

وأضاف Buckley: ‘هذه الحالات صعبة للغاية’. ‘إنها بعض من أصعب الحالات التي شوهدت في مستشفى Mass General، لذا فهي مخيفة للأطباء، ومن المخيف بنفس القدر أن يتمكن نموذج الذكاء الاصطناعي من فعل الشيء نفسه’. أكد هذا العرض التوضيحي السابق على الإمكانات الخام للنماذج اللغوية الكبيرة في الطب ولكنه زاد أيضًا من إلحاح معالجة قضايا الخصوصية والتحكم المتأصلة في الأنظمة المسجلة الملكية. إذا أصبح الذكاء الاصطناعي بهذه القدرة، فإن ضمان إمكانية استخدامه بأمان وأخلاقية مع بيانات المرضى الحقيقية أصبح أمرًا بالغ الأهمية.

مثل إصدار نموذج Llama 3.1 405B من Meta نقطة تحول محتملة. أشار الحجم الهائل للنموذج - المشار إليه بـ ‘405B’، في إشارة إلى 405 مليار معلمة (المتغيرات التي يضبطها النموذج أثناء التدريب لإجراء التنبؤات) - إلى مستوى جديد من التطور داخل مجتمع المصادر المفتوحة. اقترح هذا الحجم الهائل أنه قد يمتلك التعقيد اللازم لمنافسة أداء النماذج المسجلة الملكية من الدرجة الأولى مثل GPT-4. أشار Buckley قائلاً: ‘كانت هذه هي المرة الأولى التي فكرنا فيها، أوه، ربما هناك شيء مختلف حقًا يحدث في النماذج مفتوحة المصدر’، موضحًا الدافع لوضع Llama 3.1 405B على المحك في المجال الطبي.

رسم المستقبل: البحث والتكامل في العالم الحقيقي

إن التأكيد على أن النماذج مفتوحة المصدر عالية الأداء قابلة للتطبيق في المهام الطبية الحساسة له آثار عميقة. كما أبرز البروفيسور Manrai، فإن البحث ‘يفتح الباب أمام الكثير من الدراسات والتجارب الجديدة’. إن القدرة على العمل مباشرة مع بيانات المرضى داخل شبكات المستشفيات الآمنة، دون العقبات الأخلاقية واللوجستية لمشاركة البيانات الخارجية، تزيل عنق زجاجة رئيسي لأبحاث الذكاء الاصطناعي السريري.

تخيل الاحتمالات:

  • دعم القرار في الوقت الفعلي: أدوات الذكاء الاصطناعي المدمجة مباشرة في أنظمة السجلات الصحية الإلكترونية (EHR)، تحلل بيانات المرضى الواردة في الوقت الفعلي لاقتراح تشخيصات محتملة، أو الإشارة إلى قيم المختبر الحرجة، أو تحديد التفاعلات الدوائية المحتملة، كل ذلك بينما تظل البيانات آمنة داخل نظام المستشفى.
  • دورات بحث متسارعة: يمكن للباحثين اختبار وتحسين فرضيات الذكاء الاصطناعي بسرعة باستخدام مجموعات بيانات محلية كبيرة، مما قد يسرع من اكتشاف علامات تشخيصية جديدة أو فعالية العلاجات.
  • تطوير أدوات فائقة التخصص: يمكن للفرق التركيز على بناء مساعدي الذكاء الاصطناعي لتخصصات طبية متخصصة أو إجراءات محددة ومعقدة، مدربة على بيانات داخلية وثيقة الصلة.

يتغير النموذج، كما لخص Manrai بإيجاز: ‘مع هذه النماذج مفتوحة المصدر، يمكنك جلب النموذج إلى البيانات، بدلاً من إرسال بياناتك إلى النموذج’. هذا التوطين يمكّن مؤسسات الرعاية الصحية والباحثين، ويعزز الابتكار مع الحفاظ على معايير الخصوصية الصارمة.

العنصر البشري الذي لا غنى عنه: الذكاء الاصطناعي كمساعد طيار، وليس قبطانًا

على الرغم من الأداء المثير للإعجاب والإمكانات الواعدة لأدوات الذكاء الاصطناعي مثل Llama 3.1 405B، يسارع الباحثون المشاركون إلى تخفيف الحماس بجرعة حاسمة من الواقعية. الذكاء الاصطناعي، مهما كان متطورًا، ليس بعد - وقد لا يكون أبدًا - بديلاً للأطباء البشريين. أكد كل من Manrai و Buckley أن الإشراف البشري يظل ضروريًا للغاية.

نماذج الذكاء الاصطناعي، بما في ذلك النماذج اللغوية الكبيرة، لها قيود متأصلة:

  • الافتقار إلى الفهم الحقيقي: تتفوق في التعرف على الأنماط وتجميع المعلومات بناءً على بيانات تدريبها، لكنها تفتقر إلى الحدس السريري الحقيقي، والحس السليم، والقدرة على فهم الفروق الدقيقة في سياق حياة المريض، أو حالته العاطفية، أو الإشارات غير اللفظية.
  • احتمالية التحيز: يمكن لنماذج الذكاء الاصطناعي أن ترث التحيزات الموجودة في بيانات تدريبها، مما قد يؤدي إلى توصيات أو تشخيصات منحرفة، خاصة لمجموعات المرضى الممثلة تمثيلاً ناقصًا. تقدم النماذج مفتوحة المصدر ميزة محتملة هنا، حيث يمكن أحيانًا فحص بيانات وعمليات التدريب عن كثب، لكن الخطر لا يزال قائمًا.
  • ‘الهلوسة’ والأخطاء: من المعروف أن النماذج اللغوية الكبيرة تولد أحيانًا معلومات تبدو معقولة ولكنها غير صحيحة (ما يسمى بـ ‘الهلوسة’). في السياق الطبي، يمكن أن يكون لهذه الأخطاء عواقب وخيمة.
  • عدم القدرة على التعامل مع المستجدات: بينما يمكنها معالجة الأنماط المعروفة، قد يواجه الذكاء الاصطناعي صعوبة في التعامل مع العروض التقديمية الجديدة حقًا للمرض أو المجموعات الفريدة من الأعراض غير الممثلة جيدًا في بيانات تدريبها.

لذلك، فإن دور الأطباء وغيرهم من المتخصصين في الرعاية الصحية لا يتقلص بل يتحول. يصبحون المدققين والمفسرين وصناع القرار النهائيين الحاسمين. أوضح Buckley: ‘لقد كان المتعاونون السريريون لدينا مهمين حقًا، لأنهم يستطيعون قراءة ما يولده النموذج وتقييمه نوعيًا’. إن مخرجات الذكاء الاصطناعي هي مجرد اقتراح، قطعة من البيانات يجب تقييمها بشكل نقدي ضمن الصورة السريرية الأوسع. ‘هذه النتائج جديرة بالثقة فقط عندما يمكنك تقييمها من قبل الأطباء’.

ردد Manrai هذا الشعور، متصورًا الذكاء الاصطناعي ليس كأداة تشخيص مستقلة، ولكن كمساعد قيم. في بيان صحفي سابق، وصف هذه الأدوات بأنها ‘مساعدو طيار لا يقدرون بثمن للأطباء المشغولين’، شريطة أن ‘تُستخدم بحكمة وتُدمج بمسؤولية في البنية التحتية الصحية الحالية’. يكمن المفتاح في التكامل المدروس، حيث يعزز الذكاء الاصطناعي القدرات البشرية - ربما عن طريق تلخيص تواريخ المرضى الواسعة بسرعة، أو اقتراح تشخيصات تفريقية للحالات المعقدة، أو الإشارة إلى المخاطر المحتملة - بدلاً من محاولة الحلول محل حكم الطبيب.

حذر Manrai قائلاً: ‘ولكن يظل من الأهمية بمكان أن يساعد الأطباء في دفع هذه الجهود للتأكد من أن الذكاء الاصطناعي يعمل لصالحهم’. يجب أن يكون تطوير ونشر الذكاء الاصطناعي السريري جهدًا تعاونيًا، يسترشد باحتياجات وخبرات أولئك الموجودين في الخطوط الأمامية لرعاية المرضى، مما يضمن أن التكنولوجيا تخدم، بدلاً من أن تملي، ممارسة الطب. توضح دراسة Harvard أن الأدوات القوية والآمنة أصبحت متاحة؛ والخطوة الحاسمة التالية هي تسخيرها بمسؤولية.