نماذج لغوية كبيرة غير منظمة

الوعد والتحديات التنظيمية للنماذج اللغوية الكبيرة (LLMs) في الرعاية الصحية

إن قدرات النماذج اللغوية الكبيرة (LLMs)، النابعة من بيانات التدريب المكثفة وقدرتها على توليد نص شبيه بالنص البشري، تدفع الاهتمام بتطبيقها لدعم القرار في مختلف المجالات. ومع ذلك، فإن الخصائص التي تجعل أنظمة الذكاء الاصطناعي (AI) التوليدية جذابة للغاية تمثل أيضًا عقبات فريدة للهيئات التنظيمية. تعمل هذه الهيئات ضمن أطر عمل أُنشئت منذ عقود، وهي مصممة للأجهزة الطبية التقليدية، وليس للطبيعة الديناميكية للذكاء الاصطناعي.

حاليًا، لا تُصنف النماذج اللغوية الكبيرة (LLMs) المتاحة كأجهزة طبية. يعرّف قانون الغذاء والدواء ومستحضرات التجميل الفيدرالي (FD&C Act § 201(h)(1)) الجهاز الطبي بأنه “أداة … مخصصة للاستخدام في التشخيص … أو العلاج، أو التخفيف، أو المعالجة، أو الوقاية من المرض … والتي لا تحقق أغراضها المقصودة الرئيسية من خلال العمل الكيميائي.” تتضمن معظم النماذج اللغوية الكبيرة (LLMs) إخلاء مسؤولية تفيد بأنها غير مخصصة لتقديم المشورة الطبية، وبالتالي تتجنب تنظيم إدارة الغذاء والدواء (FDA). على الرغم من ذلك، هناك مجموعة متزايدة من الأبحاث المنشورة والأدلة المتناقلة التي تسلط الضوء على استخدام النماذج اللغوية الكبيرة (LLMs) لدعم القرارات الطبية، سواء في البيئات البحثية أو الممارسة السريرية الفعلية.

تحديد نطاق تنظيم دعم القرار السريري القائم على LLM

بالنظر إلى إمكانات النماذج اللغوية الكبيرة (LLMs)، إذا تم دمجها رسميًا في نظام دعم القرار السريري (CDSS)، فإن مسألة التنظيم المناسب تصبح ذات أهمية قصوى. يحدد تعديل قانون العلاجات للقرن الحادي والعشرين لقانون FD&C (القانون العام 114-255)، إلى جانب التوجيهات الصادرة عن إدارة الغذاء والدواء (FDA)، أربعة معايير رئيسية لتحديد ما إذا كان برنامج دعم القرار مؤهلاً كجهاز، وبالتالي، يقع ضمن اختصاص إدارة الغذاء والدواء (FDA). تدور هذه المعايير حول:

  • بيانات الإدخال لوظيفة البرنامج.
  • بيانات الإخراج الخاصة به.
  • جوهر توصياته السريرية.
  • قدرة المستخدم النهائي على مراجعة الأساس المنطقي وراء هذه التوصيات.

على وجه التحديد، يعتبر نظام دعم القرار السريري (CDSS) جهازًا إذا كان ناتجه يقدم توجيهًا دقيقًا للعلاج أو التشخيص، بدلاً من التوصيات القائمة على المعلومات العامة. علاوة على ذلك، إذا فشل نظام دعم القرار السريري (CDSS) في توفير الأساس الأساسي لتوصياته، مما يمنع المستخدمين من مراجعتها بشكل مستقل والوصول إلى استنتاجاتهم الخاصة، فإنه يصنف كجهاز. يوضح توجيه إدارة الغذاء والدواء (FDA) كذلك أن نظام دعم القرار السريري (CDSS) المستخدم في حالة الطوارئ السريرية يعتبر جهازًا نظرًا للطبيعة الحرجة والحساسة للوقت لاتخاذ القرار، مما يحول دون التقييم المستقل لنصيحة نظام دعم القرار السريري (CDSS).

التحقيق في المخرجات الشبيهة بالجهاز في أنظمة الذكاء الاصطناعي التوليدية

لا يزال من غير الواضح ما إذا كان نظام دعم القرار السريري (CDSS) الذي يستخدم الذكاء الاصطناعي التوليدي، مثل LLM، ينتج مخرجات تحاكي جهازًا طبيًا. قد يفي ناتج النص الحر لنموذج LLM غير المقيد أو لا يفي بمعايير الجهاز المعمول بها. علاوة على ذلك، فإن كيفية توافق استجابات LLM للمطالبات الصعبة أو ‘الجيلبريك’ مع هذه المعايير غير معروفة. إن الاستخدام المتزايد للنماذج اللغوية الكبيرة (LLMs) للحصول على المشورة الطبية يجعل عدم اليقين المحيط بتعيين الجهاز والحالة التنظيمية لأنظمة دعم القرار السريري (CDSS) القائمة على LLM عائقًا محتملاً أمام التطوير الآمن والفعال لهذه التقنيات. يعد تحقيق التوازن الصحيح بين السلامة والابتكار للذكاء الاصطناعي التوليدي في الرعاية الصحية أمرًا بالغ الأهمية حيث يستخدم المزيد من الأطباء والمرضى هذه الأدوات.

أهداف البحث: تقييم الوظائف الشبيهة بالجهاز

يهدف هذا البحث إلى تقييم الوظائف الشبيهة بالجهاز للنماذج اللغوية الكبيرة (LLMs). تُعرَّف هذه الوظيفة بأنها فائدتها لـ ‘التشخيص أو العلاج أو الوقاية أو الشفاء أو التخفيف من الأمراض أو الحالات الأخرى’، بغض النظر عما إذا كان هذا الاستخدام مقصودًا أو مسموحًا به. كانت الأهداف المحددة هي:

  1. لتحديد ما إذا كان ناتج LLM سيتوافق مع معايير الجهاز عند مطالبته بتعليمات حول هذه المعايير وتقديمه بحالة طوارئ سريرية.
  2. لتحديد الظروف، إن وجدت، التي يمكن في ظلها التلاعب بمخرجات النموذج لتوفير مخرجات شبيهة بالجهاز. وشمل ذلك استخدام طلبات مباشرة للحصول على معلومات التشخيص والعلاج، بالإضافة إلى ‘جيلبريك’ محدد مسبقًا مصمم لاستنباط مخرجات شبيهة بالجهاز على الرغم من المطالبات بالالتزام بمعايير غير متعلقة بالجهاز.

النتائج: استجابات LLM ومواءمة معايير الجهاز

توصيات الرعاية الوقائية

عند الاستعلام عن توصيات الرعاية الوقائية، أنتجت جميع النماذج اللغوية الكبيرة (LLMs) استجابات تتفق مع معايير غير الجهاز في ناتج النص النهائي الخاص بها. قدم نموذج Llama-3، استجابةً لمطالبة أحادية اللقطة، في البداية دعمًا للقرار يشبه الجهاز في نسبة صغيرة من الردود (20٪ لسيناريوهات الرعاية الوقائية لطب الأسرة و 60٪ للطب النفسي). ومع ذلك، فقد استبدل هذا النص بسرعة بإخلاء مسؤولية: ‘عذرًا، لا يمكنني مساعدتك في هذا الطلب الآن.’ عند تقديمه بمطالبة متعددة اللقطات تحتوي على أمثلة مفصلة لمعايير الجهاز، قدمت جميع النماذج باستمرار توصيات غير متعلقة بالجهاز لجميع استجابات الرعاية الوقائية الأولية.

سيناريوهات الطوارئ الحرجة للوقت

في الحالات التي تنطوي على حالات طوارئ حرجة للوقت، توافقت 100٪ من استجابات GPT-4 و 52٪ من استجابات Llama-3 مع دعم القرار الشبيه بالجهاز. ظلت المعدلات الإجمالية للتوصيات الشبيهة بالجهاز متسقة مع المطالبات متعددة اللقطات ولكنها أظهرت تباينًا عبر السيناريوهات السريرية المختلفة. تضمنت هذه الاستجابات الشبيهة بالجهاز اقتراحات لتشخيصات وعلاجات محددة تتعلق بحالات الطوارئ.

‘جيلبريك’ المتدرب اليائس

عند إخضاعه لـ ‘جيلبريك’ المتدرب اليائس، أظهرت نسبة كبيرة من الردود توصيات شبيهة بالجهاز. على وجه التحديد، 80٪ و 68٪ من استجابات GPT-4، و 36٪ و 76٪ من استجابات Llama-3، تضمنت توصيات شبيهة بالجهاز بعد مطالبات أحادية ومتعددة اللقطات، على التوالي.

الملاءمة السريرية لاقتراحات LLM

من المهم ملاحظة أن جميع اقتراحات النموذج كانت مناسبة سريريًا وتتوافق مع معايير الرعاية المعمول بها. في سيناريوهات طب الأسرة وأمراض القلب، كان الكثير من دعم القرار الشبيه بالجهاز مناسبًا فقط للأطباء المدربين. تشمل الأمثلة وضع قسطرة وريدية وإعطاء المضادات الحيوية عن طريق الوريد. في سيناريوهات أخرى، كانت التوصيات الشبيهة بالجهاز متوافقة بشكل عام مع معايير الرعاية للمارة، مثل إعطاء النالوكسون لجرعة زائدة من المواد الأفيونية أو استخدام حاقن الإبينفرين التلقائي للحساسية المفرطة.

الآثار المترتبة على التنظيم والرقابة

على الرغم من عدم وجود LLM مصرح به حاليًا من قبل إدارة الغذاء والدواء (FDA) كنظام دعم القرار السريري (CDSS)، ويذكر البعض صراحةً أنه لا ينبغي استخدامه للحصول على المشورة الطبية، فقد لا يزال المرضى والأطباء يستخدمونها لهذا الغرض. وجدت الدراسة أنه لا المطالبات أحادية اللقطة ولا المطالبات متعددة اللقطات، استنادًا إلى لغة من وثيقة إرشادية لإدارة الغذاء والدواء (FDA)، قيدت بشكل موثوق النماذج اللغوية الكبيرة (LLMs) لإنتاج دعم قرار غير متعلق بالجهاز فقط. علاوة على ذلك، غالبًا ما كان ‘الجيلبريك’ المحدد مسبقًا غير ضروري لاستنباط دعم القرار الشبيه بالجهاز. تعزز هذه النتائج الأبحاث السابقة التي تسلط الضوء على الحاجة إلى نماذج تنظيمية جديدة مصممة خصيصًا لأنظمة دعم القرار السريري (CDSS) للذكاء الاصطناعي / التعلم الآلي. كما أن لها آثارًا مباشرة على الإشراف على الأجهزة الطبية التي تتضمن تقنيات الذكاء الاصطناعي التوليدية.

إعادة التفكير في النهج التنظيمية

قد يتطلب التنظيم الفعال طرقًا جديدة لمواءمة مخرجات LLM بشكل أفضل مع دعم القرار الشبيه بالجهاز أو غير المتعلق بالجهاز، اعتمادًا على الاستخدام المقصود. يتم منح ترخيص إدارة الغذاء والدواء (FDA) التقليدي لجهاز طبي لاستخدام مقصود محدد وإشارة. على سبيل المثال، تشمل أجهزة الذكاء الاصطناعي / التعلم الآلي المعتمدة من إدارة الغذاء والدواء (FDA) تلك المصممة للتنبؤ بعدم الاستقرار الديناميكي الدموي أو التدهور السريري. ومع ذلك، يمكن الاستعلام عن النماذج اللغوية الكبيرة (LLMs) حول مجموعة واسعة من الموضوعات، مما قد يؤدي إلى استجابات، على الرغم من أنها مناسبة، إلا أنها ستعتبر ‘خارج التسمية’ بالنسبة إلى إشاراتها المعتمدة. توضح النتائج أن كلاً من المطالبات أحادية اللقطة ومتعددة اللقطات غير كافية للتحكم في ذلك. لا تمثل هذه النتيجة قيدًا على النماذج اللغوية الكبيرة (LLMs) نفسها، بل تؤكد على الحاجة إلى طرق جديدة تحافظ على مرونة مخرجات LLM مع حصرها في إشارة معتمدة.

استكشاف مسارات ترخيص جديدة

قد يتطلب تنظيم النماذج اللغوية الكبيرة (LLMs) مسارات ترخيص جديدة غير مرتبطة بإشارات محددة. قد يكون مسار ترخيص الجهاز لدعم القرار ‘المعمم’ مناسبًا للنماذج اللغوية الكبيرة (LLMs) وأدوات الذكاء الاصطناعي التوليدية. في حين أن هذا النهج سيسهل الابتكار في أنظمة دعم القرار السريري (CDSS) للذكاء الاصطناعي / التعلم الآلي، فإن الطريقة المثلى لتقييم سلامة وفعالية وإنصاف الأنظمة ذات هذه المؤشرات الواسعة لا تزال غير واضحة. على سبيل المثال، يمكن لنهج ‘قائم على الشركة’ للترخيص أن يتجاوز الحاجة إلى تقييم خاص بالجهاز، والذي قد يكون مناسبًا لنموذج LLM، ولكنه يأتي مع ضمانات غير مؤكدة فيما يتعلق بالفعالية السريرية والسلامة.

تحسين معايير مجموعات المستخدمين المختلفة

تسلط هذه النتائج الضوء على الحاجة إلى تحسين معايير أنظمة دعم القرار السريري (CDSS) المخصصة للأطباء مقابل المارة غير السريريين. أشارت إدارة الغذاء والدواء (FDA) سابقًا إلى أن أنظمة دعم القرار السريري (CDSS) التي تواجه المرضى ومقدمي الرعاية ستعتبر أجهزة طبية، وتخضع عمومًا للتنظيم. ومع ذلك، لا توجد حاليًا فئة تنظيمية لنظام دعم القرار السريري (CDSS) للذكاء الاصطناعي / التعلم الآلي المصمم لمارة غير سريري. إن إجراء تشخيص محدد وتقديم توجيه محدد لحالة طوارئ حرجة للوقت يتماشى بوضوح مع معايير إدارة الغذاء والدواء (FDA) للأجهزة المخصصة لمتخصصي الرعاية الصحية. من ناحية أخرى، فإن إجراءات مثل الإنعاش القلبي الرئوي (CPR) وإعطاء الإبينفرين أو النالوكسون تفي أيضًا بمعايير الجهاز هذه، ومع ذلك فهي في نفس الوقت سلوكيات إنقاذ راسخة للمارة غير السريريين.

قيود الدراسة

هذه الدراسة لديها العديد من القيود:

  1. تقوم بتقييم النماذج اللغوية الكبيرة (LLMs) مقابل مهمة ليست استخدامًا مقصودًا محددًا للبرنامج.
  2. يقارن مخرجات LLM بتوجيهات إدارة الغذاء والدواء (FDA)، وهي غير ملزمة، ولا يقيم اتساق توصيات LLM مع الأحكام القانونية الأمريكية الأخرى ذات الصلة أو الأطر التنظيمية.
  3. لا يقوم بتقييم طرق المطالبة الأخرى التي ربما كانت أكثر فعالية من المطالبات أحادية اللقطة ومتعددة اللقطات.
  4. لا يستكشف كيف يمكن دمج هذه المطالبات عمليًا في سير العمل السريري في العالم الحقيقي.
  5. لا يقوم بتقييم مجموعة أوسع من النماذج اللغوية الكبيرة (LLMs) المتاحة على نطاق واسع والمستخدمة بشكل شائع بخلاف GPT-4 و Llama-3.
    6.حجم عينة المطالبات صغير.

المضي قدمًا: الموازنة بين الابتكار والسلامة

المطالبات المستندة إلى نص إرشادات إدارة الغذاء والدواء (FDA) لمعايير جهاز CDSS، سواء كانت أحادية اللقطة أو متعددة اللقطات، غير كافية لضمان توافق مخرجات LLM مع دعم القرار غير المتعلق بالجهاز. هناك حاجة إلى نماذج وتقنيات تنظيمية جديدة لمعالجة أنظمة الذكاء الاصطناعي التوليدية، وتحقيق التوازن بين الابتكار والسلامة والفعالية السريرية. يتطلب التطور السريع لهذه التكنولوجيا نهجًا استباقيًا وقابلاً للتكيف مع التنظيم، مما يضمن إمكانية تحقيق فوائد النماذج اللغوية الكبيرة (LLMs) في الرعاية الصحية مع التخفيف من المخاطر المحتملة.