إعادة التفكير في معايير الذكاء الاصطناعي: بحث عن قياس ذي معنى

إعادة التفكير في معايير الذكاء الاصطناعي: بحث عن قياس ذي معنى

غالبًا ما يتم تغذية السعي إلى تحقيق ذكاء اصطناعي (AI) فائق من خلال نتائج المعايير، ولكن هل تشير هذه النتائج حقًا إلى قدرات العالم الحقيقي؟ يتصارع مجتمع الذكاء الاصطناعي مع هذا السؤال حيث تواجه المعايير التقليدية تدقيقًا متزايدًا.

اكتسب SWE-Bench، الذي تم تقديمه في نوفمبر 2024، زخمًا سريعًا كأداة شائعة لتقييم براعة نموذج الذكاء الاصطناعي في البرمجة. وهي تستفيد من أكثر من 2000 تحديًا برمجيًا أصيلًا مستخرجًا من مستودعات GitHub العامة عبر عشرات المشاريع القائمة على Python. أصبحت نتيجة SWE-Bench القوية بمثابة شارة مرغوبة، يتم عرضها بشكل بارز في الإصدارات الرئيسية للنماذج من كبار مطوري الذكاء الاصطناعي مثل OpenAI وAnthropic وGoogle. بالإضافة إلى هؤلاء العمالقة، تتنافس شركات الذكاء الاصطناعي المتخصصة في الضبط الدقيق باستمرار على التفوق في لوحة متصدري SWE-Bench.

ومع ذلك، قد تكون الحماسة المحيطة بهذه المعايير مضللة. يشير جون يانغ، الباحث في جامعة برينستون والمشارك في تطوير SWE-Bench، إلى أن المنافسة الشديدة على المركز الأول أدت إلى "التلاعب" بالنظام. يثير هذا مخاوف بشأن ما إذا كانت هذه المعايير تعكس بدقة إنجازات الذكاء الاصطناعي الحقيقية.

المشكلة ليست بالضرورة غشًا صريحًا، بل هي تطوير استراتيجيات مصممة خصيصًا لاستغلال قيود المعيار. على سبيل المثال، ركز SWE-Bench الأولي فقط على كود Python، مما حفز المطورين على تدريب نماذجهم حصريًا على Python. لاحظ يانغ أن هذه النماذج عالية الأداء غالبًا ما تعثرت عند مواجهة لغات برمجة مختلفة، مما يكشف عن فهم سطحي يصفه بأنه "مطلي بالذهب".

يشرح يانغ: "يبدو الأمر لطيفًا ولامعًا للوهلة الأولى، ولكن بعد ذلك تحاول تشغيله على لغة مختلفة وينهار كل شيء نوعًا ما". "في هذه المرحلة، أنت لا تصمم وكيل هندسة برمجيات. أنت تصمم وكيل SWE-Bench، وهو أقل إثارة للاهتمام بكثير."

تعكس "مشكلة SWE-Bench" هذه تحديًا أوسع في تقييم الذكاء الاصطناعي. المعايير، التي كانت تعتبر في السابق مؤشرات موثوقة للتقدم، أصبحت منفصلة بشكل متزايد عن قدرات العالم الحقيقي. مما يزيد المشكلة تعقيدًا، ظهرت مخاوف بشأن الشفافية، مما يزيد من تآكل الثقة في هذه المقاييس. على الرغم من هذه المشكلات، تستمر المعايير في لعب دور محوري في تطوير النماذج، على الرغم من أن العديد من الخبراء يشككون في قيمتها الجوهرية. حتى أندريه كارباثي، المؤسس المشارك لـ OpenAI، وصف الوضع الحالي بأنه "أزمة تقييم"، معربًا عن أسفه لعدم وجود طرق موثوقة لقياس قدرات الذكاء الاصطناعي وغياب مسار واضح للمضي قدمًا.

تسأل فانيسا بارلي، مديرة الأبحاث في معهد جامعة ستانفورد للذكاء الاصطناعي المرتكز على الإنسان: "تاريخيًا، كانت المعايير هي الطريقة التي نقيم بها أنظمة الذكاء الاصطناعي. هل هذه هي الطريقة التي نريد بها تقييم الأنظمة في المستقبل؟ وإذا لم يكن الأمر كذلك، فما هي الطريقة؟"

يدعو فريق متزايد من الأكاديميين والباحثين في مجال الذكاء الاصطناعي إلى اتباع نهج أكثر تركيزًا، مستوحى من العلوم الاجتماعية. يقترحون إعطاء الأولوية "للمصداقية"، وهو مفهوم أساسي في العلوم الاجتماعية الكمية، والذي يقيم مدى جودة أداة القياس في التقاط البناء المقصود بدقة. قد يتحدى هذا التركيز على الصلاحية المعايير التي تقيم المفاهيم غير المحددة بشكل غامض مثل "الاستدلال" أو "المعرفة العلمية". على الرغم من أنه قد يخفف من السعي لتحقيق الذكاء الاصطناعي العام (AGI)، إلا أنه سيوفر أساسًا أكثر صلابة لتقييم النماذج الفردية.

تؤكد أبيجيل جاكوبس، الأستاذة في جامعة ميشيغان والصوت الرائد في الدفع من أجل الصلاحية، قائلة: "إن أخذ الصلاحية على محمل الجد يعني مطالبة الأشخاص في الأوساط الأكاديمية أو الصناعة أو أي مكان آخر بإظهار أن نظامهم يفعل ما يقولون إنه يفعله. أعتقد أنه يشير إلى ضعف في عالم الذكاء الاصطناعي إذا كانوا يريدون التراجع عن إظهار أنهم يستطيعون دعم ادعائهم."

حدود الاختبار التقليدي

ينبع اعتماد صناعة الذكاء الاصطناعي على المعايير من نجاحاتها السابقة، لا سيما في تحديات مثل ImageNet.

قدمت ImageNet، التي تم إطلاقها في عام 2010، للباحثين قاعدة بيانات تضم أكثر من 3 ملايين صورة مصنفة إلى 1000 فئة مختلفة. كان التحدي غير متحيز للطريقة، مما يسمح لأي خوارزمية ناجحة باكتساب المصداقية بغض النظر عن نهجها الأساسي. أصبح اختراق AlexNet في عام 2012، والذي استخدم شكلًا غير تقليدي من تدريب GPU، حجر الزاوية في الذكاء الاصطناعي الحديث. على الرغم من أن القليلين كان بإمكانهم التنبؤ بأن الشبكات العصبية الالتفافية لـ AlexNet ستطلق العنان للتعرف على الصور، إلا أن نتيجتها العالية أسكتت أي شكوك. (والجدير بالذكر أن أحد مطوري AlexNet ذهب للمشاركة في تأسيس OpenAI.)

تنبع فعالية ImageNet من التوافق الوثيق بين التحدي ومهام التعرف على الصور في العالم الحقيقي. حتى مع وجود مناقشات حول الأساليب، فإن النموذج الأعلى أداءً أظهر دائمًا أداءً فائقًا في التطبيقات العملية.

ومع ذلك، في السنوات التي تلت ذلك، طبق باحثو الذكاء الاصطناعي نفس النهج غير المتحيز للطريقة على المهام العامة بشكل متزايد. غالبًا ما يتم استخدام SWE-Bench، على سبيل المثال، كبديل لقدرة الترميز الأوسع، بينما يتم استخدام معايير نمط الاختبار الأخرى لقياس القدرة على الاستدلال. هذا النطاق الواسع يجعل من الصعب تحديد ما يقيسه معيار معين بدقة، مما يعيق التفسير المسؤول للنتائج.

أين تنهار الأمور

تجادل أنكا ريويل، طالبة الدكتوراه في جامعة ستانفورد، بأن الاتجاه نحو التعميم هو أصل مشكلة التقييم. تقول ريويل: "لقد انتقلنا من نماذج خاصة بالمهام إلى نماذج للأغراض العامة". "الأمر لا يتعلق بمهمة واحدة بعد الآن ولكن بمجموعة كاملة من المهام، لذلك يصبح التقييم أكثر صعوبة."

مثل جاكوبس، تعتقد ريويل أن "المشكلة الرئيسية في المعايير هي الصلاحية، حتى أكثر من التنفيذ العملي"، مشيرة إلى: "هذا هو المكان الذي تنهار فيه الكثير من الأمور." بالنسبة للمهام المعقدة مثل البرمجة، يكاد يكون من المستحيل احتواء كل سيناريو يمكن تصوره في مجموعة المشكلات. وبالتالي، يصبح من الصعب تحديد ما إذا كانت النتيجة الأعلى للنموذج تعكس مهارة ترميز حقيقية أم مجرد تلاعب ذكي بمجموعة المشكلات. الضغط الشديد لتحقيق نتائج قياسية يزيد من الحوافز على اتخاذ طرق مختصرة.

يأمل المطورون أن يترجم النجاح عبر عدد كبير من المعايير المحددة إلى نموذج قادر بشكل عام. ومع ذلك، فإن ظهور الذكاء الاصطناعي الوكيلي، حيث يمكن لنظام واحد دمج مجموعة معقدة من النماذج، يجعل من الصعب تقييم ما إذا كانت التحسينات في مهام معينة ستعمم. يقول سايش كابور، عالم الكمبيوتر في برينستون والناقد للممارسات المهملة في صناعة الذكاء الاصطناعي: "هناك ببساطة العديد من المقابض التي يمكنك تدويرها". "عندما يتعلق الأمر بالوكلاء، فقد تخلوا نوعًا ما عن أفضل الممارسات للتقييم."

في ورقة بحثية نُشرت في يوليو الماضي، سلط كابور الضوء على مشكلات محددة في كيفية تعامل نماذج الذكاء الاصطناعي مع معيار WebArena في عام 2024، والذي يختبر قدرة وكيل الذكاء الاصطناعي على التنقل في الويب. يتكون المعيار من أكثر من 800 مهمة يتم إجراؤها على مواقع ويب مستنسخة تحاكي Reddit وWikipedia وغيرها. اكتشف كابور وفريقه أن النموذج الفائز، STeP، استغل هيكل عناوين URL الخاصة بـ Reddit للوصول مباشرة إلى صفحات ملف تعريف المستخدم، وهو مطلب متكرر في مهام WebArena.

على الرغم من أنه ليس غشًا صريحًا، إلا أن كابور يعتبر هذا "تحريفًا خطيرًا لمدى جودة عمل الوكيل لو كان قد رأى المهام في WebArena للمرة الأولى." على الرغم من ذلك، تبنت OpenAI's web agent، Operator، منذ ذلك الحين سياسة مماثلة.

لتوضيح المزيد من المشكلات المتعلقة بمعايير الذكاء الاصطناعي، نشر كابور وفريق من الباحثين مؤخرًا ورقة بحثية تكشف عن مشكلات كبيرة في Chatbot Arena، وهو نظام تقييم جماعي شائع. أشارت النتائج التي توصلوا إليها إلى أنه يتم التلاعب بلوحة المتصدرين، حيث تشارك بعض النماذج التأسيسية العليا في اختبار خاص غير معلن وتصدر نتائجها بشكل انتقائي.

حتى ImageNet، المعيار الذي بدأ كل شيء، يواجه الآن مشاكل في الصلاحية. وجدت دراسة أجراها باحثون في جامعة واشنطن و Google Research في عام 2023 أن الخوارزميات الفائزة بـ ImageNet أظهرت "تقدمًا ضئيلًا أو معدومًا" عند تطبيقها على ست مجموعات بيانات واقعية، مما يشير إلى أن الصلاحية الخارجية للاختبار قد وصلت إلى حدها الأقصى.

الذهاب أصغر

لمعالجة مشكلة الصلاحية، يقترح بعض الباحثين إعادة ربط المعايير بمهام محددة. كما تقول ريويل، يتعين على مطوري الذكاء الاصطناعي "اللجوء إلى هذه المعايير عالية المستوى التي لا معنى لها تقريبًا للمستهلكين في المراحل النهائية، لأن مطوري المعايير لم يعودوا قادرين على توقع مهمة المراحل النهائية."

في نوفمبر 2024، أطلقت ريويل BetterBench، وهو مشروع تصنيف عام يقيم المعايير بناءً على معايير مختلفة، بما في ذلك وضوح وثائق التعليمات البرمجية، والأهم من ذلك، صلاحية المعيار في قياس قدرته المعلنة. يتحدى BetterBench المصممين لتحديد بوضوح ما تختبره معاييرهم وكيف يتعلق بالمهام التي تشكل المعيار.

تقول ريويل: "تحتاج إلى تحليل هيكلي للقدرات". "ما هي المهارات الفعلية التي تهتم بها، وكيف يمكنك تفعيلها في شيء يمكننا قياسه؟"

النتائج كاشفة. تبرز Arcade Learning Environment (ALE)، التي تأسست في عام 2013 لاختبار قدرة النماذج على تعلم كيفية لعب ألعاب Atari 2600، كواحدة من المعايير الأعلى أداءً. على العكس من ذلك، يتلقى معيار Massive Multitask Language Understanding (MMLU)، وهو اختبار مستخدم على نطاق واسع للمهارات اللغوية العامة، أحد أدنى الدرجات بسبب ضعف العلاقة المحددة بين الأسئلة والمهارة الأساسية.

على الرغم من أن BetterBench لم يؤثر بعد بشكل كبير على سمعة معايير محددة، إلا أنه نجح في جعل الصلاحية في طليعة المناقشات حول كيفية تحسين معايير الذكاء الاصطناعي. انضمت ريويل إلى مجموعة بحثية جديدة تستضيفها Hugging Face وجامعة إدنبرة و EleutherAI، حيث ستطور أفكارها حول الصلاحية وتقييم نموذج الذكاء الاصطناعي.

تقول إيرين سليمان، رئيسة السياسة العالمية في Hugging Face، إن المجموعة ستركز على بناء معايير صالحة تتجاوز قياس القدرات المباشرة. تقول سليمان: "هناك مجرد جوع كبير لمعيار جيد جاهز يعمل بالفعل". "تحاول الكثير من التقييمات القيام بالكثير."

يبدو أن الصناعة الأوسع تتلاقى حول هذا الرأي. في ورقة بحثية نُشرت في مارس، أوضح باحثون من Google وMicrosoft وAnthropic وآخرين إطارًا جديدًا لتحسين التقييمات، مع اعتبار الصلاحية حجر الزاوية.

يجادل الباحثون بأن "علم تقييم الذكاء الاصطناعي يجب أن يتجاوز الادعاءات الإجمالية بـ "الذكاء العام" نحو مقاييس أكثر تحديدًا للمهام وذات صلة بالعالم الحقيقي للتقدم."

قياس الأشياء "الرخوة"

لتسهيل هذا التحول، يلجأ بعض الباحثين إلى أدوات العلوم الاجتماعية. جادلت ورقة موقف في فبراير بأن "تقييم أنظمة GenAI هو تحدي قياس للعلوم الاجتماعية"، واستكشفت على وجه التحديد كيف يمكن تطبيق أنظمة صلاحية العلوم الاجتماعية على قياس الذكاء الاصطناعي.

يشير المؤلفون، ومعظمهم من الفرع البحثي لشركة Microsoft ولكن أيضًا بما في ذلك الأكاديميين من ستانفورد وجامعة ميشيغان، إلى المعايير التي يستخدمها علماء الاجتماع لقياس المفاهيم المتنازع عليها مثل الأيديولوجية والديمقراطية والتحيز الإعلامي. عند تطبيقها على معايير الذكاء الاصطناعي، يمكن أن توفر هذه الإجراءات نفسها طريقة لقياس مفاهيم مثل "الاستدلال" و "الكفاءة في الرياضيات" دون اللجوء إلى تعميمات ضبابية.

تؤكد أدبيات العلوم الاجتماعية على أهمية تحديد المفهوم الذي يتم قياسه بدقة. على سبيل المثال، يجب على الاختبار المصمم لقياس مستوى الديمقراطية في مجتمع ما أن يضع أولاً تعريفًا واضحًا لـ "مجتمع ديمقراطي" ثم يصوغ أسئلة ذات صلة بهذا التعريف.

لتطبيق هذا على معيار مثل SWE-Bench، سيحتاج المصممون إلى التخلي عن نهج التعلم الآلي التقليدي المتمثل في جمع مشاكل البرمجة من GitHub وإنشاء مخطط للتحقق من صحة الإجابات. بدلاً من ذلك، سيحددون أولاً ما يهدف المعيار إلى قياسه (على سبيل المثال، "القدرة على حل المشكلات التي تم الإبلاغ عنها في البرنامج")، وتقسيم ذلك إلى مهارات فرعية (على سبيل المثال، أنواع مختلفة من المشكلات أو هياكل البرامج)، ثم صياغة أسئلة تغطي تلك المهارات الفرعية بدقة.

بالنسبة للباحثين مثل جاكوبس، هذا التحول العميق من الطريقة التي يتعامل بها باحثو الذكاء الاصطناعي عادةً مع وضع المعايير هو بالضبط الهدف. تقول: "هناك عدم تطابق بين ما يحدث في صناعة التكنولوجيا وهذه الأدوات من العلوم الاجتماعية". "لدينا عقود وعقود من التفكير في كيفية قياس هذه الأشياء الرخوة عن البشر."

على الرغم من التأثير المتزايد لهذه الأفكار في مجتمع البحث، إلا أن تأثيرها على كيفية استخدام شركات الذكاء الاصطناعي للمعايير فعليًا كان بطيئًا.

لا تزال الإصدارات الأخيرة للنماذج من OpenAI وAnthropic وGoogle وMeta تعتمد بشكل كبير على معايير المعرفة متعددة الخيارات مثل MMLU، وهو نفس النهج الذي يحاول باحثو الصلاحية تجاوزه. تركز إصدارات النماذج، في معظمها، على إظهار الزيادات في الذكاء العام، ويتم استخدام المعايير الواسعة لدعم هذه الادعاءات.

يجد بعض المراقبين هذا مُرضيًا. يقترح أستاذ وارتون إيثان موليك أن المعايير، على الرغم من كونها "مقاييس سيئة للأشياء، هي أيضًا ما لدينا." ويضيف: "في الوقت نفسه، تتحسن النماذج. يتم التسامح مع الكثير من الخطايا من خلال التقدم السريع."

في الوقت الحالي، يبدو أن تركيز الصناعة الذي طال أمده على الذكاء الاصطناعي العام يطغى على نهج أكثر تركيزًا وقائمًا على الصلاحية. طالما استمرت نماذج الذكاء الاصطناعي في التقدم في الذكاء العام، تبدو التطبيقات المحددة أقل إقناعًا، حتى لو كان الممارسون يستخدمون أدوات لم يعودوا يثقون بها تمامًا.

تقول سليمان من Hugging Face: "هذا هو الحبل المشدود الذي نسير عليه". "من السهل جدًا التخلص من النظام، لكن التقييمات مفيدة حقًا في فهم نماذجنا، حتى مع هذه القيود."