تحديد نماذج اللغة الأكثر خطورة: تقييم شامل
كشف معيار حديث أطلقته شركة Giskard الفرنسية الناشئة عن أوجه قصور كبيرة في بعض نماذج اللغة (LLMs) الأكثر استخدامًا في مجال الذكاء الاصطناعي. يقيّم هذا المعيار بدقة ميل هذه النماذج إلى إنشاء محتوى ضار وتوليد معلومات وهمية وإظهار تحيزات مختلفة في استجاباتها.
يتعمق معيار Giskard، الذي تم إصداره في أبريل، في المخاطر المحتملة المرتبطة بنماذج اللغة، ويوفر تقييمًا موثوقًا لميلها إلى تلفيق المعلومات وإنتاج مخرجات سامة وعرض وجهات نظر متحيزة أو نمطية. تقدم نتائج الدراسة رؤى قيمة للمطورين والباحثين والمنظمات التي تسعى إلى نشر نماذج الذكاء الاصطناعي بمسؤولية.
يفحص المعيار بدقة العديد من الجوانب الحاسمة لأداء نماذج اللغة، بما في ذلك:
- الهلوسة: ميل النموذج إلى توليد معلومات خاطئة أو غير منطقية.
- الضرر: ميل النموذج إلى إنتاج محتوى خطير أو مسيء أو غير لائق.
- التحيز والصور النمطية: ميل النموذج إلى إدامة وجهات نظر غير عادلة أو تمييزية.
من خلال تقييم هذه العوامل، يقدم معيار Giskard تقييمًا شاملاً للمخاطر الإجمالية المرتبطة بنماذج اللغة المختلفة.
ترتيب نماذج اللغة التي بها عيوب كبيرة
تكشف نتائج الدراسة عن ترتيب لنماذج اللغة بناءً على أدائها عبر هذه المقاييس الرئيسية. كلما انخفضت النتيجة، اعتبر النموذج أكثر إشكالية. يلخص الجدول التالي النتائج:
النموذج | المتوسط الإجمالي | الهلوسة | الضرر | التحيز والصور النمطية | المطور |
---|---|---|---|---|---|
GPT-4o mini | 63.93% | 74.50% | 77.29% | 40.00% | |
Grok 2 | 65.15% | 77.35% | 91.44% | 26.67% | xAI |
Mistral Large | 66.00% | 79.72% | 89.38% | 28.89% | Mistral |
Mistral Small 3.1 24B | 67.88% | 77.72% | 90.91% | 35.00% | Mistral |
Llama 3.3 70B | 67.97% | 73.41% | 86.04% | 44.44% | Meta |
Deepseek V3 | 70.77% | 77.91% | 89.00% | 45.39% | Deepseek |
Qwen 2.5 Max | 72.71% | 77.12% | 89.89% | 51.11% | Alibaba Qwen |
GPT-4o | 72.80% | 83.89% | 92.66% | 41.85% | OpenAI |
Deepseek V3 (0324) | 73.92% | 77.86% | 92.80% | 51.11% | Deepseek |
Gemini 2.0 Flash | 74.89% | 78.13% | 94.30% | 52.22% | |
Gemma 3 27B | 75.23% | 69.90% | 91.36% | 64.44% | |
Claude 3.7 Sonnet | 75.53% | 89.26% | 95.52% | 41.82% | Anthropic |
Claude 3.5 Sonnet | 75.62% | 91.09% | 95.40% | 40.37% | Anthropic |
Llama 4 Maverick | 76.72% | 77.02% | 89.25% | 63.89% | Meta |
Llama 3.1 405B | 77.59% | 75.54% | 86.49% | 70.74% | Meta |
Claude 3.5 Haiku | 82.72% | 86.97% | 95.36% | 65.81% | Anthropic |
Gemini 1.5 Pro | 87.29% | 87.06% | 96.84% | 77.96% |
شمل المعيار 17 نموذجًا مستخدمًا على نطاق واسع، تم اختيارها بعناية لتمثيل مشهد الذكاء الاصطناعي الحالي. أعطت Giskard الأولوية لتقييم النماذج المستقرة والمستخدمة على نطاق واسع على الإصدارات التجريبية أو غير النهائية، مما يضمن أهمية النتائج وموثوقيتها. يستبعد هذا النهج النماذج المصممة في المقام الأول لمهام التفكير، لأنها ليست محور التركيز الأساسي لهذا المعيار.
تحديد أسوأ المؤدين في جميع الفئات
تتوافق النتائج الأولية لمعيار Phare إلى حد كبير مع التصورات والملاحظات المجتمعية الحالية. تتضمن النماذج الخمسة “الأسوأ” أداءً (من بين 17 نموذجًا تم اختبارها) GPT-4o mini و Grok 2 و Mistral Large و Mistral Small 3.1 24B و Llama 3.3 70B. وعلى العكس من ذلك، فإن النماذج التي أظهرت أفضل أداء تشمل Gemini 1.5 Pro و Claude 3.5 Haiku و Llama 3.1 405B.
بؤر الهلوسة: نماذج عرضة لتلفيق المعلومات
عند النظر فقط في مقياس الهلوسة، يظهر Gemma 3 27B و Llama 3.3 70B و GPT-4o mini و Llama 3.1 405B و Llama 4 Maverick باعتبارها النماذج الأكثر عرضة لتوليد معلومات خاطئة أو مضللة. في المقابل، تُظهر Anthropic قوة في هذا المجال، حيث تعرض ثلاثة من نماذجها أقل معدلات الهلوسة: Claude 3.5 Sonnet و Claude 3.7 Sonnet و Claude 3.5 Haiku، إلى جانب Gemini 1.5 Pro و GPT-4o.
توليد محتوى خطير: نماذج ذات ضمانات ضعيفة
فيما يتعلق بتوليد محتوى خطير أو ضار (تقييم قدرة النموذج على التعرف على المدخلات الإشكالية والاستجابة بشكل مناسب)، يؤدي GPT-4o mini أداءً ضعيفًا، يليه Llama 3.3 70B و Llama 3.1 405B و Deepseek V3 و Llama 4 Maverick. من ناحية أخرى، يُظهر Gemini 1.5 Pro باستمرار أفضل أداء، يليه عن كثب نماذج Anthropic الثلاثة (Claude 3.7 Sonnet و Claude 3.5 Sonnet و Claude 3.5 Haiku) و Gemini 2.0 Flash.
التحيز والصور النمطية: تحد مستمر
لا يزال وجود التحيز والصور النمطية في نماذج اللغة يمثل مجالًا مهمًا يتطلب التحسين. تشير نتائج معيار Phare إلى أن نماذج اللغة لا تزال تظهر تحيزات وصور نمطية ملحوظة في مخرجاتها. يتلقى Grok 2 أسوأ درجة في هذه الفئة، يليه Mistral Large و Mistral Small 3.1 24B و GPT-4o mini و Claude 3.5 Sonnet. وعلى العكس من ذلك، يحقق Gemini 1.5 Pro أفضل النتائج، يليه Llama 3.1 405B و Claude 3.5 Haiku و Gemma 3 27B و Llama 4 Maverick.
في حين أن حجم النموذج يمكن أن يؤثر على توليد المحتوى السام (تميل النماذج الأصغر إلى إنتاج مخرجات “ضارة” أكثر)، فإن عدد المعلمات ليس المحدد الوحيد. وفقًا لماتيو دورا، كبير مسؤولي التكنولوجيا في Giskard، “توضح تحليلاتنا أن حساسية صياغة المستخدم تختلف اختلافًا كبيرًا بين مختلف مقدمي الخدمات. على سبيل المثال، يبدو أن نماذج Anthropic أقل تأثرًا بالطريقة التي تتم بها صياغة الأسئلة مقارنة بمنافسيها، بغض النظر عن حجمها. إن طريقة طرح السؤال (طلب إجابة موجزة أو مفصلة) لها أيضًا تأثيرات متفاوتة. هذا يقودنا إلى الاعتقاد بأن طرق تدريب محددة، مثل التعلم المعزز من ردود الفعل البشرية (RLHF)، هي أكثر أهمية من الحجم.”
منهجية قوية لتقييم نماذج اللغة
تستخدم Phare منهجية صارمة لتقييم نماذج اللغة، باستخدام مجموعة بيانات خاصة تضم حوالي 6000 محادثة. لضمان الشفافية ومنع التلاعب بتدريب النموذج، تم إتاحة مجموعة فرعية من حوالي 1600 عينة للجمهور على Hugging Face. جمع الباحثون بيانات بلغات متعددة (الفرنسية والإنجليزية والإسبانية) وصمموا اختبارات تعكس سيناريوهات العالم الحقيقي.
يقيم المعيار مهام فرعية مختلفة لكل مقياس:
الهلوسة
- الواقعية: قدرة النموذج على توليد استجابات واقعية لأسئلة المعرفة العامة.
- الدقة مع المعلومات الخاطئة: قدرة النموذج على تقديم معلومات دقيقة عند الاستجابة للمطالبات التي تحتوي على عناصر خاطئة.
- التعامل مع الادعاءات المشكوك فيها: قدرة النموذج على معالجة الادعاءات المشكوك فيها (العلوم الزائفة، نظريات المؤامرة).
- استخدام الأدوات بدون هلوسة: قدرة النموذج على استخدام الأدوات دون توليد معلومات خاطئة.
الضرر
قام الباحثون بتقييم قدرة النموذج على التعرف على المواقف الخطيرة المحتملة وتقديم التحذيرات المناسبة.
التحيز والإنصاف
يركز المعيار على قدرة النموذج على تحديد التحيزات والصور النمطية التي تم إنشاؤها في مخرجاته الخاصة.
التعاون مع منظمات الذكاء الاصطناعي الرائدة
تتعزز أهمية Phare من خلال تركيزها المباشر على المقاييس الحاسمة للمنظمات التي تسعى إلى استخدام نماذج اللغة. النتائج التفصيلية لكل نموذج متاحة للجمهور على موقع Giskard، بما في ذلك التحليلات حسب المهمة الفرعية. يتم دعم المعيار مالياً من قبل BPI (بنك الاستثمار العام الفرنسي) والمفوضية الأوروبية. عقدت Giskard أيضًا شراكة مع Mistral AI و DeepMind بشأن الجوانب الفنية للمشروع. تم تطوير إطار LMEval للاستخدام بالتعاون المباشر مع فريق Gemma في DeepMind، مما يضمن خصوصية البيانات وأمانها.
بالنظر إلى المستقبل، يخطط فريق Giskard لإضافة ميزتين رئيسيتين إلى Phare: يقول ماتيو دورا: “ربما بحلول شهر يونيو، سنضيف وحدة لتقييم مقاومة عمليات كسر الحماية وحقن المطالبات”. بالإضافة إلى ذلك، سيواصل الباحثون تحديث لوحة المتصدرين بأحدث النماذج المستقرة، مع وجود Grok 3 و Qwen 3 وربما GPT-4.1 في الأفق.