نتائج مقلقة من تحقيق Enkrypt AI
ركز تحليل Enkrypt AI على نموذجين من نماذج الرؤية اللغوية لـ Mistral، وتحديدًا Pixtral-Large 25.02 و Pixtral-12B. هذه النماذج متاحة بسهولة من خلال منصات شهيرة مثل AWS Bedrock وواجهة Mistral الخاصة، مما يثير مخاوف بشأن سوء الاستخدام المحتمل على نطاق واسع. أخضع الباحثون هذه النماذج لاختبارات معارضة صارمة، مصممة بدقة لتكرار التكتيكات التي يستخدمها المخربون في سيناريوهات العالم الحقيقي.
كانت نتائج هذه الاختبارات مقلقة. أظهرت نماذج Pixtral ميلًا متزايدًا بشكل صارخ لتوليد مواد إباحية للأطفال (CSAM)، بمعدل أعلى بـ 60 مرة من الأنظمة المنافسة. علاوة على ذلك، وجد أنها أكثر عرضة لإنتاج معلومات خطيرة متعلقة بالمواد الكيميائية والبيولوجية والإشعاعية والنووية (CBRN) بما يصل إلى 40 مرة. وشملت هذه الشركات المنافسة نماذج بارزة مثل GPT-4o من OpenAI و Claude 3.7 Sonnet من Anthropic. ومن اللافت للنظر أن ثلثي المطالبات الضارة المستخدمة في الدراسة نجحت في استخلاص محتوى غير آمن من نماذج Mistral، مما يؤكد خطورة نقاط الضعف.
الآثار الواقعية للعيوب الأمنية في الذكاء الاصطناعي
وفقًا للباحثين، فإن نقاط الضعف هذه ليست مجرد مخاوف نظرية. وأكد ساهيل أغاروال، الرئيس التنفيذي لشركة Enkrypt AI، على إمكانية حدوث ضرر كبير، لا سيما للفئات السكانية الضعيفة، إذا لم يتم إعطاء الأولوية لـ “نهج السلامة أولاً” في تطوير ونشر الذكاء الاصطناعي متعدد الوسائط.
ورداً على هذه النتائج، أكد متحدث باسم AWS أن سلامة وأمن الذكاء الاصطناعي هما “مبدآن أساسيان” للشركة. وأعلنوا عن التزامهم بالتعاون مع مزودي النماذج والباحثين الأمنيين للتخفيف من المخاطر وتنفيذ ضمانات قوية تحمي المستخدمين مع تعزيز الابتكار. اعتبارًا من تاريخ إصدار التقرير، لم تقدم Mistral تعليقًا على النتائج، وأفادت Enkrypt AI أن الفريق التنفيذي لشركة Mistral رفض التعليق.
منهجية الاختبار القوية لـ Enkrypt AI
توصف منهجية Enkrypt AI بأنها “ترتكز على إطار عمل متكرر وسليم علميًا”. يجمع إطار العمل بين المدخلات القائمة على الصور - بما في ذلك الاختلافات المطبعية والاختزالية - مع المطالبات المستوحاة من حالات الإساءة الفعلية، وفقًا لأغاروال. كان الهدف هو محاكاة الظروف التي قد يحاول في ظلها المستخدمون الضارون، بما في ذلك المجموعات التي ترعاها الدولة والأفراد العاملون في المنتديات السرية، استغلال هذه النماذج.
تضمن التحقيق هجمات الطبقة التصويرية، مثل الضوضاء المخفية والمحفزات الاختزالية، التي تمت دراستها مسبقًا. ومع ذلك، سلط التقرير الضوء على فعالية الهجمات المطبعية، حيث يتم تضمين نص ضار بشكل واضح داخل الصورة. وأشار أغاروال إلى أن “أي شخص لديه محرر صور أساسي ووصول إلى الإنترنت يمكنه إجراء أنواع الهجمات التي أظهرناها”. غالبًا ما كانت النماذج تستجيب للنص المضمن بصريًا كما لو كان إدخالًا مباشرًا، متجاوزة بشكل فعال عوامل تصفية الأمان الحالية.
تفاصيل الاختبار العدائي
تضمنت مجموعة البيانات العدائية لـ Enkrypt 500 مطالبة مصممة خصيصًا لاستهداف سيناريوهات CSAM، جنبًا إلى جنب مع 200 مطالبة مصممة لاستكشاف نقاط ضعف CBRN. تم تحويل هذه المطالبات بعد ذلك إلى أزواج صور نصية لتقييم مرونة النماذج في ظل الظروف متعددة الوسائط. شملت اختبارات CSAM مجموعة من الفئات، بما في ذلك الأفعال الجنسية والابتزاز والاستمالة. في كل حالة، قام مقيمون بشريون بمراجعة استجابات النماذج لتحديد الامتثال الضمني أو اللغة الموحية أو أي إخفاق في الانسحاب من المحتوى الضار.
استكشفت اختبارات CBRN تركيب ومناولة العوامل الكيميائية السامة، وتوليد معرفة الأسلحة البيولوجية، والتهديدات الإشعاعية، والانتشار النووي. في عدة حالات، قدمت النماذج استجابات مفصلة للغاية تتضمن مواد وأساليب صنع الأسلحة. وذكر أحد الأمثلة المثيرة للقلق بشكل خاص الواردة في التقرير طريقة لتعديل عامل الأعصاب VX كيميائيًا لزيادة ثباته البيئي، مما يدل على خطر واضح وحاضر.
الافتقار إلى التوافق القوي: نقطة ضعف رئيسية
عزا أغاروال نقاط الضعف في المقام الأول إلى نقص في التوافق القوي، لا سيما في الضبط الآمن بعد التدريب. اختارت Enkrypt AI نماذج Pixtral لهذا البحث بسبب شعبيتها المتزايدة وإمكانية الوصول إليها على نطاق واسع من خلال المنصات العامة. وذكر أن “النماذج التي يمكن الوصول إليها بشكل عام تشكل مخاطر أوسع إذا تركت دون اختبار، ولهذا السبب نعطيها الأولوية للتحليل المبكر.”
تشير نتائج التقرير إلى أن عوامل تصفية المحتوى متعدد الوسائط الحالية غالبًا ما تفشل في اكتشاف هذه الهجمات بسبب نقص الوعي بالسياق. جادل أغاروال بأن أنظمة السلامة الفعالة يجب أن تكون “واعية بالسياق”، وقادرة على فهم ليس فقط الإشارات على مستوى السطح ولكن أيضًا منطق الأعمال والحدود التشغيلية للنشر الذي تحميه.
الآثار الأوسع والدعوة إلى العمل
تتجاوز الآثار المترتبة على هذه النتائج المناقشات الفنية. وأكدت Enkrypt أن القدرة على تضمين تعليمات ضارة داخل صور تبدو غير ضارة لها عواقب ملموسة على مسؤولية المؤسسة والسلامة العامة وحماية الطفل. وحث التقرير على التنفيذ الفوري لاستراتيجيات التخفيف، بما في ذلك التدريب على سلامة النموذج، والحواجز الواعية بالسياق، والإفصاحات الشفافة عن المخاطر.وصف أغاروال البحث بأنه “دعوة للاستيقاظ”، قائلاً إن الذكاء الاصطناعي متعدد الوسائط يعد بـ “فوائد لا تصدق، لكنه يوسع أيضًا سطح الهجوم بطرق لا يمكن التنبؤ بها.”
معالجة مخاطر الذكاء الاصطناعي متعدد الوسائط
يسلط تقرير Enkrypt AI الضوء على نقاط الضعف الحرجة في بروتوكولات السلامة الحالية للذكاء الاصطناعي، لا سيما فيما يتعلق بالنماذج متعددة الوسائط مثل تلك التي طورتها Mistral AI. هذه النماذج، التي يمكنها معالجة مدخلات الصور والنص، تمثل تحديات جديدة لعوامل تصفية الأمان وأنظمة الإشراف على المحتوى. إن القدرة على تضمين تعليمات ضارة داخل الصور، متجاوزة عوامل التصفية التقليدية القائمة على النصوص، تخلق خطرًا كبيرًا لنشر المعلومات الخطيرة، بما في ذلك مواد إباحية للأطفال وتعليمات حول إنشاء أسلحة كيميائية.
الحاجة إلى تدابير سلامة محسنة
يؤكد التقرير على الحاجة الملحة إلى تدابير سلامة محسنة في تطوير ونشر نماذج الذكاء الاصطناعي. يجب أن تتضمن هذه الإجراءات ما يلي:
التدريب على المواءمة القوية: يجب أن تخضع نماذج الذكاء الاصطناعي لتدريب صارم على المواءمة لضمان توافقها مع القيم الإنسانية والمبادئ الأخلاقية. يجب أن يركز هذا التدريب على منع توليد محتوى ضار وتعزيز الاستخدام المسؤول للتكنولوجيا.
الحواجز الواعية بالسياق: يجب أن تكون أنظمة السلامة واعية بالسياق، مما يعني أنها يجب أن تكون قادرة على فهم السياق الذي تستخدم فيه نماذج الذكاء الاصطناعي وتكييف استجاباتها وفقًا لذلك. يتطلب هذا تطوير خوارزميات متطورة يمكنها تحليل المعنى والنية الكامنة وراء مدخلات المستخدم، بدلاً من مجرد الاعتماد على إشارات على مستوى السطح.
الإفصاحات الشفافة عن المخاطر: يجب أن يكون المطورون شفافين بشأن المخاطر المرتبطة بنماذج الذكاء الاصطناعي الخاصة بهم وتقديم إرشادات واضحة حول كيفية التخفيف من تلك المخاطر. يتضمن ذلك الكشف عن القيود المفروضة على عوامل تصفية الأمان وأنظمة الإشراف على المحتوى، بالإضافة إلى تزويد المستخدمين بأدوات للإبلاغ عن المحتوى الضار.
المراقبة والتقييم المستمران: يجب مراقبة وتقييم نماذج الذكاء الاصطناعي باستمرار لتحديد ومعالجة نقاط الضعف المحتملة في السلامة. يتطلب هذا بحثًا وتطويرًا مستمرين للبقاء في الطليعة والتكيف مع تدابير السلامة وفقًا لذلك.
دور التعاون
تتطلب معالجة مخاطر الذكاء الاصطناعي متعدد الوسائط التعاون بين مطوري الذكاء الاصطناعي والباحثين الأمنيين وصانعي السياسات وأصحاب المصلحة الآخرين. من خلال العمل معًا، يمكن لهذه المجموعات تطوير استراتيجيات فعالة للتخفيف من مخاطر الذكاء الاصطناعي وضمان استخدام هذه التكنولوجيا لصالح المجتمع.
الطريق إلى الأمام
يعد تقرير Enkrypt AI بمثابة تذكير صارخ بالمخاطر المحتملة لتطوير الذكاء الاصطناعي غير المنضبط. من خلال اتخاذ خطوات استباقية لمعالجة نقاط الضعف في السلامة المحددة في التقرير، يمكننا ضمان تطوير الذكاء الاصطناعي متعدد الوسائط ونشره بمسؤولية، وتقليل مخاطر الضرر وتعظيم الفوائد المحتملة. يعتمد مستقبل الذكاء الاصطناعي على قدرتنا على إعطاء الأولوية للسلامة والأخلاق في كل مرحلة من مراحل عملية التطوير. عندها فقط يمكننا إطلاق العنان للإمكانات التحويلية للذكاء الاصطناعي مع حماية المجتمع من أضراره المحتملة.