خطرناک‌ترین مدل‌های هوش مصنوعی: خطرات و تعصبات

یک مطالعه محک‌زنی اخیر توسط استارتاپ فرانسوی Giskard، کمبودهای قابل توجه برخی از پرکاربردترین مدل‌های زبانی (LLM) در چشم‌انداز هوش مصنوعی را برجسته کرده است. این مطالعه به طور دقیق تمایل این مدل‌ها به تولید محتوای مضر، اطلاعات توهم‌زا و نشان دادن تعصبات مختلف در پاسخ‌هایشان را ارزیابی می‌کند.

شناسایی خطرناک‌ترین LLMها: یک ارزیابی جامع

محک Giskard که در ماه آوریل منتشر شد، به خطرات بالقوه مرتبط با LLMها می‌پردازد و یک ارزیابی قابل اعتماد از تمایل آنها به جعل اطلاعات، تولید خروجی‌های سمی و نمایش دیدگاه‌های متعصبانه یا کلیشه‌ای ارائه می‌دهد. یافته‌های این مطالعه بینش‌های ارزشمندی را برای توسعه‌دهندگان، محققان و سازمان‌هایی که به دنبال استقرار مسئولانه مدل‌های هوش مصنوعی هستند، ارائه می‌دهد.

این محک به طور دقیق چندین جنبه مهم از عملکرد LLM را بررسی می‌کند، از جمله:

  • توهم‌زایی (Hallucination): تمایل مدل به تولید اطلاعات نادرست یا بی‌معنی.
  • مضر بودن (Harmfulness): تمایل مدل به تولید محتوای خطرناک، توهین‌آمیز یا نامناسب.
  • تعصب و کلیشه‌ها (Bias and Stereotypes): تمایل مدل به تداوم دیدگاه‌های ناعادلانه یا تبعیض‌آمیز.

با ارزیابی این عوامل، محک Giskard یک ارزیابی جامع از خطر کلی مرتبط با LLMهای مختلف ارائه می‌دهد.

رتبه‌بندی LLMها با مهم‌ترین نقص‌ها

یافته‌های این مطالعه رتبه‌بندی LLMها را بر اساس عملکردشان در این معیارهای کلیدی نشان می‌دهد. هرچه امتیاز کمتر باشد، مدل مشکل‌سازتر در نظر گرفته می‌شود. جدول زیر نتایج را خلاصه می‌کند:

مدل میانگین کلی توهم‌زایی مضر بودن تعصب و کلیشه‌ها توسعه‌دهنده
GPT-4o mini 63.93% 74.50% 77.29% 40.00%
Grok 2 65.15% 77.35% 91.44% 26.67% xAI
Mistral Large 66.00% 79.72% 89.38% 28.89% Mistral
Mistral Small 3.1 24B 67.88% 77.72% 90.91% 35.00% Mistral
Llama 3.3 70B 67.97% 73.41% 86.04% 44.44% Meta
Deepseek V3 70.77% 77.91% 89.00% 45.39% Deepseek
Qwen 2.5 Max 72.71% 77.12% 89.89% 51.11% Alibaba Qwen
GPT-4o 72.80% 83.89% 92.66% 41.85% OpenAI
Deepseek V3 (0324) 73.92% 77.86% 92.80% 51.11% Deepseek
Gemini 2.0 Flash 74.89% 78.13% 94.30% 52.22% Google
Gemma 3 27B 75.23% 69.90% 91.36% 64.44% Google
Claude 3.7 Sonnet 75.53% 89.26% 95.52% 41.82% Anthropic
Claude 3.5 Sonnet 75.62% 91.09% 95.40% 40.37% Anthropic
Llama 4 Maverick 76.72% 77.02% 89.25% 63.89% Meta
Llama 3.1 405B 77.59% 75.54% 86.49% 70.74% Meta
Claude 3.5 Haiku 82.72% 86.97% 95.36% 65.81% Anthropic
Gemini 1.5 Pro 87.29% 87.06% 96.84% 77.96% Google

این محک شامل 17 مدل پرکاربرد بود که به دقت انتخاب شده بودند تا نمایانگر چشم‌انداز فعلی هوش مصنوعی باشند. Giskard ارزیابی مدل‌های پایدار و پرکاربرد را بر نسخه‌های آزمایشی یا نهایی نشده اولویت داد و از مرتبط بودن و قابل اعتماد بودن نتایج اطمینان حاصل کرد. این رویکرد مدل‌هایی را که عمدتاً برای وظایف استدلال طراحی شده‌اند، حذف می‌کند، زیرا آنها تمرکز اصلی این محک نیستند.

شناسایی بدترین عملکردها در تمام دسته‌ها

یافته‌های اولیه محک Phare تا حد زیادی با برداشت‌ها و بازخوردهای موجود در جامعه همسو است. پنج مدل با بدترین عملکرد (از بین 17 مدل آزمایش شده) شامل GPT-4o mini، Grok 2، Mistral Large، Mistral Small 3.1 24B و Llama 3.3 70B هستند. در مقابل، مدل‌هایی که بهترین عملکرد را نشان می‌دهند شامل Gemini 1.5 Pro، Claude 3.5 Haiku و Llama 3.1 405B هستند.

نقاط داغ توهم‌زایی: مدل‌هایی که مستعد جعل اطلاعات هستند

هنگامی که صرفاً معیار توهم‌زایی در نظر گرفته شود، Gemma 3 27B، Llama 3.3 70B، GPT-4o mini، Llama 3.1 405B و Llama 4 Maverick به عنوان مدل‌هایی ظاهر می‌شوند که بیشتر مستعد تولید اطلاعات نادرست یا گمراه‌کننده هستند. در مقابل، Anthropic در این زمینه قدرت نشان می‌دهد، به طوری که سه مدل آن کمترین نرخ توهم‌زایی را نشان می‌دهند: Claude 3.5 Sonnet، Claude 3.7 Sonnet و Claude 3.5 Haiku، همراه با Gemini 1.5 Pro و GPT-4o.

تولید محتوای خطرناک: مدل‌هایی با حفاظ‌های ضعیف

در مورد تولید محتوای خطرناک یا مضر (ارزیابی توانایی مدل در تشخیص ورودی‌های مشکل‌ساز و پاسخ مناسب)، GPT-4o mini ضعیف‌ترین عملکرد را دارد و پس از آن Llama 3.3 70B، Llama 3.1 405B، Deepseek V3 و Llama 4 Maverick قرار دارند. از سوی دیگر، Gemini 1.5 Pro به طور مداوم بهترین عملکرد را نشان می‌دهد و پس از آن سه مدل Anthropic (Claude 3.7 Sonnet، Claude 3.5 Sonnet و Claude 3.5 Haiku) و Gemini 2.0 Flash قرار دارند.

تعصب و کلیشه‌ها: یک چالش مداوم

وجود تعصب و کلیشه‌ها در LLMها همچنان یک حوزه مهم است که نیاز به بهبود دارد. نتایج محک Phare نشان می‌دهد که LLMها هنوز تعصبات و کلیشه‌های مشخصی را در خروجی‌های خود نشان می‌دهند. Grok 2 بدترین امتیاز را در این دسته دریافت می‌کند و پس از آن Mistral Large، Mistral Small 3.1 24B، GPT-4o mini و Claude 3.5 Sonnet قرار دارند. در مقابل، Gemini 1.5 Pro بهترین امتیازات را کسب می‌کند و پس از آن Llama 3.1 405B، Claude 3.5 Haiku، Gemma 3 27B و Llama 4 Maverick قرار دارند.

در حالی که اندازه مدل می‌تواند بر تولید محتوای سمی تأثیر بگذارد (مدل‌های کوچکتر تمایل به تولید خروجی‌های “مضر” بیشتری دارند)، تعداد پارامترها تنها عامل تعیین کننده نیست. به گفته متئو دورا، CTO Giskard، «تجزیه و تحلیل‌های ما نشان می‌دهد که حساسیت به نحوه بیان کاربران در بین ارائه‌دهندگان مختلف بسیار متفاوت است. به عنوان مثال، به نظر می‌رسد مدل‌های Anthropic در مقایسه با رقبای خود، صرف نظر از اندازه، کمتر تحت تأثیر نحوه طرح سؤالات قرار می‌گیرند. نحوه پرسیدن سؤال (درخواست پاسخ مختصر یا مفصل) نیز اثرات متفاوتی دارد. این ما را به این باور می‌رساند که روش‌های آموزش خاص، مانند یادگیری تقویتی از بازخورد انسانی (RLHF)، مهم‌تر از اندازه هستند.»

یک روش‌شناسی قوی برای ارزیابی LLMها

Phare از یک روش‌شناسی دقیق برای ارزیابی LLMها استفاده می‌کند و از یک مجموعه داده خصوصی متشکل از تقریباً 6000 مکالمه استفاده می‌کند. برای اطمینان از شفافیت در عین جلوگیری از دستکاری آموزش مدل، زیرمجموعه‌ای از تقریباً 1600 نمونه به طور عمومی در Hugging Face در دسترس قرار گرفته است. محققان داده‌ها را به چندین زبان (فرانسوی، انگلیسی، اسپانیایی) جمع‌آوری کردند و آزمایش‌هایی را طراحی کردند که منعکس کننده سناریوهای واقعی باشند.

این محک زیروظیفه‌های مختلفی را برای هر معیار ارزیابی می‌کند:

توهم‌زایی

  • واقعیت (Factuality): توانایی مدل در تولید پاسخ‌های واقعی به سؤالات دانش عمومی.
  • دقت با اطلاعات نادرست (Accuracy with False Information): توانایی مدل در ارائه اطلاعات دقیق هنگام پاسخ دادن به درخواست‌هایی که حاوی عناصر نادرست هستند.
  • رسیدگی به ادعاهای مشکوک (Handling Dubious Claims): توانایی مدل در پردازش ادعاهای مشکوک (شبه علم، تئوری‌های توطئه).
  • استفاده از ابزار بدون توهم‌زایی (Tool Usage without Hallucination): توانایی مدل در استفاده از ابزارها بدون تولید اطلاعات نادرست.

مضر بودن

محققان توانایی مدل را در تشخیص موقعیت‌های بالقوه خطرناک و ارائه هشدارهای مناسب ارزیابی کردند.

تعصب و انصاف

این محک بر توانایی مدل در شناسایی تعصبات و کلیشه‌های تولید شده در خروجی‌های خود تمرکز دارد.

همکاری با سازمان‌های پیشرو هوش مصنوعی

اهمیت Phare با تمرکز مستقیم آن بر معیارهایی که برای سازمان‌هایی که به دنبال استفاده از LLMها هستند، حیاتی است، بیشتر شده است. نتایج دقیق برای هر مدل به طور عمومی در وب سایت Giskard در دسترس است، از جمله تجزیه و تحلیل بر اساس زیروظیفه. این محک از نظر مالی توسط BPI (بانک سرمایه‌گذاری عمومی فرانسه) و کمیسیون اروپا پشتیبانی می‌شود. Giskard همچنین با Mistral AI و DeepMind در جنبه‌های فنی این پروژه همکاری کرده است. چارچوب LMEval برای استفاده مستقیم با همکاری تیم Gemma در DeepMind توسعه داده شد و از حریم خصوصی و امنیت داده‌ها اطمینان حاصل شد.

با نگاهی به آینده، تیم Giskard قصد دارد دو ویژگی کلیدی به Phare اضافه کند: متئو دورا می‌گوید: «احتمالاً تا ژوئن، ما یک ماژول برای ارزیابی مقاومت در برابر فرارهای زندان و تزریق دستورالعمل اضافه خواهیم کرد.» علاوه بر این، محققان به روز رسانی جدول امتیازات را با جدیدترین مدل‌های پایدار ادامه خواهند داد، با Grok 3، Qwen 3 و به طور بالقوه GPT-4.1 در افق.