یک مطالعه محکزنی اخیر توسط استارتاپ فرانسوی Giskard، کمبودهای قابل توجه برخی از پرکاربردترین مدلهای زبانی (LLM) در چشمانداز هوش مصنوعی را برجسته کرده است. این مطالعه به طور دقیق تمایل این مدلها به تولید محتوای مضر، اطلاعات توهمزا و نشان دادن تعصبات مختلف در پاسخهایشان را ارزیابی میکند.
شناسایی خطرناکترین LLMها: یک ارزیابی جامع
محک Giskard که در ماه آوریل منتشر شد، به خطرات بالقوه مرتبط با LLMها میپردازد و یک ارزیابی قابل اعتماد از تمایل آنها به جعل اطلاعات، تولید خروجیهای سمی و نمایش دیدگاههای متعصبانه یا کلیشهای ارائه میدهد. یافتههای این مطالعه بینشهای ارزشمندی را برای توسعهدهندگان، محققان و سازمانهایی که به دنبال استقرار مسئولانه مدلهای هوش مصنوعی هستند، ارائه میدهد.
این محک به طور دقیق چندین جنبه مهم از عملکرد LLM را بررسی میکند، از جمله:
- توهمزایی (Hallucination): تمایل مدل به تولید اطلاعات نادرست یا بیمعنی.
- مضر بودن (Harmfulness): تمایل مدل به تولید محتوای خطرناک، توهینآمیز یا نامناسب.
- تعصب و کلیشهها (Bias and Stereotypes): تمایل مدل به تداوم دیدگاههای ناعادلانه یا تبعیضآمیز.
با ارزیابی این عوامل، محک Giskard یک ارزیابی جامع از خطر کلی مرتبط با LLMهای مختلف ارائه میدهد.
رتبهبندی LLMها با مهمترین نقصها
یافتههای این مطالعه رتبهبندی LLMها را بر اساس عملکردشان در این معیارهای کلیدی نشان میدهد. هرچه امتیاز کمتر باشد، مدل مشکلسازتر در نظر گرفته میشود. جدول زیر نتایج را خلاصه میکند:
مدل | میانگین کلی | توهمزایی | مضر بودن | تعصب و کلیشهها | توسعهدهنده |
---|---|---|---|---|---|
GPT-4o mini | 63.93% | 74.50% | 77.29% | 40.00% | |
Grok 2 | 65.15% | 77.35% | 91.44% | 26.67% | xAI |
Mistral Large | 66.00% | 79.72% | 89.38% | 28.89% | Mistral |
Mistral Small 3.1 24B | 67.88% | 77.72% | 90.91% | 35.00% | Mistral |
Llama 3.3 70B | 67.97% | 73.41% | 86.04% | 44.44% | Meta |
Deepseek V3 | 70.77% | 77.91% | 89.00% | 45.39% | Deepseek |
Qwen 2.5 Max | 72.71% | 77.12% | 89.89% | 51.11% | Alibaba Qwen |
GPT-4o | 72.80% | 83.89% | 92.66% | 41.85% | OpenAI |
Deepseek V3 (0324) | 73.92% | 77.86% | 92.80% | 51.11% | Deepseek |
Gemini 2.0 Flash | 74.89% | 78.13% | 94.30% | 52.22% | |
Gemma 3 27B | 75.23% | 69.90% | 91.36% | 64.44% | |
Claude 3.7 Sonnet | 75.53% | 89.26% | 95.52% | 41.82% | Anthropic |
Claude 3.5 Sonnet | 75.62% | 91.09% | 95.40% | 40.37% | Anthropic |
Llama 4 Maverick | 76.72% | 77.02% | 89.25% | 63.89% | Meta |
Llama 3.1 405B | 77.59% | 75.54% | 86.49% | 70.74% | Meta |
Claude 3.5 Haiku | 82.72% | 86.97% | 95.36% | 65.81% | Anthropic |
Gemini 1.5 Pro | 87.29% | 87.06% | 96.84% | 77.96% |
این محک شامل 17 مدل پرکاربرد بود که به دقت انتخاب شده بودند تا نمایانگر چشمانداز فعلی هوش مصنوعی باشند. Giskard ارزیابی مدلهای پایدار و پرکاربرد را بر نسخههای آزمایشی یا نهایی نشده اولویت داد و از مرتبط بودن و قابل اعتماد بودن نتایج اطمینان حاصل کرد. این رویکرد مدلهایی را که عمدتاً برای وظایف استدلال طراحی شدهاند، حذف میکند، زیرا آنها تمرکز اصلی این محک نیستند.
شناسایی بدترین عملکردها در تمام دستهها
یافتههای اولیه محک Phare تا حد زیادی با برداشتها و بازخوردهای موجود در جامعه همسو است. پنج مدل با بدترین عملکرد (از بین 17 مدل آزمایش شده) شامل GPT-4o mini، Grok 2، Mistral Large، Mistral Small 3.1 24B و Llama 3.3 70B هستند. در مقابل، مدلهایی که بهترین عملکرد را نشان میدهند شامل Gemini 1.5 Pro، Claude 3.5 Haiku و Llama 3.1 405B هستند.
نقاط داغ توهمزایی: مدلهایی که مستعد جعل اطلاعات هستند
هنگامی که صرفاً معیار توهمزایی در نظر گرفته شود، Gemma 3 27B، Llama 3.3 70B، GPT-4o mini، Llama 3.1 405B و Llama 4 Maverick به عنوان مدلهایی ظاهر میشوند که بیشتر مستعد تولید اطلاعات نادرست یا گمراهکننده هستند. در مقابل، Anthropic در این زمینه قدرت نشان میدهد، به طوری که سه مدل آن کمترین نرخ توهمزایی را نشان میدهند: Claude 3.5 Sonnet، Claude 3.7 Sonnet و Claude 3.5 Haiku، همراه با Gemini 1.5 Pro و GPT-4o.
تولید محتوای خطرناک: مدلهایی با حفاظهای ضعیف
در مورد تولید محتوای خطرناک یا مضر (ارزیابی توانایی مدل در تشخیص ورودیهای مشکلساز و پاسخ مناسب)، GPT-4o mini ضعیفترین عملکرد را دارد و پس از آن Llama 3.3 70B، Llama 3.1 405B، Deepseek V3 و Llama 4 Maverick قرار دارند. از سوی دیگر، Gemini 1.5 Pro به طور مداوم بهترین عملکرد را نشان میدهد و پس از آن سه مدل Anthropic (Claude 3.7 Sonnet، Claude 3.5 Sonnet و Claude 3.5 Haiku) و Gemini 2.0 Flash قرار دارند.
تعصب و کلیشهها: یک چالش مداوم
وجود تعصب و کلیشهها در LLMها همچنان یک حوزه مهم است که نیاز به بهبود دارد. نتایج محک Phare نشان میدهد که LLMها هنوز تعصبات و کلیشههای مشخصی را در خروجیهای خود نشان میدهند. Grok 2 بدترین امتیاز را در این دسته دریافت میکند و پس از آن Mistral Large، Mistral Small 3.1 24B، GPT-4o mini و Claude 3.5 Sonnet قرار دارند. در مقابل، Gemini 1.5 Pro بهترین امتیازات را کسب میکند و پس از آن Llama 3.1 405B، Claude 3.5 Haiku، Gemma 3 27B و Llama 4 Maverick قرار دارند.
در حالی که اندازه مدل میتواند بر تولید محتوای سمی تأثیر بگذارد (مدلهای کوچکتر تمایل به تولید خروجیهای “مضر” بیشتری دارند)، تعداد پارامترها تنها عامل تعیین کننده نیست. به گفته متئو دورا، CTO Giskard، «تجزیه و تحلیلهای ما نشان میدهد که حساسیت به نحوه بیان کاربران در بین ارائهدهندگان مختلف بسیار متفاوت است. به عنوان مثال، به نظر میرسد مدلهای Anthropic در مقایسه با رقبای خود، صرف نظر از اندازه، کمتر تحت تأثیر نحوه طرح سؤالات قرار میگیرند. نحوه پرسیدن سؤال (درخواست پاسخ مختصر یا مفصل) نیز اثرات متفاوتی دارد. این ما را به این باور میرساند که روشهای آموزش خاص، مانند یادگیری تقویتی از بازخورد انسانی (RLHF)، مهمتر از اندازه هستند.»
یک روششناسی قوی برای ارزیابی LLMها
Phare از یک روششناسی دقیق برای ارزیابی LLMها استفاده میکند و از یک مجموعه داده خصوصی متشکل از تقریباً 6000 مکالمه استفاده میکند. برای اطمینان از شفافیت در عین جلوگیری از دستکاری آموزش مدل، زیرمجموعهای از تقریباً 1600 نمونه به طور عمومی در Hugging Face در دسترس قرار گرفته است. محققان دادهها را به چندین زبان (فرانسوی، انگلیسی، اسپانیایی) جمعآوری کردند و آزمایشهایی را طراحی کردند که منعکس کننده سناریوهای واقعی باشند.
این محک زیروظیفههای مختلفی را برای هر معیار ارزیابی میکند:
توهمزایی
- واقعیت (Factuality): توانایی مدل در تولید پاسخهای واقعی به سؤالات دانش عمومی.
- دقت با اطلاعات نادرست (Accuracy with False Information): توانایی مدل در ارائه اطلاعات دقیق هنگام پاسخ دادن به درخواستهایی که حاوی عناصر نادرست هستند.
- رسیدگی به ادعاهای مشکوک (Handling Dubious Claims): توانایی مدل در پردازش ادعاهای مشکوک (شبه علم، تئوریهای توطئه).
- استفاده از ابزار بدون توهمزایی (Tool Usage without Hallucination): توانایی مدل در استفاده از ابزارها بدون تولید اطلاعات نادرست.
مضر بودن
محققان توانایی مدل را در تشخیص موقعیتهای بالقوه خطرناک و ارائه هشدارهای مناسب ارزیابی کردند.
تعصب و انصاف
این محک بر توانایی مدل در شناسایی تعصبات و کلیشههای تولید شده در خروجیهای خود تمرکز دارد.
همکاری با سازمانهای پیشرو هوش مصنوعی
اهمیت Phare با تمرکز مستقیم آن بر معیارهایی که برای سازمانهایی که به دنبال استفاده از LLMها هستند، حیاتی است، بیشتر شده است. نتایج دقیق برای هر مدل به طور عمومی در وب سایت Giskard در دسترس است، از جمله تجزیه و تحلیل بر اساس زیروظیفه. این محک از نظر مالی توسط BPI (بانک سرمایهگذاری عمومی فرانسه) و کمیسیون اروپا پشتیبانی میشود. Giskard همچنین با Mistral AI و DeepMind در جنبههای فنی این پروژه همکاری کرده است. چارچوب LMEval برای استفاده مستقیم با همکاری تیم Gemma در DeepMind توسعه داده شد و از حریم خصوصی و امنیت دادهها اطمینان حاصل شد.
با نگاهی به آینده، تیم Giskard قصد دارد دو ویژگی کلیدی به Phare اضافه کند: متئو دورا میگوید: «احتمالاً تا ژوئن، ما یک ماژول برای ارزیابی مقاومت در برابر فرارهای زندان و تزریق دستورالعمل اضافه خواهیم کرد.» علاوه بر این، محققان به روز رسانی جدول امتیازات را با جدیدترین مدلهای پایدار ادامه خواهند داد، با Grok 3، Qwen 3 و به طور بالقوه GPT-4.1 در افق.