AI ماڈلز: خطرات، غلطیاں، اور تعصبات

Giskard نامی ایک فرانسیسی اسٹارٹ اپ کی جانب سے کی گئی حالیہ بینچ مارک تحقیق نے مصنوعی ذہانت کے منظر نامے میں بڑے پیمانے پر استعمال ہونے والے کچھ لسانی ماڈلز (LLMs) کی اہم خامیوں پر روشنی ڈالی ہے۔ اس تحقیق میں ان ماڈلز کی جانب سے نقصان دہ مواد تیار کرنے، غلط معلومات دینے اور اپنے جوابات میں مختلف تعصبات کا مظاہرہ کرنے کے رجحان کا باریک بینی سے جائزہ لیا گیا ہے۔

سب سے خطرناک LLMs کی شناخت: ایک جامع تشخیص

اپریل میں جاری کردہ Giskard کا بینچ مارک LLMs سے وابستہ ممکنہ خطرات کی گہرائی میں جاتا ہے، جو ان کی معلومات کو من گھڑت بنانے، زہریلے نتائج پیدا کرنے اور متعصبانہ یا دقیانوسی نقطہ نظر کو ظاہر کرنے کے رجحان کا ایک قابل اعتماد جائزہ فراہم کرتا ہے۔ اس تحقیق کے نتائج ڈویلپرز، محققین اور تنظیموں کے لیے قیمتی بصیرتیں پیش کرتے ہیں جو ذمہ داری کے ساتھ AI ماڈلز کو تعینات کرنے کی کوشش کر رہے ہیں۔

بینچ مارک LLM کی کارکردگی کے کئی اہم پہلوؤں کا باریک بینی سے جائزہ لیتا ہے، بشمول:

  • Hallucination (غلط بیانی): ماڈل کا غلط یا بے معنی معلومات تیار کرنے کا رجحان۔
  • Harmfulness (نقصان دہ): ماڈل کا خطرناک، ناگوار یا نامناسب مواد تیار کرنے کا رجحان۔
  • Bias and Stereotypes (تعصب اور دقیانوسی تصورات): ماڈل کا غیر منصفانہ یا امتیازی نقطہ نظر کو برقرار رکھنے کا رجحان۔

ان عوامل کا جائزہ لے کر، Giskard کا بینچ مارک مختلف LLMs سے وابستہ مجموعی خطرے کا ایک جامع جائزہ فراہم کرتا ہے۔

سب سے اہم خامیوں والے LLMs کی درجہ بندی

اس تحقیق کے نتائج ان کلیدی میٹرکس میں ان کی کارکردگی کی بنیاد پر LLMs کی درجہ بندی کو ظاہر کرتے ہیں۔ اسکور جتنا کم ہوگا، ماڈل کو اتنا ہی زیادہ مسائل والا سمجھا جائے گا۔ ذیل میں دی گئی جدول نتائج کا خلاصہ کرتی ہے:

ماڈل مجموعی اوسط غلط بیانی نقصان دہ تعصب اور دقیانوسی تصورات ڈویلپر
GPT-4o mini 63.93% 74.50% 77.29% 40.00%
Grok 2 65.15% 77.35% 91.44% 26.67% xAI
Mistral Large 66.00% 79.72% 89.38% 28.89% Mistral
Mistral Small 3.1 24B 67.88% 77.72% 90.91% 35.00% Mistral
Llama 3.3 70B 67.97% 73.41% 86.04% 44.44% Meta
Deepseek V3 70.77% 77.91% 89.00% 45.39% Deepseek
Qwen 2.5 Max 72.71% 77.12% 89.89% 51.11% Alibaba Qwen
GPT-4o 72.80% 83.89% 92.66% 41.85% OpenAI
Deepseek V3 (0324) 73.92% 77.86% 92.80% 51.11% Deepseek
Gemini 2.0 Flash 74.89% 78.13% 94.30% 52.22% Google
Gemma 3 27B 75.23% 69.90% 91.36% 64.44% Google
Claude 3.7 Sonnet 75.53% 89.26% 95.52% 41.82% Anthropic
Claude 3.5 Sonnet 75.62% 91.09% 95.40% 40.37% Anthropic
Llama 4 Maverick 76.72% 77.02% 89.25% 63.89% Meta
Llama 3.1 405B 77.59% 75.54% 86.49% 70.74% Meta
Claude 3.5 Haiku 82.72% 86.97% 95.36% 65.81% Anthropic
Gemini 1.5 Pro 87.29% 87.06% 96.84% 77.96% Google

بینچ مارک میں 17 بڑے پیمانے پر استعمال ہونے والے ماڈلز شامل تھے، جنہیں موجودہ AI منظر نامے کی نمائندگی کرنے کے لیے احتیاط سے منتخب کیا گیا تھا۔ Giskard نے تجرباتی یا غیر حتمی ورژن کے مقابلے میں مستحکم اور بڑے پیمانے پر اپنائے جانے والے ماڈلز کی جانچ کو ترجیح دی، تاکہ نتائج کی مطابقت اور اعتبار کو یقینی بنایا جا سکے۔ اس طریقہ کار میں ان ماڈلز کو خارج کر دیا گیا ہے جو بنیادی طور پر استدلال کے کاموں کے لیے ڈیزائن کیے گئے ہیں، کیونکہ وہ اس بینچ مارک کی بنیادی توجہ نہیں ہیں۔

تمام زمروں میں بدترین کارکردگی کا مظاہرہ کرنے والوں کی شناخت

Phare بینچ مارک کے ابتدائی نتائج بڑے پیمانے پر موجودہ کمیونٹی کے تصورات اور تاثرات کے مطابق ہیں۔ ٹیسٹ کیے گئے 17 ماڈلز میں سے، سب سے بدترین کارکردگی کا مظاہرہ کرنے والے ٹاپ پانچ ماڈلز میں GPT-4o mini, Grok 2, Mistral Large, Mistral Small 3.1 24B, اور Llama 3.3 70B شامل ہیں۔ اس کے برعکس، بہترین کارکردگی کا مظاہرہ کرنے والے ماڈلز میں Gemini 1.5 Pro, Claude 3.5 Haiku, اور Llama 3.1 405B شامل ہیں۔

Hallucination ہاٹ اسپاٹس: غلط معلومات دینے کا رجحان رکھنے والے ماڈلز

جب صرف hallucination کے میٹرک پر غور کیا جائے تو، Gemma 3 27B, Llama 3.3 70B, GPT-4o mini, Llama 3.1 405B, اور Llama 4 Maverick ایسے ماڈلز کے طور پر سامنے آتے ہیں جو غلط یا گمراہ کن معلومات تیار کرنے کا سب سے زیادہ رجحان رکھتے ہیں۔ اس کے برعکس، Anthropic اس شعبے میں مضبوطی کا مظاہرہ کرتا ہے، اس کے تین ماڈلز سب سے کم hallucination کی شرح کو ظاہر کرتے ہیں: Claude 3.5 Sonnet, Claude 3.7 Sonnet, اور Claude 3.5 Haiku، جن کے ساتھ Gemini 1.5 Pro اور GPT-4o بھی شامل ہیں۔

خطرناک مواد کی تیاری: کمزور تحفظات والے ماڈلز

خطرناک یا نقصان دہ مواد کی تیاری کے حوالے سے (مسئلہ ساز ان پُٹس کو پہچاننے اور مناسب جواب دینے کی ماڈل کی صلاحیت کا جائزہ لینا)، GPT-4o mini سب سے ناقص کارکردگی کا مظاہرہ کرتا ہے، اس کے بعد Llama 3.3 70B, Llama 3.1 405B, Deepseek V3, اور Llama 4 Maverick ہیں۔ دوسری جانب، Gemini 1.5 Pro مسلسل بہترین کارکردگی کا مظاہرہ کرتا ہے، اس کے بعد Anthropic کے تین ماڈلز (Claude 3.7 Sonnet, Claude 3.5 Sonnet, اور Claude 3.5 Haiku) اور Gemini 2.0 Flash ہیں۔

تعصب اور دقیانوسی تصورات: ایک مستقل چیلنج

LLMs میں تعصب اور دقیانوسی تصورات کی موجودگی ایک اہم شعبہ ہے جس میں بہتری کی ضرورت ہے۔ Phare بینچ مارک کے نتائج سے پتہ چلتا ہے کہ LLMs اب بھی اپنے نتائج میں واضح تعصبات اور دقیانوسی تصورات کا مظاہرہ کرتے ہیں۔ Grok 2 کو اس زمرے میں بدترین اسکور ملتا ہے، اس کے بعد Mistral Large, Mistral Small 3.1 24B, GPT-4o mini, اور Claude 3.5 Sonnet ہیں۔ اس کے برعکس، Gemini 1.5 Pro بہترین اسکور حاصل کرتا ہے، اس کے بعد Llama 3.1 405B, Claude 3.5 Haiku, Gemma 3 27B, اور Llama 4 Maverick ہیں۔

اگرچہ ماڈل کا سائز زہریلے مواد کی تیاری کو متاثر کر سکتا ہے (چھوٹے ماڈلز زیادہ "نقصان دہ" نتائج پیدا کرتے ہیں)، لیکن پیرامیٹرز کی تعداد واحد تعین کرنے والا عنصر نہیں ہے۔ Giskard کے CTO Matteo Dora کے مطابق، "ہمارا تجزیہ ظاہر کرتا ہے کہ صارف کی بات کو سمجھنے کی صلاحیت مختلف فراہم کنندگان میں کافی مختلف ہوتی ہے۔ مثال کے طور پر، Anthropic کے ماڈلز سوالات کے انداز سے کم متاثر ہوتے ہیں، ان کے سائز سے قطع نظر۔ سوال پوچھنے کے انداز (مختصر یا تفصیلی جواب کی درخواست کرنا) کے بھی مختلف اثرات ہوتے ہیں۔ اس سے ہمیں یقین ہوتا ہے کہ مخصوص تربیتی طریقے، جیسے انسانی تاثرات سے تقویت سیکھنا (RLHF)، سائز سے زیادہ اہم ہیں۔"

LLMs کی تشخیص کے لیے ایک مضبوط طریقہ کار

Phare LLMs کی تشخیص کے لیے ایک سخت طریقہ کار استعمال کرتا ہے، جس میں تقریباً 6,000 مکالموں کا ایک نجی ڈیٹا سیٹ استعمال کیا جاتا ہے۔ ماڈل ٹریننگ میں ہیرا پھیری کو روکتے ہوئے شفافیت کو یقینی بنانے کے لیے، تقریباً 1,600 نمونوں کا ایک ذیلی سیٹ عوامی طور پر Hugging Face پر دستیاب کرایا گیا ہے۔ محققین نے متعدد زبانوں (فرانسیسی، انگریزی، ہسپانوی) میں ڈیٹا اکٹھا کیا اور ایسے ٹیسٹ ڈیزائن کیے جو حقیقی دنیا کے منظرناموں کی عکاسی کرتے ہیں۔

بینچ مارک ہر میٹرک کے لیے مختلف ذیلی کاموں کا جائزہ لیتا ہے:

Hallucination

  • Factuality: عام معلومات کے سوالات کے لیے حقائق پر مبنی جوابات تیار کرنے کی ماڈل کی صلاحیت۔
  • Accuracy with False Information: جھوٹے عناصر پر مشتمل اشاروں کا جواب دیتے وقت درست معلومات فراہم کرنے کی ماڈل کی صلاحیت۔
  • Handling Dubious Claims: مشکوک دعوؤں (سیڈو سائنس، سازشی نظریات) پر کارروائی کرنے کی ماڈل کی صلاحیت۔
  • Tool Usage without Hallucination: غلط معلومات تیار کیے بغیر ٹولز استعمال کرنے کی ماڈل کی صلاحیت۔

Harmfulness

محققین نے ماڈل کی ممکنہ طور پر خطرناک حالات کو پہچاننے اور مناسب انتباہات فراہم کرنے کی صلاحیت کا جائزہ لیا۔

Bias & Fairness

بینچ مارک ماڈل کی اپنی پیداوار میں تیار کردہ تعصبات اور دقیانوسی تصورات کی شناخت کرنے کی صلاحیت پر توجہ مرکوز کرتا ہے۔

معروف AI تنظیموں کے ساتھ تعاون

Phare کی اہمیت اس حقیقت سے مزید بڑھ جاتی ہے کہ یہ براہ راست ان میٹرکس پر توجہ مرکوز کرتا ہے جو ان تنظیموں کے لیے اہم ہیں جو LLMs کو استعمال کرنے کی کوشش کر رہی ہیں۔ ہر ماڈل کے لیے تفصیلی نتائج Giskard کی ویب سائٹ پر عوامی طور پر دستیاب ہیں، جن میں ذیلی کاموں کے لحاظ سے تقسیم بھی شامل ہے۔ بینچ مارک کو مالی طور پر BPI (فرانسیسی پبلک انویسٹمنٹ بینک) اور یورپی کمیشن کی حمایت حاصل ہے۔ Giskard نے اس منصوبے کے تکنیکی پہلوؤں پر Mistral AI اور DeepMind کے ساتھ بھی شراکت داری کی ہے۔ LMEval فریم ورک برائے استعمال براہ راست DeepMind کی Gemma ٹیم کے ساتھ تعاون میں تیار کیا گیا تھا، جس سے ڈیٹا کی رازداری اور سلامتی کو یقینی بنایا گیا ہے۔

مستقبل میں، Giskard ٹیم Phare میں دو اہم خصوصیات شامل کرنے کا منصوبہ رکھتی ہے: Matteo Dora کا کہنا ہے کہ "شاید جون تک، ہم جیل بریکس اور فوری انجیکشن کے خلاف مزاحمت کا جائزہ لینے کے لیے ایک ماڈیول شامل کریں گے۔" اس کے علاوہ، محققین تازہ ترین مستحکم ماڈلز کے ساتھ لیڈر بورڈ کو اپ ڈیٹ کرتے رہیں گے، جس میں Grok 3, Qwen 3, اور ممکنہ طور پر GPT-4.1 بھی شامل ہیں۔