সবচেয়ে ঝুঁকিপূর্ণ এআই মডেল: বিপদ, বিভ্রম, পক্ষপাত

একটি ফরাসি স্টার্টআপ গিসকার্ডের সাম্প্রতিক একটি বেঞ্চমার্ক গবেষণা কৃত্রিম বুদ্ধিমত্তা (artificial intelligence) ক্ষেত্রে বহুল ব্যবহৃত কিছু ভাষা মডেলের (LLMs) উল্লেখযোগ্য ত্রুটিগুলোর ওপর আলোকপাত করেছে। এই গবেষণাটি অত্যন্ত সতর্কতার সাথে এই মডেলগুলোর ক্ষতিকর কনটেন্ট তৈরি, তথ্যের বিভ্রম (hallucinate) ঘটানো এবং তাদের প্রতিক্রিয়াগুলোতে বিভিন্ন পক্ষপাতিত্ব প্রদর্শনের প্রবণতা মূল্যায়ন করে।

ঝুঁকিপূর্ণ এলএলএমগুলো চিহ্নিতকরণ: একটি ব্যাপক মূল্যায়ন

এপ্রিল মাসে প্রকাশিত গিসকার্ডের বেঞ্চমার্ক এলএলএমগুলোর সাথে সম্পর্কিত সম্ভাব্য ঝুঁকিগুলো নিয়ে আলোচনা করে, তথ্য fabrication, বিষাক্ত আউটপুট তৈরি এবং কুসংস্কার বা গতানুগতিক দৃষ্টিভঙ্গি প্রদর্শনের প্রবণতার একটি নির্ভরযোগ্য মূল্যায়ন প্রদান করে। এই গবেষণার ফলাফল ডেভেলপার, গবেষক এবং সংস্থাগুলোর জন্য মূল্যবান অন্তর্দৃষ্টি সরবরাহ করে যারা AI মডেলগুলোকে দায়িত্বের সাথে ব্যবহার করতে চায়।

বেঞ্চমার্কটি এলএলএম পারফরম্যান্সের বেশ কয়েকটি গুরুত্বপূর্ণ দিক পুঙ্খানুপুঙ্খভাবে পরীক্ষা করে, যার মধ্যে রয়েছে:

  • বিভ্রম (Hallucination): মিথ্যা বা অর্থহীন তথ্য তৈরি করার মডেলের প্রবণতা।
  • ক্ষতিকরতা (Harmfulness): বিপজ্জনক, আপত্তিকর বা অনুপযুক্ত সামগ্রী তৈরি করার মডেলের প্রবণতা।
  • পক্ষপাত ও স্টেরিওটাইপস (Bias and Stereotypes): অন্যায্য বা বৈষম্যমূলক দৃষ্টিভঙ্গি স্থায়ী করার মডেলের প্রবণতা।

এই বিষয়গুলো মূল্যায়ন করার মাধ্যমে, গিসকার্ডের বেঞ্চমার্ক বিভিন্ন এলএলএমের সাথে সম্পর্কিত সামগ্রিক ঝুঁকির একটি বিস্তৃত মূল্যায়ন প্রদান করে।

সবচেয়ে গুরুত্বপূর্ণ ত্রুটিযুক্ত এলএলএমগুলোর র‍্যাংকিং

এই গবেষণার ফলাফল এই মূল মেট্রিকগুলোতে তাদের পারফরম্যান্সের ভিত্তিতে এলএলএমগুলোর একটি র‍্যাংকিং প্রকাশ করে। স্কোর যত কম, মডেলটিকে তত বেশি সমস্যাযুক্ত বলে মনে করা হয়। নিচের টেবিলে ফলাফলগুলো সংক্ষিপ্ত আকারে দেওয়া হলো:

মডেল সামগ্রিক গড় (Overall Average) বিভ্রম (Hallucination) ক্ষতিকরতা (Harmfulness) পক্ষপাত ও স্টেরিওটাইপস (Bias & Stereotypes) ডেভেলপার (Developer)
GPT-4o mini 63.93% 74.50% 77.29% 40.00%
Grok 2 65.15% 77.35% 91.44% 26.67% xAI
Mistral Large 66.00% 79.72% 89.38% 28.89% Mistral
Mistral Small 3.1 24B 67.88% 77.72% 90.91% 35.00% Mistral
Llama 3.3 70B 67.97% 73.41% 86.04% 44.44% Meta
Deepseek V3 70.77% 77.91% 89.00% 45.39% Deepseek
Qwen 2.5 Max 72.71% 77.12% 89.89% 51.11% Alibaba Qwen
GPT-4o 72.80% 83.89% 92.66% 41.85% OpenAI
Deepseek V3 (0324) 73.92% 77.86% 92.80% 51.11% Deepseek
Gemini 2.0 Flash 74.89% 78.13% 94.30% 52.22% Google
Gemma 3 27B 75.23% 69.90% 91.36% 64.44% Google
Claude 3.7 Sonnet 75.53% 89.26% 95.52% 41.82% Anthropic
Claude 3.5 Sonnet 75.62% 91.09% 95.40% 40.37% Anthropic
Llama 4 Maverick 76.72% 77.02% 89.25% 63.89% Meta
Llama 3.1 405B 77.59% 75.54% 86.49% 70.74% Meta
Claude 3.5 Haiku 82.72% 86.97% 95.36% 65.81% Anthropic
Gemini 1.5 Pro 87.29% 87.06% 96.84% 77.96% Google

বেঞ্চমার্কটিতে বর্তমান AI ল্যান্ডস্কেপকে প্রতিনিধিত্ব করার জন্য সাবধানে নির্বাচিত 17টি বহুল ব্যবহৃত মডেল অন্তর্ভুক্ত ছিল। গিসকার্ড পরীক্ষামূলক বা অসমাপ্ত সংস্করণগুলোর চেয়ে স্থিতিশীল এবং বহুলভাবে ব্যবহৃত মডেলগুলো মূল্যায়নকে অগ্রাধিকার দিয়েছে, ফলাফলের প্রাসঙ্গিকতা এবং নির্ভরযোগ্যতা নিশ্চিত করেছে। এই পদ্ধতিটি সেই মডেলগুলোকে বাদ দেয় যা মূলত যুক্তিমূলক কাজের জন্য ডিজাইন করা হয়েছে, কারণ এগুলো এই বেঞ্চমার্কের প্রাথমিক focus নয়।

সমস্ত বিভাগে সবচেয়ে খারাপ পারফর্মার চিহ্নিত করা

Phare বেঞ্চমার্কের প্রাথমিক ফলাফলগুলো মূলত বিদ্যমান কমিউনিটির উপলব্ধি এবং মতামতের সাথে সঙ্গতিপূর্ণ। শীর্ষ পাঁচটি “সবচেয়ে খারাপ” পারফর্মিং মডেলের মধ্যে রয়েছে (পরীক্ষিত 17টির মধ্যে) GPT-4o mini, Grok 2, Mistral Large, Mistral Small 3.1 24B, এবং Llama 3.3 70B। বিপরীতে, যে মডেলগুলো সেরা পারফরম্যান্স দেখিয়েছে সেগুলোর মধ্যে রয়েছে Gemini 1.5 Pro, Claude 3.5 Haiku, এবং Llama 3.1 405B।

বিভ্রম হটস্পট: তথ্য Fabricate করতে প্রবণ মডেল

যখন শুধুমাত্র বিভ্রম মেট্রিক বিবেচনা করা হয়, তখন Gemma 3 27B,Llama 3.3 70B, GPT-4o mini, Llama 3.1 405B, এবং Llama 4 Maverick মিথ্যা বা বিভ্রান্তিকর তথ্য তৈরি করতে সবচেয়ে বেশি প্রবণ মডেল হিসেবে emerge হয়। বিপরীতে, Anthropic এই ক্ষেত্রে শক্তি প্রদর্শন করে, এর তিনটি মডেল সর্বনিম্ন বিভ্রম হার প্রদর্শন করে: Claude 3.5 Sonnet, Claude 3.7 Sonnet, এবং Claude 3.5 Haiku, পাশাপাশি Gemini 1.5 Pro এবং GPT-4o।

বিপজ্জনক কনটেন্ট জেনারেশন: দুর্বল সুরক্ষা যুক্ত মডেল

বিপজ্জনক বা ক্ষতিকর কনটেন্ট তৈরি করার বিষয়ে (সমস্যাযুক্ত ইনপুট চিনতে এবং যথাযথভাবে সাড়া দেওয়ার মডেলের ক্ষমতা মূল্যায়ন করে), GPT-4o mini সবচেয়ে খারাপ পারফর্ম করে, তারপরে রয়েছে Llama 3.3 70B, Llama 3.1 405B, Deepseek V3, এবং Llama 4 Maverick। অন্যদিকে, Gemini 1.5 Pro ধারাবাহিকভাবে সেরা পারফরম্যান্স প্রদর্শন করে, এরপরেই রয়েছে Anthropic-এর তিনটি মডেল (Claude 3.7 Sonnet, Claude 3.5 Sonnet, এবং Claude 3.5 Haiku) এবং Gemini 2.0 Flash।

পক্ষপাত ও স্টেরিওটাইপস: একটি স্থায়ী চ্যালেঞ্জ

এলএলএমগুলোতে পক্ষপাত ও স্টেরিওটাইপসের উপস্থিতি একটি গুরুত্বপূর্ণ ক্ষেত্র যেখানে উন্নতির প্রয়োজন। Phare বেঞ্চমার্কের ফলাফল নির্দেশ করে যে এলএলএমগুলো এখনও তাদের আউটপুটগুলোতে চিহ্নিত পক্ষপাত ও স্টেরিওটাইপস প্রদর্শন করে। Grok 2 এই বিভাগে সবচেয়ে খারাপ স্কোর পেয়েছে, তারপরে Mistral Large, Mistral Small 3.1 24B, GPT-4o mini, এবং Claude 3.5 Sonnet। বিপরীতে, Gemini 1.5 Pro সেরা স্কোর অর্জন করেছে, তারপরে Llama 3.1 405B, Claude 3.5 Haiku, Gemma 3 27B, এবং Llama 4 Maverick।

যদিও মডেলের আকার বিষাক্ত কনটেন্ট তৈরিকে প্রভাবিত করতে পারে (ছোট মডেলগুলো আরও “ক্ষতিকর” আউটপুট তৈরি করে), তবে প্যারামিটারের সংখ্যা একমাত্র নির্ধারক নয়। গিসকার্ডের CTO মাত্তেও ডোরা-এর মতে, “আমাদের বিশ্লেষণ থেকে দেখা যায় যে ব্যবহারকারীর শব্দচয়নের সংবেদনশীলতা বিভিন্ন প্রদানকারীর মধ্যে যথেষ্ট পরিবর্তিত হয়। উদাহরণস্বরূপ, Anthropic-এর মডেলগুলো তাদের competitors-এর তুলনায় প্রশ্নের phrasing দ্বারা কম প্রভাবিত বলে মনে হয়, তাদের আকার নির্বিশেষে। প্রশ্ন জিজ্ঞাসা করার পদ্ধতিও (সংক্ষিপ্ত বা বিস্তারিত উত্তরের অনুরোধ করা) বিভিন্ন প্রভাব ফেলে। এটি আমাদের বিশ্বাস করতে পরিচালিত করে যে নির্দিষ্ট training method, যেমন human feedback (RLHF) থেকে reinforcement learning, আকারের চেয়ে বেশি গুরুত্বপূর্ণ।”

এলএলএম মূল্যায়নের জন্য একটি শক্তিশালী পদ্ধতি

Phare এলএলএম মূল্যায়ন করার জন্য একটি কঠোর পদ্ধতি ব্যবহার করে, প্রায় 6,000 কথোপকথনের একটি ব্যক্তিগত ডেটা সেট ব্যবহার করে। মডেল training-এর manipulation প্রতিরোধ করার সময় স্বচ্ছতা নিশ্চিত করতে, প্রায় 1,600 নমুনার একটি subset Hugging Face-এ সর্বজনীনভাবে উপলব্ধ করা হয়েছে। গবেষকরা একাধিক ভাষায় (ফরাসি, ইংরেজি, স্প্যানিশ) ডেটা সংগ্রহ করেছেন এবং এমন পরীক্ষা ডিজাইন করেছেন যা বাস্তব জগতের পরিস্থিতিকে প্রতিফলিত করে।

বেঞ্চমার্ক প্রতিটি মেট্রিকের জন্য বিভিন্ন sub-task মূল্যায়ন করে:

বিভ্রম (Hallucination)

  • বাস্তবতা (Factuality): সাধারণ জ্ঞানের প্রশ্নের সঠিক উত্তর দেওয়ার মডেলের ক্ষমতা।
  • মিথ্যা তথ্যের সাথে যথার্থতা (Accuracy with False Information): মিথ্যা উপাদানযুক্ত prompts-এর প্রতিক্রিয়া জানানোর সময় সঠিক তথ্য সরবরাহ করার মডেলের ক্ষমতা।
  • সন্দেহজনক দাবির পরিচালনা (Handling Dubious Claims): সন্দেহজনক দাবি (ছদ্ম বিজ্ঞান, ষড়যন্ত্র তত্ত্ব) প্রক্রিয়াকরণের মডেলের ক্ষমতা।
  • বিভ্রম ছাড়াই টুল ব্যবহার (Tool Usage without Hallucination): মিথ্যা তথ্য তৈরি না করে টুল ব্যবহার করার মডেলের ক্ষমতা।

ক্ষতিকরতা (Harmfulness)

গবেষকরা সম্ভাব্য বিপজ্জনক পরিস্থিতি চিনতে এবং যথাযথ সতর্কতা প্রদানের মডেলের ক্ষমতা মূল্যায়ন করেছেন।

পক্ষপাত ও ন্যায্যতা (Bias & Fairness)

বেঞ্চমার্কটি মডেলের নিজস্ব আউটপুটে তৈরি হওয়া পক্ষপাত ও স্টেরিওটাইপস সনাক্ত করার ক্ষমতার উপর focus করে।

নেতৃস্থানীয় এআই সংস্থাগুলোর সাথে সহযোগিতা

Phare-এর তাৎপর্য আরও বৃদ্ধি পেয়েছে কারণ এটি LLM ব্যবহার করতে চাওয়া সংস্থাগুলোর জন্য গুরুত্বপূর্ণ মেট্রিকগুলোর উপর সরাসরি focus করে। প্রতিটি মডেলের বিস্তারিত ফলাফল গিসকার্ড ওয়েবসাইটে সর্বজনীনভাবে উপলব্ধ, যার মধ্যে sub-task অনুসারে breakdown অন্তর্ভুক্ত। বেঞ্চমার্কটি BPI (ফরাসি পাবলিক ইনভেস্টমেন্ট ব্যাংক) এবং ইউরোপীয় কমিশন কর্তৃক আর্থিকভাবে সমর্থিত। গিসকার্ড Mistral AI এবং DeepMind-এর সাথে প্রকল্পের technical দিকগুলোতেও অংশীদারিত্ব করেছে। LMEval framework-এর ব্যবহার DeepMind-এর Gemma team-এর সাথে সরাসরি সহযোগিতায় তৈরি করা হয়েছিল, যা ডেটা গোপনীয়তা এবং সুরক্ষা নিশ্চিত করে।

ভবিষ্যতে, গিসকার্ড team Phare-এ দুটি গুরুত্বপূর্ণ বৈশিষ্ট্য যুক্ত করার পরিকল্পনা করেছে: “সম্ভবত জুনের মধ্যে, আমরা jailbreaks এবং prompt injection প্রতিরোধের মূল্যায়ন করার জন্য একটি মডিউল যুক্ত করব,” মাত্তেও ডোরা বলেন। এছাড়াও, গবেষকরা সর্বশেষ স্থিতিশীল মডেলগুলোর সাথে লিডারবোর্ড আপডেট করতে থাকবেন, যেখানে Grok 3, Qwen 3 এবং সম্ভবত GPT-4.1 অন্তর্ভুক্ত থাকবে।