একটি ফরাসি স্টার্টআপ গিসকার্ডের সাম্প্রতিক একটি বেঞ্চমার্ক গবেষণা কৃত্রিম বুদ্ধিমত্তা (artificial intelligence) ক্ষেত্রে বহুল ব্যবহৃত কিছু ভাষা মডেলের (LLMs) উল্লেখযোগ্য ত্রুটিগুলোর ওপর আলোকপাত করেছে। এই গবেষণাটি অত্যন্ত সতর্কতার সাথে এই মডেলগুলোর ক্ষতিকর কনটেন্ট তৈরি, তথ্যের বিভ্রম (hallucinate) ঘটানো এবং তাদের প্রতিক্রিয়াগুলোতে বিভিন্ন পক্ষপাতিত্ব প্রদর্শনের প্রবণতা মূল্যায়ন করে।
ঝুঁকিপূর্ণ এলএলএমগুলো চিহ্নিতকরণ: একটি ব্যাপক মূল্যায়ন
এপ্রিল মাসে প্রকাশিত গিসকার্ডের বেঞ্চমার্ক এলএলএমগুলোর সাথে সম্পর্কিত সম্ভাব্য ঝুঁকিগুলো নিয়ে আলোচনা করে, তথ্য fabrication, বিষাক্ত আউটপুট তৈরি এবং কুসংস্কার বা গতানুগতিক দৃষ্টিভঙ্গি প্রদর্শনের প্রবণতার একটি নির্ভরযোগ্য মূল্যায়ন প্রদান করে। এই গবেষণার ফলাফল ডেভেলপার, গবেষক এবং সংস্থাগুলোর জন্য মূল্যবান অন্তর্দৃষ্টি সরবরাহ করে যারা AI মডেলগুলোকে দায়িত্বের সাথে ব্যবহার করতে চায়।
বেঞ্চমার্কটি এলএলএম পারফরম্যান্সের বেশ কয়েকটি গুরুত্বপূর্ণ দিক পুঙ্খানুপুঙ্খভাবে পরীক্ষা করে, যার মধ্যে রয়েছে:
- বিভ্রম (Hallucination): মিথ্যা বা অর্থহীন তথ্য তৈরি করার মডেলের প্রবণতা।
- ক্ষতিকরতা (Harmfulness): বিপজ্জনক, আপত্তিকর বা অনুপযুক্ত সামগ্রী তৈরি করার মডেলের প্রবণতা।
- পক্ষপাত ও স্টেরিওটাইপস (Bias and Stereotypes): অন্যায্য বা বৈষম্যমূলক দৃষ্টিভঙ্গি স্থায়ী করার মডেলের প্রবণতা।
এই বিষয়গুলো মূল্যায়ন করার মাধ্যমে, গিসকার্ডের বেঞ্চমার্ক বিভিন্ন এলএলএমের সাথে সম্পর্কিত সামগ্রিক ঝুঁকির একটি বিস্তৃত মূল্যায়ন প্রদান করে।
সবচেয়ে গুরুত্বপূর্ণ ত্রুটিযুক্ত এলএলএমগুলোর র্যাংকিং
এই গবেষণার ফলাফল এই মূল মেট্রিকগুলোতে তাদের পারফরম্যান্সের ভিত্তিতে এলএলএমগুলোর একটি র্যাংকিং প্রকাশ করে। স্কোর যত কম, মডেলটিকে তত বেশি সমস্যাযুক্ত বলে মনে করা হয়। নিচের টেবিলে ফলাফলগুলো সংক্ষিপ্ত আকারে দেওয়া হলো:
মডেল | সামগ্রিক গড় (Overall Average) | বিভ্রম (Hallucination) | ক্ষতিকরতা (Harmfulness) | পক্ষপাত ও স্টেরিওটাইপস (Bias & Stereotypes) | ডেভেলপার (Developer) |
---|---|---|---|---|---|
GPT-4o mini | 63.93% | 74.50% | 77.29% | 40.00% | |
Grok 2 | 65.15% | 77.35% | 91.44% | 26.67% | xAI |
Mistral Large | 66.00% | 79.72% | 89.38% | 28.89% | Mistral |
Mistral Small 3.1 24B | 67.88% | 77.72% | 90.91% | 35.00% | Mistral |
Llama 3.3 70B | 67.97% | 73.41% | 86.04% | 44.44% | Meta |
Deepseek V3 | 70.77% | 77.91% | 89.00% | 45.39% | Deepseek |
Qwen 2.5 Max | 72.71% | 77.12% | 89.89% | 51.11% | Alibaba Qwen |
GPT-4o | 72.80% | 83.89% | 92.66% | 41.85% | OpenAI |
Deepseek V3 (0324) | 73.92% | 77.86% | 92.80% | 51.11% | Deepseek |
Gemini 2.0 Flash | 74.89% | 78.13% | 94.30% | 52.22% | |
Gemma 3 27B | 75.23% | 69.90% | 91.36% | 64.44% | |
Claude 3.7 Sonnet | 75.53% | 89.26% | 95.52% | 41.82% | Anthropic |
Claude 3.5 Sonnet | 75.62% | 91.09% | 95.40% | 40.37% | Anthropic |
Llama 4 Maverick | 76.72% | 77.02% | 89.25% | 63.89% | Meta |
Llama 3.1 405B | 77.59% | 75.54% | 86.49% | 70.74% | Meta |
Claude 3.5 Haiku | 82.72% | 86.97% | 95.36% | 65.81% | Anthropic |
Gemini 1.5 Pro | 87.29% | 87.06% | 96.84% | 77.96% |
বেঞ্চমার্কটিতে বর্তমান AI ল্যান্ডস্কেপকে প্রতিনিধিত্ব করার জন্য সাবধানে নির্বাচিত 17টি বহুল ব্যবহৃত মডেল অন্তর্ভুক্ত ছিল। গিসকার্ড পরীক্ষামূলক বা অসমাপ্ত সংস্করণগুলোর চেয়ে স্থিতিশীল এবং বহুলভাবে ব্যবহৃত মডেলগুলো মূল্যায়নকে অগ্রাধিকার দিয়েছে, ফলাফলের প্রাসঙ্গিকতা এবং নির্ভরযোগ্যতা নিশ্চিত করেছে। এই পদ্ধতিটি সেই মডেলগুলোকে বাদ দেয় যা মূলত যুক্তিমূলক কাজের জন্য ডিজাইন করা হয়েছে, কারণ এগুলো এই বেঞ্চমার্কের প্রাথমিক focus নয়।
সমস্ত বিভাগে সবচেয়ে খারাপ পারফর্মার চিহ্নিত করা
Phare বেঞ্চমার্কের প্রাথমিক ফলাফলগুলো মূলত বিদ্যমান কমিউনিটির উপলব্ধি এবং মতামতের সাথে সঙ্গতিপূর্ণ। শীর্ষ পাঁচটি “সবচেয়ে খারাপ” পারফর্মিং মডেলের মধ্যে রয়েছে (পরীক্ষিত 17টির মধ্যে) GPT-4o mini, Grok 2, Mistral Large, Mistral Small 3.1 24B, এবং Llama 3.3 70B। বিপরীতে, যে মডেলগুলো সেরা পারফরম্যান্স দেখিয়েছে সেগুলোর মধ্যে রয়েছে Gemini 1.5 Pro, Claude 3.5 Haiku, এবং Llama 3.1 405B।
বিভ্রম হটস্পট: তথ্য Fabricate করতে প্রবণ মডেল
যখন শুধুমাত্র বিভ্রম মেট্রিক বিবেচনা করা হয়, তখন Gemma 3 27B,Llama 3.3 70B, GPT-4o mini, Llama 3.1 405B, এবং Llama 4 Maverick মিথ্যা বা বিভ্রান্তিকর তথ্য তৈরি করতে সবচেয়ে বেশি প্রবণ মডেল হিসেবে emerge হয়। বিপরীতে, Anthropic এই ক্ষেত্রে শক্তি প্রদর্শন করে, এর তিনটি মডেল সর্বনিম্ন বিভ্রম হার প্রদর্শন করে: Claude 3.5 Sonnet, Claude 3.7 Sonnet, এবং Claude 3.5 Haiku, পাশাপাশি Gemini 1.5 Pro এবং GPT-4o।
বিপজ্জনক কনটেন্ট জেনারেশন: দুর্বল সুরক্ষা যুক্ত মডেল
বিপজ্জনক বা ক্ষতিকর কনটেন্ট তৈরি করার বিষয়ে (সমস্যাযুক্ত ইনপুট চিনতে এবং যথাযথভাবে সাড়া দেওয়ার মডেলের ক্ষমতা মূল্যায়ন করে), GPT-4o mini সবচেয়ে খারাপ পারফর্ম করে, তারপরে রয়েছে Llama 3.3 70B, Llama 3.1 405B, Deepseek V3, এবং Llama 4 Maverick। অন্যদিকে, Gemini 1.5 Pro ধারাবাহিকভাবে সেরা পারফরম্যান্স প্রদর্শন করে, এরপরেই রয়েছে Anthropic-এর তিনটি মডেল (Claude 3.7 Sonnet, Claude 3.5 Sonnet, এবং Claude 3.5 Haiku) এবং Gemini 2.0 Flash।
পক্ষপাত ও স্টেরিওটাইপস: একটি স্থায়ী চ্যালেঞ্জ
এলএলএমগুলোতে পক্ষপাত ও স্টেরিওটাইপসের উপস্থিতি একটি গুরুত্বপূর্ণ ক্ষেত্র যেখানে উন্নতির প্রয়োজন। Phare বেঞ্চমার্কের ফলাফল নির্দেশ করে যে এলএলএমগুলো এখনও তাদের আউটপুটগুলোতে চিহ্নিত পক্ষপাত ও স্টেরিওটাইপস প্রদর্শন করে। Grok 2 এই বিভাগে সবচেয়ে খারাপ স্কোর পেয়েছে, তারপরে Mistral Large, Mistral Small 3.1 24B, GPT-4o mini, এবং Claude 3.5 Sonnet। বিপরীতে, Gemini 1.5 Pro সেরা স্কোর অর্জন করেছে, তারপরে Llama 3.1 405B, Claude 3.5 Haiku, Gemma 3 27B, এবং Llama 4 Maverick।
যদিও মডেলের আকার বিষাক্ত কনটেন্ট তৈরিকে প্রভাবিত করতে পারে (ছোট মডেলগুলো আরও “ক্ষতিকর” আউটপুট তৈরি করে), তবে প্যারামিটারের সংখ্যা একমাত্র নির্ধারক নয়। গিসকার্ডের CTO মাত্তেও ডোরা-এর মতে, “আমাদের বিশ্লেষণ থেকে দেখা যায় যে ব্যবহারকারীর শব্দচয়নের সংবেদনশীলতা বিভিন্ন প্রদানকারীর মধ্যে যথেষ্ট পরিবর্তিত হয়। উদাহরণস্বরূপ, Anthropic-এর মডেলগুলো তাদের competitors-এর তুলনায় প্রশ্নের phrasing দ্বারা কম প্রভাবিত বলে মনে হয়, তাদের আকার নির্বিশেষে। প্রশ্ন জিজ্ঞাসা করার পদ্ধতিও (সংক্ষিপ্ত বা বিস্তারিত উত্তরের অনুরোধ করা) বিভিন্ন প্রভাব ফেলে। এটি আমাদের বিশ্বাস করতে পরিচালিত করে যে নির্দিষ্ট training method, যেমন human feedback (RLHF) থেকে reinforcement learning, আকারের চেয়ে বেশি গুরুত্বপূর্ণ।”
এলএলএম মূল্যায়নের জন্য একটি শক্তিশালী পদ্ধতি
Phare এলএলএম মূল্যায়ন করার জন্য একটি কঠোর পদ্ধতি ব্যবহার করে, প্রায় 6,000 কথোপকথনের একটি ব্যক্তিগত ডেটা সেট ব্যবহার করে। মডেল training-এর manipulation প্রতিরোধ করার সময় স্বচ্ছতা নিশ্চিত করতে, প্রায় 1,600 নমুনার একটি subset Hugging Face-এ সর্বজনীনভাবে উপলব্ধ করা হয়েছে। গবেষকরা একাধিক ভাষায় (ফরাসি, ইংরেজি, স্প্যানিশ) ডেটা সংগ্রহ করেছেন এবং এমন পরীক্ষা ডিজাইন করেছেন যা বাস্তব জগতের পরিস্থিতিকে প্রতিফলিত করে।
বেঞ্চমার্ক প্রতিটি মেট্রিকের জন্য বিভিন্ন sub-task মূল্যায়ন করে:
বিভ্রম (Hallucination)
- বাস্তবতা (Factuality): সাধারণ জ্ঞানের প্রশ্নের সঠিক উত্তর দেওয়ার মডেলের ক্ষমতা।
- মিথ্যা তথ্যের সাথে যথার্থতা (Accuracy with False Information): মিথ্যা উপাদানযুক্ত prompts-এর প্রতিক্রিয়া জানানোর সময় সঠিক তথ্য সরবরাহ করার মডেলের ক্ষমতা।
- সন্দেহজনক দাবির পরিচালনা (Handling Dubious Claims): সন্দেহজনক দাবি (ছদ্ম বিজ্ঞান, ষড়যন্ত্র তত্ত্ব) প্রক্রিয়াকরণের মডেলের ক্ষমতা।
- বিভ্রম ছাড়াই টুল ব্যবহার (Tool Usage without Hallucination): মিথ্যা তথ্য তৈরি না করে টুল ব্যবহার করার মডেলের ক্ষমতা।
ক্ষতিকরতা (Harmfulness)
গবেষকরা সম্ভাব্য বিপজ্জনক পরিস্থিতি চিনতে এবং যথাযথ সতর্কতা প্রদানের মডেলের ক্ষমতা মূল্যায়ন করেছেন।
পক্ষপাত ও ন্যায্যতা (Bias & Fairness)
বেঞ্চমার্কটি মডেলের নিজস্ব আউটপুটে তৈরি হওয়া পক্ষপাত ও স্টেরিওটাইপস সনাক্ত করার ক্ষমতার উপর focus করে।
নেতৃস্থানীয় এআই সংস্থাগুলোর সাথে সহযোগিতা
Phare-এর তাৎপর্য আরও বৃদ্ধি পেয়েছে কারণ এটি LLM ব্যবহার করতে চাওয়া সংস্থাগুলোর জন্য গুরুত্বপূর্ণ মেট্রিকগুলোর উপর সরাসরি focus করে। প্রতিটি মডেলের বিস্তারিত ফলাফল গিসকার্ড ওয়েবসাইটে সর্বজনীনভাবে উপলব্ধ, যার মধ্যে sub-task অনুসারে breakdown অন্তর্ভুক্ত। বেঞ্চমার্কটি BPI (ফরাসি পাবলিক ইনভেস্টমেন্ট ব্যাংক) এবং ইউরোপীয় কমিশন কর্তৃক আর্থিকভাবে সমর্থিত। গিসকার্ড Mistral AI এবং DeepMind-এর সাথে প্রকল্পের technical দিকগুলোতেও অংশীদারিত্ব করেছে। LMEval framework-এর ব্যবহার DeepMind-এর Gemma team-এর সাথে সরাসরি সহযোগিতায় তৈরি করা হয়েছিল, যা ডেটা গোপনীয়তা এবং সুরক্ষা নিশ্চিত করে।
ভবিষ্যতে, গিসকার্ড team Phare-এ দুটি গুরুত্বপূর্ণ বৈশিষ্ট্য যুক্ত করার পরিকল্পনা করেছে: “সম্ভবত জুনের মধ্যে, আমরা jailbreaks এবং prompt injection প্রতিরোধের মূল্যায়ন করার জন্য একটি মডিউল যুক্ত করব,” মাত্তেও ডোরা বলেন। এছাড়াও, গবেষকরা সর্বশেষ স্থিতিশীল মডেলগুলোর সাথে লিডারবোর্ড আপডেট করতে থাকবেন, যেখানে Grok 3, Qwen 3 এবং সম্ভবত GPT-4.1 অন্তর্ভুক্ত থাকবে।