सर्वात समस्याप्रधान एआय मॉडेल: धोके, भ्रम आणि पूर्वग्रह

फ्रेंच स्टार्टअप गिस्कार्डने केलेल्या अलीकडील बेंचमार्क अभ्यासात कृत्रिम बुद्धिमत्ता क्षेत्रातील (artificial intelligence landscape) काही सर्वाधिक वापरल्या जाणाऱ्या भाषिक मॉडेल्समधील (language models (LLMs)) महत्त्वपूर्ण त्रुटींवर प्रकाश टाकला आहे. या अभ्यासात हे मॉडेल्स किती प्रमाणात हानिकारक सामग्री (harmful content) तयार करतात, चुकीची माहिती (hallucinate information) देतात आणि त्यांच्या प्रतिसादांमध्ये विविध पूर्वग्रह (biases) दर्शवतात याचे बारकाईने मूल्यांकन केले आहे.

सर्वात धोकादायक एलएलएम्स ओळखणे: एक विस्तृत मूल्यांकन

गिस्कार्डने एप्रिलमध्ये जारी केलेला बेंचमार्क एलएलएमशी संबंधित संभाव्य धोक्यांचा शोध घेतो आणि माहिती (information) fabrication करण्याच्या, विषारी (toxic) outputs निर्माण करण्याच्या आणि पूर्वग्रहदूषित (prejudiced) किंवा रूढीवादी (stereotypical) दृष्टिकोन (viewpoints) दर्शविण्याच्या त्यांच्या प्रवृत्तीचे विश्वसनीय मूल्यांकन (reliable evaluation) प्रदान करतो. या अभ्यासातील निष्कर्ष (findings) विकासक (developers), संशोधक (researchers) आणि जबाबदारीने एआय मॉडेल्स तैनात (deploy) करू पाहणाऱ्या संस्थांसाठी मौल्यवान अंतर्दृष्टी (valuable insights) देतात.

बेंचमार्क एलएलएमच्या कार्यक्षमतेच्या (performance) अनेक महत्त्वपूर्ण पैलूंची (critical aspects) कसून तपासणी (meticulously examines) करतो, ज्यात खालील गोष्टींचा समावेश आहे:

  • Hallucination (भ्रम): चुकीची किंवा अर्थहीन माहिती (false or nonsensical information) तयार करण्याची मॉडेलची प्रवृत्ती.
  • Harmfulness (हानिकारकता): धोकादायक (dangerous), आक्षेपार्ह (offensive) किंवा অনুপযুক্ত (inappropriate) सामग्री तयार करण्याची मॉडेलची प्रवृत्ती.
  • Bias and Stereotypes (पूर्वग्रह आणि रूढी): अन्यायकारक (unfair) किंवा भेदभावपूर्ण (discriminatory) दृष्टिकोन कायम ठेवण्याची मॉडेलची प्रवृत्ती.

या घटकांचे मूल्यांकन करून, गिस्कार्डचा बेंचमार्क विविध एलएलएमशी संबंधित एकूण धोक्याचे (overall risk) विस्तृत मूल्यांकन प्रदान करतो.

सर्वात लक्षणीय त्रुटी असलेल्या एलएलएम्सची क्रमवारी

अभ्यासातील निष्कर्षांवरून या प्रमुख मेट्रिक्समधील (key metrics) कामगिरीवर आधारित एलएलएमची क्रमवारी (ranking) दिसून येते. स्कोअर जितका कमी, मॉडेल तितके जास्त समस्याप्रधान (problematic) मानले जाते. खालील तक्त्यामध्ये (table) निकालांचा सारांश (summarizes) दिला आहे:

मॉडेल एकूण सरासरी (Overall Average) Hallucination Harmfulness Bias & Stereotypes विकासक (Developer)
GPT-4o mini 63.93% 74.50% 77.29% 40.00%
Grok 2 65.15% 77.35% 91.44% 26.67% xAI
Mistral Large 66.00% 79.72% 89.38% 28.89% Mistral
Mistral Small 3.1 24B 67.88% 77.72% 90.91% 35.00% Mistral
Llama 3.3 70B 67.97% 73.41% 86.04% 44.44% Meta
Deepseek V3 70.77% 77.91% 89.00% 45.39% Deepseek
Qwen 2.5 Max 72.71% 77.12% 89.89% 51.11% Alibaba Qwen
GPT-4o 72.80% 83.89% 92.66% 41.85% OpenAI
Deepseek V3 (0324) 73.92% 77.86% 92.80% 51.11% Deepseek
Gemini 2.0 Flash 74.89% 78.13% 94.30% 52.22% Google
Gemma 3 27B 75.23% 69.90% 91.36% 64.44% Google
Claude 3.7 Sonnet 75.53% 89.26% 95.52% 41.82% Anthropic
Claude 3.5 Sonnet 75.62% 91.09% 95.40% 40.37% Anthropic
Llama 4 Maverick 76.72% 77.02% 89.25% 63.89% Meta
Llama 3.1 405B 77.59% 75.54% 86.49% 70.74% Meta
Claude 3.5 Haiku 82.72% 86.97% 95.36% 65.81% Anthropic
Gemini 1.5 Pro 87.29% 87.06% 96.84% 77.96% Google

बेंचमार्क मध्ये 17 मोठ्या प्रमाणावर वापरल्या जाणाऱ्या मॉडेल्सचा समावेश होता, जे सध्याच्या एआय लँडस्केपचे प्रतिनिधित्व करण्यासाठी काळजीपूर्वक निवडले गेले होते. गिस्कार्डने प्रयोगात्मक (experimental) किंवा अंतिम (unfinalized versions) नसलेल्या मॉडेल्सपेक्षा स्थिर (stable) आणि मोठ्या प्रमाणावर स्वीकारल्या गेलेल्या मॉडेल्सचे मूल्यांकन करण्यास प्राधान्य दिले, ज्यामुळे निकालांची प्रासंगिकता (relevance) आणि विश्वसनीयता (reliability) सुनिश्चित झाली. हा दृष्टिकोन (approach) केवळ तार्किक (reasoning) कार्यांसाठी डिझाइन केलेले मॉडेल्स वगळतो, कारण हा बेंचमार्कचा प्राथमिक फोकस नाही.

सर्व श्रेणींमध्ये सर्वात वाईट कामगिरी करणारे ओळखणे

Phare बेंचमार्कचे प्रारंभिक निष्कर्ष मोठ्या प्रमाणात विद्यमान समुदाय (community) धारणा (perceptions) आणि अभिप्रायांशी (feedback) जुळतात. चाचणी केलेल्या 17 मॉडेल्सपैकी (out of the 17 tested) “सर्वात वाईट” कामगिरी करणाऱ्या पहिल्या पाच मॉडेल्समध्ये GPT-4o mini, Grok 2, Mistral Large, Mistral Small 3.1 24B आणि Llama 3.3 70B यांचा समावेश आहे. याउलट, Gemini 1.5 Pro, Claude 3.5 Haiku आणि Llama 3.1 405B या मॉडेल्सनी सर्वोत्तम कामगिरी (best performance) दर्शविली.

Hallucination हॉटस्पॉट्स: माहिती fabricated करण्यास प्रवृत्त मॉडेल्स

केवळ Hallucination मेट्रिकचा विचार केल्यास, Gemma 3 27B, Llama 3.3 70B, GPT-4o mini, Llama 3.1 405B आणि Llama 4 Maverick हे मॉडेल्स चुकीची किंवा दिशाभूल करणारी माहिती (false or misleading information) तयार करण्यास सर्वाधिक प्रवृत्त (prone) असल्याचे दिसून येते. याउलट, Anthropic ने या क्षेत्रात ताकद दर्शविली आहे, त्याच्या तीन मॉडेल्समध्ये सर्वात कमी Hallucination दर (lowest hallucination rates) आहेत: Claude 3.5 Sonnet, Claude 3.7 Sonnet आणि Claude 3.5 Haiku, तसेच Gemini 1.5 Pro आणि GPT-4o.

धोकादायक सामग्री निर्मिती: कमकुवत सुरक्षा उपाय असलेले मॉडेल

धोकादायक (dangerous) किंवा हानिकारक (harmful) सामग्री (समस्याप्रधान इनपुट ओळखण्याची आणि योग्य प्रतिसाद देण्याची मॉडेलची क्षमता (ability)) तयार करण्याच्या बाबतीत, GPT-4o mini सर्वात वाईट कामगिरी करते, त्यानंतर Llama 3.3 70B, Llama 3.1 405B, Deepseek V3 आणि Llama 4 Maverick यांचा क्रमांक लागतो. दुसरीकडे, Gemini 1.5 Pro सातत्याने (consistently) सर्वोत्तम कामगिरी दर्शवते, त्यानंतर Anthropic चे तीन मॉडेल्स (Claude 3.7 Sonnet, Claude 3.5 Sonnet आणि Claude 3.5 Haiku) आणि Gemini 2.0 Flash यांचा क्रमांक लागतो.

Bias आणि Stereotypes: एक सततचे आव्हान

एलएलएममध्ये Bias (पूर्वग्रह) आणि Stereotypes (रूढी) असणे हे सुधारणे आवश्यक असलेले एक महत्त्वपूर्ण क्षेत्र (significant area) आहे. Phare बेंचमार्कच्या निकालांवरून असे दिसून येते की एलएलएम अजूनही त्यांच्या outputs मध्ये Bias (पूर्वग्रह) आणि Stereotypes (रूढी) दर्शवतात. Grok 2 ला या श्रेणीत सर्वात वाईट स्कोअर (worst score) मिळतो, त्यानंतर Mistral Large, Mistral Small 3.1 24B, GPT-4o mini आणि Claude 3.5 Sonnet यांचा क्रमांक लागतो. याउलट, Gemini 1.5 Pro सर्वोत्तम स्कोअर मिळवते, त्यानंतर Llama 3.1 405B, Claude 3.5 Haiku, Gemma 3 27B आणि Llama 4 Maverick यांचा क्रमांक लागतो.

मॉडेल आकार (model size) विषारी सामग्री (toxic content) तयार करण्यावर प्रभाव टाकू शकतो (लहान मॉडेल्स अधिक “हानिकारक” outputs तयार करतात), पॅरामीटर्सची (parameters) संख्या एकमेव निर्णायक (sole determinant) नाही. गिस्कार्डचे CTO मॅटेओ डोरा (Matteo Dora) यांच्या मते, “आमचे विश्लेषण (analyses) दर्शविते की वापरकर्त्याच्या (user) शब्दांबद्दलची संवेदनशीलता (sensitivity) वेगवेगळ्या प्रदात्यांमध्ये (providers) मोठ्या प्रमाणात बदलते. उदाहरणार्थ, Anthropic चे मॉडेल्स त्यांच्या प्रतिस्पर्धकांच्या (competitors) तुलनेत प्रश्नांची मांडणी करण्याच्या पद्धतीमुळे कमी प्रभावित (less influenced) झालेले दिसतात, मग त्यांचा आकार काहीही असो. प्रश्न विचारण्याच्या पद्धतीचा (संक्षिप्त (brief) किंवा तपशीलवार (detailed) उत्तर मागणे) देखील वेगवेगळा परिणाम (varying effects) होतो. यामुळे आम्हाला असे वाटते की विशिष्ट प्रशिक्षण पद्धती (specific training methods), जसे की मानवी अभिप्रायाद्वारे मजबुतीकरण शिक्षण (reinforcement learning from human feedback (RLHF)), आकारापेक्षा अधिक महत्त्वपूर्ण (more significant) आहेत.”

एलएलएमच्या मूल्यांकनासाठी एक मजबूत पद्धत

Phare एलएलएमचे मूल्यांकन करण्यासाठी एक कठोर (rigorous) पद्धत (methodology) वापरते, ज्यामध्ये सुमारे 6,000 संभाषणांचा (conversations) खाजगी डेटासेट (private dataset) वापरला जातो. मॉडेल प्रशिक्षणात (model training) फेरफार (manipulation) टाळता (preventing) transparency (पारदर्शकता) सुनिश्चित करण्यासाठी, सुमारे 1,600 नमुन्यांचा (samples) एक उपसंच (subset) Hugging Face वर सार्वजनिकपणे (publicly) उपलब्ध (available) केला गेला आहे. संशोधकांनी (researchers) अनेक भाषांमध्ये (फ्रेंच, इंग्रजी, स्पॅनिश) डेटा गोळा केला आणि चाचण्या (tests) तयार केल्या ज्या वास्तविक जगातील परिस्थिती (real-world scenarios) दर्शवतात.

बेंचमार्क प्रत्येक मेट्रिकसाठी (metric) विविध उप-कार्यांचे (sub-tasks) मूल्यांकन (assesses) करतो:

Hallucination

  • Factuality (तथ्यात्मकता): सामान्य ज्ञान प्रश्नांची (general knowledge questions) वस्तुस्थिती (factual) आधारित उत्तरे (responses) देण्याची मॉडेलची क्षमता.
  • Accuracy with False Information (खोट्या माहितीसह अचूकता): खोटे घटक (false elements) असलेल्या प्रॉम्प्टला (prompts) प्रतिसाद देताना अचूक माहिती (accurate information) देण्याची मॉडेलची क्षमता.
  • Handling Dubious Claims (संदिग्ध दाव्यांचे व्यवस्थापन): संशयास्पद (dubious) दावे (pseudoscience, conspiracy theories) process करण्याची मॉडेलची क्षमता.
  • Tool Usage without Hallucination (Hallucination शिवाय Tool चा वापर): खोटी माहिती (false information) तयार न करता टूल्स (tools) वापरण्याची मॉडेलची क्षमता.

Harmfulness

संभाव्यतः (potentially) धोकादायक (dangerous) परिस्थिती (situations) ओळखण्याची आणि योग्य इशारे (warnings) देण्याची मॉडेलची क्षमता संशोधकांनी तपासली (evaluated).

Bias & Fairness

बेंचमार्क मॉडेलच्या स्वतःच्या outputs मध्ये तयार होणारे biases (पूर्वग्रह) आणि stereotypes (रूढी) ओळखण्याच्या क्षमतेवर लक्ष केंद्रित करतो.

आघाडीच्या एआय संस्थांसोबत सहकार्य

Phare चे महत्त्व (significance) आणखी वाढते कारण ते एलएलएम वापरू पाहणाऱ्या संस्थांसाठी महत्त्वपूर्ण असलेल्या मेट्रिक्सवर (metrics) थेट लक्ष केंद्रित करते. प्रत्येक मॉडेलचे तपशीलवार (detailed) निकाल (results) गिस्कार्ड वेबसाइटवर (Giskard website) सार्वजनिकपणे (publicly) उपलब्ध (available) आहेत, ज्यात उप-कार्यानुसार (sub-task) विभागणी (breakdowns) समाविष्ट आहे. या बेंचमार्कला (benchmark) BPI (French Public Investment Bank) आणि युरोपियन कमिशनद्वारे (European Commission) आर्थिक सहाय्य (financially supported) केले जाते. गिस्कार्डने Mistral AI आणि DeepMind सोबत प्रकल्पाच्या तांत्रिक (technical) बाबींवर भागीदारी (partnered) केली आहे. LMEval फ्रेमवर्क (framework) चा वापर DeepMind मधील Gemma टीमच्या (team) थेट सहकार्याने विकसित (developed) करण्यात आला, ज्यामुळे डेटा गोपनीयता (data privacy) आणि सुरक्षा (security) सुनिश्चित होते.

भविष्यात (looking ahead), गिस्कार्ड टीम Phare मध्ये दोन प्रमुख वैशिष्ट्ये (key features) जोडण्याची योजना आखत आहे: “शक्यतो (Probably) जूनपर्यंत, आम्ही जेलब्रेक्स (jailbreaks) आणि प्रॉम्प्ट इंजेक्शनला (prompt injection) प्रतिकारशक्तीचे (resistance) मूल्यांकन (evaluate) करण्यासाठी एक मॉड्यूल (module) समाविष्ट करू,” असे मॅटेओ डोरा (Matteo Dora) म्हणतात. याव्यतिरिक्त (Additionally), संशोधक (researchers) नवीनतम (latest) स्थिर (stable) मॉडेल्ससह लीडरबोर्ड (leaderboard) अद्ययावत (update) करणे सुरू ठेवतील, ज्यामध्ये Grok 3, Qwen 3 आणि संभाव्यतः (potentially) GPT-4.1 क्षितिजावर (horizon) आहेत.