फ्रेंच स्टार्टअप गिस्कार्डने केलेल्या अलीकडील बेंचमार्क अभ्यासात कृत्रिम बुद्धिमत्ता क्षेत्रातील (artificial intelligence landscape) काही सर्वाधिक वापरल्या जाणाऱ्या भाषिक मॉडेल्समधील (language models (LLMs)) महत्त्वपूर्ण त्रुटींवर प्रकाश टाकला आहे. या अभ्यासात हे मॉडेल्स किती प्रमाणात हानिकारक सामग्री (harmful content) तयार करतात, चुकीची माहिती (hallucinate information) देतात आणि त्यांच्या प्रतिसादांमध्ये विविध पूर्वग्रह (biases) दर्शवतात याचे बारकाईने मूल्यांकन केले आहे.
सर्वात धोकादायक एलएलएम्स ओळखणे: एक विस्तृत मूल्यांकन
गिस्कार्डने एप्रिलमध्ये जारी केलेला बेंचमार्क एलएलएमशी संबंधित संभाव्य धोक्यांचा शोध घेतो आणि माहिती (information) fabrication करण्याच्या, विषारी (toxic) outputs निर्माण करण्याच्या आणि पूर्वग्रहदूषित (prejudiced) किंवा रूढीवादी (stereotypical) दृष्टिकोन (viewpoints) दर्शविण्याच्या त्यांच्या प्रवृत्तीचे विश्वसनीय मूल्यांकन (reliable evaluation) प्रदान करतो. या अभ्यासातील निष्कर्ष (findings) विकासक (developers), संशोधक (researchers) आणि जबाबदारीने एआय मॉडेल्स तैनात (deploy) करू पाहणाऱ्या संस्थांसाठी मौल्यवान अंतर्दृष्टी (valuable insights) देतात.
बेंचमार्क एलएलएमच्या कार्यक्षमतेच्या (performance) अनेक महत्त्वपूर्ण पैलूंची (critical aspects) कसून तपासणी (meticulously examines) करतो, ज्यात खालील गोष्टींचा समावेश आहे:
- Hallucination (भ्रम): चुकीची किंवा अर्थहीन माहिती (false or nonsensical information) तयार करण्याची मॉडेलची प्रवृत्ती.
- Harmfulness (हानिकारकता): धोकादायक (dangerous), आक्षेपार्ह (offensive) किंवा অনুপযুক্ত (inappropriate) सामग्री तयार करण्याची मॉडेलची प्रवृत्ती.
- Bias and Stereotypes (पूर्वग्रह आणि रूढी): अन्यायकारक (unfair) किंवा भेदभावपूर्ण (discriminatory) दृष्टिकोन कायम ठेवण्याची मॉडेलची प्रवृत्ती.
या घटकांचे मूल्यांकन करून, गिस्कार्डचा बेंचमार्क विविध एलएलएमशी संबंधित एकूण धोक्याचे (overall risk) विस्तृत मूल्यांकन प्रदान करतो.
सर्वात लक्षणीय त्रुटी असलेल्या एलएलएम्सची क्रमवारी
अभ्यासातील निष्कर्षांवरून या प्रमुख मेट्रिक्समधील (key metrics) कामगिरीवर आधारित एलएलएमची क्रमवारी (ranking) दिसून येते. स्कोअर जितका कमी, मॉडेल तितके जास्त समस्याप्रधान (problematic) मानले जाते. खालील तक्त्यामध्ये (table) निकालांचा सारांश (summarizes) दिला आहे:
मॉडेल | एकूण सरासरी (Overall Average) | Hallucination | Harmfulness | Bias & Stereotypes | विकासक (Developer) |
---|---|---|---|---|---|
GPT-4o mini | 63.93% | 74.50% | 77.29% | 40.00% | |
Grok 2 | 65.15% | 77.35% | 91.44% | 26.67% | xAI |
Mistral Large | 66.00% | 79.72% | 89.38% | 28.89% | Mistral |
Mistral Small 3.1 24B | 67.88% | 77.72% | 90.91% | 35.00% | Mistral |
Llama 3.3 70B | 67.97% | 73.41% | 86.04% | 44.44% | Meta |
Deepseek V3 | 70.77% | 77.91% | 89.00% | 45.39% | Deepseek |
Qwen 2.5 Max | 72.71% | 77.12% | 89.89% | 51.11% | Alibaba Qwen |
GPT-4o | 72.80% | 83.89% | 92.66% | 41.85% | OpenAI |
Deepseek V3 (0324) | 73.92% | 77.86% | 92.80% | 51.11% | Deepseek |
Gemini 2.0 Flash | 74.89% | 78.13% | 94.30% | 52.22% | |
Gemma 3 27B | 75.23% | 69.90% | 91.36% | 64.44% | |
Claude 3.7 Sonnet | 75.53% | 89.26% | 95.52% | 41.82% | Anthropic |
Claude 3.5 Sonnet | 75.62% | 91.09% | 95.40% | 40.37% | Anthropic |
Llama 4 Maverick | 76.72% | 77.02% | 89.25% | 63.89% | Meta |
Llama 3.1 405B | 77.59% | 75.54% | 86.49% | 70.74% | Meta |
Claude 3.5 Haiku | 82.72% | 86.97% | 95.36% | 65.81% | Anthropic |
Gemini 1.5 Pro | 87.29% | 87.06% | 96.84% | 77.96% |
बेंचमार्क मध्ये 17 मोठ्या प्रमाणावर वापरल्या जाणाऱ्या मॉडेल्सचा समावेश होता, जे सध्याच्या एआय लँडस्केपचे प्रतिनिधित्व करण्यासाठी काळजीपूर्वक निवडले गेले होते. गिस्कार्डने प्रयोगात्मक (experimental) किंवा अंतिम (unfinalized versions) नसलेल्या मॉडेल्सपेक्षा स्थिर (stable) आणि मोठ्या प्रमाणावर स्वीकारल्या गेलेल्या मॉडेल्सचे मूल्यांकन करण्यास प्राधान्य दिले, ज्यामुळे निकालांची प्रासंगिकता (relevance) आणि विश्वसनीयता (reliability) सुनिश्चित झाली. हा दृष्टिकोन (approach) केवळ तार्किक (reasoning) कार्यांसाठी डिझाइन केलेले मॉडेल्स वगळतो, कारण हा बेंचमार्कचा प्राथमिक फोकस नाही.
सर्व श्रेणींमध्ये सर्वात वाईट कामगिरी करणारे ओळखणे
Phare बेंचमार्कचे प्रारंभिक निष्कर्ष मोठ्या प्रमाणात विद्यमान समुदाय (community) धारणा (perceptions) आणि अभिप्रायांशी (feedback) जुळतात. चाचणी केलेल्या 17 मॉडेल्सपैकी (out of the 17 tested) “सर्वात वाईट” कामगिरी करणाऱ्या पहिल्या पाच मॉडेल्समध्ये GPT-4o mini, Grok 2, Mistral Large, Mistral Small 3.1 24B आणि Llama 3.3 70B यांचा समावेश आहे. याउलट, Gemini 1.5 Pro, Claude 3.5 Haiku आणि Llama 3.1 405B या मॉडेल्सनी सर्वोत्तम कामगिरी (best performance) दर्शविली.
Hallucination हॉटस्पॉट्स: माहिती fabricated करण्यास प्रवृत्त मॉडेल्स
केवळ Hallucination मेट्रिकचा विचार केल्यास, Gemma 3 27B, Llama 3.3 70B, GPT-4o mini, Llama 3.1 405B आणि Llama 4 Maverick हे मॉडेल्स चुकीची किंवा दिशाभूल करणारी माहिती (false or misleading information) तयार करण्यास सर्वाधिक प्रवृत्त (prone) असल्याचे दिसून येते. याउलट, Anthropic ने या क्षेत्रात ताकद दर्शविली आहे, त्याच्या तीन मॉडेल्समध्ये सर्वात कमी Hallucination दर (lowest hallucination rates) आहेत: Claude 3.5 Sonnet, Claude 3.7 Sonnet आणि Claude 3.5 Haiku, तसेच Gemini 1.5 Pro आणि GPT-4o.
धोकादायक सामग्री निर्मिती: कमकुवत सुरक्षा उपाय असलेले मॉडेल
धोकादायक (dangerous) किंवा हानिकारक (harmful) सामग्री (समस्याप्रधान इनपुट ओळखण्याची आणि योग्य प्रतिसाद देण्याची मॉडेलची क्षमता (ability)) तयार करण्याच्या बाबतीत, GPT-4o mini सर्वात वाईट कामगिरी करते, त्यानंतर Llama 3.3 70B, Llama 3.1 405B, Deepseek V3 आणि Llama 4 Maverick यांचा क्रमांक लागतो. दुसरीकडे, Gemini 1.5 Pro सातत्याने (consistently) सर्वोत्तम कामगिरी दर्शवते, त्यानंतर Anthropic चे तीन मॉडेल्स (Claude 3.7 Sonnet, Claude 3.5 Sonnet आणि Claude 3.5 Haiku) आणि Gemini 2.0 Flash यांचा क्रमांक लागतो.
Bias आणि Stereotypes: एक सततचे आव्हान
एलएलएममध्ये Bias (पूर्वग्रह) आणि Stereotypes (रूढी) असणे हे सुधारणे आवश्यक असलेले एक महत्त्वपूर्ण क्षेत्र (significant area) आहे. Phare बेंचमार्कच्या निकालांवरून असे दिसून येते की एलएलएम अजूनही त्यांच्या outputs मध्ये Bias (पूर्वग्रह) आणि Stereotypes (रूढी) दर्शवतात. Grok 2 ला या श्रेणीत सर्वात वाईट स्कोअर (worst score) मिळतो, त्यानंतर Mistral Large, Mistral Small 3.1 24B, GPT-4o mini आणि Claude 3.5 Sonnet यांचा क्रमांक लागतो. याउलट, Gemini 1.5 Pro सर्वोत्तम स्कोअर मिळवते, त्यानंतर Llama 3.1 405B, Claude 3.5 Haiku, Gemma 3 27B आणि Llama 4 Maverick यांचा क्रमांक लागतो.
मॉडेल आकार (model size) विषारी सामग्री (toxic content) तयार करण्यावर प्रभाव टाकू शकतो (लहान मॉडेल्स अधिक “हानिकारक” outputs तयार करतात), पॅरामीटर्सची (parameters) संख्या एकमेव निर्णायक (sole determinant) नाही. गिस्कार्डचे CTO मॅटेओ डोरा (Matteo Dora) यांच्या मते, “आमचे विश्लेषण (analyses) दर्शविते की वापरकर्त्याच्या (user) शब्दांबद्दलची संवेदनशीलता (sensitivity) वेगवेगळ्या प्रदात्यांमध्ये (providers) मोठ्या प्रमाणात बदलते. उदाहरणार्थ, Anthropic चे मॉडेल्स त्यांच्या प्रतिस्पर्धकांच्या (competitors) तुलनेत प्रश्नांची मांडणी करण्याच्या पद्धतीमुळे कमी प्रभावित (less influenced) झालेले दिसतात, मग त्यांचा आकार काहीही असो. प्रश्न विचारण्याच्या पद्धतीचा (संक्षिप्त (brief) किंवा तपशीलवार (detailed) उत्तर मागणे) देखील वेगवेगळा परिणाम (varying effects) होतो. यामुळे आम्हाला असे वाटते की विशिष्ट प्रशिक्षण पद्धती (specific training methods), जसे की मानवी अभिप्रायाद्वारे मजबुतीकरण शिक्षण (reinforcement learning from human feedback (RLHF)), आकारापेक्षा अधिक महत्त्वपूर्ण (more significant) आहेत.”
एलएलएमच्या मूल्यांकनासाठी एक मजबूत पद्धत
Phare एलएलएमचे मूल्यांकन करण्यासाठी एक कठोर (rigorous) पद्धत (methodology) वापरते, ज्यामध्ये सुमारे 6,000 संभाषणांचा (conversations) खाजगी डेटासेट (private dataset) वापरला जातो. मॉडेल प्रशिक्षणात (model training) फेरफार (manipulation) टाळता (preventing) transparency (पारदर्शकता) सुनिश्चित करण्यासाठी, सुमारे 1,600 नमुन्यांचा (samples) एक उपसंच (subset) Hugging Face वर सार्वजनिकपणे (publicly) उपलब्ध (available) केला गेला आहे. संशोधकांनी (researchers) अनेक भाषांमध्ये (फ्रेंच, इंग्रजी, स्पॅनिश) डेटा गोळा केला आणि चाचण्या (tests) तयार केल्या ज्या वास्तविक जगातील परिस्थिती (real-world scenarios) दर्शवतात.
बेंचमार्क प्रत्येक मेट्रिकसाठी (metric) विविध उप-कार्यांचे (sub-tasks) मूल्यांकन (assesses) करतो:
Hallucination
- Factuality (तथ्यात्मकता): सामान्य ज्ञान प्रश्नांची (general knowledge questions) वस्तुस्थिती (factual) आधारित उत्तरे (responses) देण्याची मॉडेलची क्षमता.
- Accuracy with False Information (खोट्या माहितीसह अचूकता): खोटे घटक (false elements) असलेल्या प्रॉम्प्टला (prompts) प्रतिसाद देताना अचूक माहिती (accurate information) देण्याची मॉडेलची क्षमता.
- Handling Dubious Claims (संदिग्ध दाव्यांचे व्यवस्थापन): संशयास्पद (dubious) दावे (pseudoscience, conspiracy theories) process करण्याची मॉडेलची क्षमता.
- Tool Usage without Hallucination (Hallucination शिवाय Tool चा वापर): खोटी माहिती (false information) तयार न करता टूल्स (tools) वापरण्याची मॉडेलची क्षमता.
Harmfulness
संभाव्यतः (potentially) धोकादायक (dangerous) परिस्थिती (situations) ओळखण्याची आणि योग्य इशारे (warnings) देण्याची मॉडेलची क्षमता संशोधकांनी तपासली (evaluated).
Bias & Fairness
बेंचमार्क मॉडेलच्या स्वतःच्या outputs मध्ये तयार होणारे biases (पूर्वग्रह) आणि stereotypes (रूढी) ओळखण्याच्या क्षमतेवर लक्ष केंद्रित करतो.
आघाडीच्या एआय संस्थांसोबत सहकार्य
Phare चे महत्त्व (significance) आणखी वाढते कारण ते एलएलएम वापरू पाहणाऱ्या संस्थांसाठी महत्त्वपूर्ण असलेल्या मेट्रिक्सवर (metrics) थेट लक्ष केंद्रित करते. प्रत्येक मॉडेलचे तपशीलवार (detailed) निकाल (results) गिस्कार्ड वेबसाइटवर (Giskard website) सार्वजनिकपणे (publicly) उपलब्ध (available) आहेत, ज्यात उप-कार्यानुसार (sub-task) विभागणी (breakdowns) समाविष्ट आहे. या बेंचमार्कला (benchmark) BPI (French Public Investment Bank) आणि युरोपियन कमिशनद्वारे (European Commission) आर्थिक सहाय्य (financially supported) केले जाते. गिस्कार्डने Mistral AI आणि DeepMind सोबत प्रकल्पाच्या तांत्रिक (technical) बाबींवर भागीदारी (partnered) केली आहे. LMEval फ्रेमवर्क (framework) चा वापर DeepMind मधील Gemma टीमच्या (team) थेट सहकार्याने विकसित (developed) करण्यात आला, ज्यामुळे डेटा गोपनीयता (data privacy) आणि सुरक्षा (security) सुनिश्चित होते.
भविष्यात (looking ahead), गिस्कार्ड टीम Phare मध्ये दोन प्रमुख वैशिष्ट्ये (key features) जोडण्याची योजना आखत आहे: “शक्यतो (Probably) जूनपर्यंत, आम्ही जेलब्रेक्स (jailbreaks) आणि प्रॉम्प्ट इंजेक्शनला (prompt injection) प्रतिकारशक्तीचे (resistance) मूल्यांकन (evaluate) करण्यासाठी एक मॉड्यूल (module) समाविष्ट करू,” असे मॅटेओ डोरा (Matteo Dora) म्हणतात. याव्यतिरिक्त (Additionally), संशोधक (researchers) नवीनतम (latest) स्थिर (stable) मॉडेल्ससह लीडरबोर्ड (leaderboard) अद्ययावत (update) करणे सुरू ठेवतील, ज्यामध्ये Grok 3, Qwen 3 आणि संभाव्यतः (potentially) GPT-4.1 क्षितिजावर (horizon) आहेत.