फ्रांसीसी स्टार्टअप Giskard के एक हालिया बेंचमार्क अध्ययन ने आर्टिफिशियल इंटेलिजेंस (AI) परिदृश्य में कुछ सबसे व्यापक रूप से उपयोग किए जाने वाले भाषा मॉडल (LLM) की महत्वपूर्ण कमियों पर प्रकाश डाला है। इस अध्ययन में सावधानीपूर्वक इन मॉडलों की हानिकारक सामग्री उत्पन्न करने, जानकारी को मतिभ्रम करने और उनकी प्रतिक्रियाओं में विभिन्न पूर्वाग्रहों को प्रदर्शित करने की प्रवृत्ति का आकलन किया गया है।
सबसे जोखिम भरे LLM की पहचान: एक व्यापक मूल्यांकन
Giskard का बेंचमार्क, जो अप्रैल में जारी किया गया, LLM से जुड़े संभावित जोखिमों की पड़ताल करता है, उनकी जानकारी को गढ़ने, जहरीले आउटपुट का उत्पादन करने और पूर्वाग्रही या रूढ़िवादी दृष्टिकोण प्रदर्शित करने की प्रवृत्ति का एक विश्वसनीय मूल्यांकन प्रदान करता है। अध्ययन के निष्कर्ष डेवलपर्स, शोधकर्ताओं और संगठनों के लिए मूल्यवान अंतर्दृष्टि प्रदान करते हैं जो जिम्मेदारी से AI मॉडल को तैनात करना चाहते हैं।
बेंचमार्क LLM प्रदर्शन के कई महत्वपूर्ण पहलुओं की सावधानीपूर्वक जांच करता है, जिसमें शामिल हैं:
- मतिभ्रम: मॉडल की झूठी या बेतुकी जानकारी उत्पन्न करने की प्रवृत्ति।
- हानिकारकता: मॉडल की खतरनाक, आक्रामक या अनुचित सामग्री का उत्पादन करने की प्रवृत्ति।
- पूर्वाग्रह और रूढ़ियाँ: मॉडल का अनुचित या भेदभावपूर्ण दृष्टिकोण को कायम रखने की प्रवृत्ति।
इन कारकों का मूल्यांकन करके, Giskard का बेंचमार्क विभिन्न LLM से जुड़े समग्र जोखिम का एक व्यापक आकलन प्रदान करता है।
सबसे महत्वपूर्ण खामियों वाले LLM को रैंक करना
अध्ययन के निष्कर्ष इन प्रमुख मेट्रिक्स में उनके प्रदर्शन के आधार पर LLM की रैंकिंग का खुलासा करते हैं। स्कोर जितना कम होगा, मॉडल को उतना ही समस्याग्रस्त माना जाएगा। नीचे दी गई तालिका परिणामों का सार प्रस्तुत करती है:
मॉडल | समग्र औसत | मतिभ्रम | हानिकारकता | पूर्वाग्रह और रूढ़ियाँ | डेवलपर |
---|---|---|---|---|---|
GPT-4o mini | 63.93% | 74.50% | 77.29% | 40.00% | |
Grok 2 | 65.15% | 77.35% | 91.44% | 26.67% | xAI |
Mistral Large | 66.00% | 79.72% | 89.38% | 28.89% | Mistral |
Mistral Small 3.1 24B | 67.88% | 77.72% | 90.91% | 35.00% | Mistral |
Llama 3.3 70B | 67.97% | 73.41% | 86.04% | 44.44% | Meta |
Deepseek V3 | 70.77% | 77.91% | 89.00% | 45.39% | Deepseek |
Qwen 2.5 Max | 72.71% | 77.12% | 89.89% | 51.11% | Alibaba Qwen |
GPT-4o | 72.80% | 83.89% | 92.66% | 41.85% | OpenAI |
Deepseek V3 (0324) | 73.92% | 77.86% | 92.80% | 51.11% | Deepseek |
Gemini 2.0 Flash | 74.89% | 78.13% | 94.30% | 52.22% | |
Gemma 3 27B | 75.23% | 69.90% | 91.36% | 64.44% | |
Claude 3.7 Sonnet | 75.53% | 89.26% | 95.52% | 41.82% | Anthropic |
Claude 3.5 Sonnet | 75.62% | 91.09% | 95.40% | 40.37% | Anthropic |
Llama 4 Maverick | 76.72% | 77.02% | 89.25% | 63.89% | Meta |
Llama 3.1 405B | 77.59% | 75.54% | 86.49% | 70.74% | Meta |
Claude 3.5 Haiku | 82.72% | 86.97% | 95.36% | 65.81% | Anthropic |
Gemini 1.5 Pro | 87.29% | 87.06% | 96.84% | 77.96% |
बेंचमार्क में 17 व्यापक रूप से उपयोग किए जाने वाले मॉडल शामिल थे, जिन्हें वर्तमान AI परिदृश्य का प्रतिनिधित्व करने के लिए सावधानीपूर्वक चुना गया था। Giskard ने प्रयोगात्मक या गैर-अंतिम संस्करणों पर स्थिर और व्यापक रूप से अपनाए गए मॉडल का मूल्यांकन करने को प्राथमिकता दी, जिससे परिणामों की प्रासंगिकता और विश्वसनीयता सुनिश्चित हुई। यह दृष्टिकोण उन मॉडलों को बाहर करता है जो मुख्य रूप से तर्क कार्यों के लिए डिज़ाइन किए गए हैं, क्योंकि वे इस बेंचमार्क का प्राथमिक फोकस नहीं हैं।
सभी श्रेणियों में सबसे खराब प्रदर्शन करने वालों की पहचान करना
Phare बेंचमार्क के प्रारंभिक निष्कर्ष काफी हद तक मौजूदा सामुदायिक धारणाओं और प्रतिक्रिया के साथ संरेखित होते हैं। शीर्ष पांच "सबसे खराब" प्रदर्शन करने वाले मॉडल (परीक्षण किए गए 17 में से) में GPT-4o मिनी, Grok 2, Mistral Large, Mistral Small 3.1 24B और Llama 3.3 70B शामिल हैं। इसके विपरीत, Gemini 1.5 Pro, Claude 3.5 Haiku और Llama 3.1 405B जैसे मॉडल सर्वश्रेष्ठ प्रदर्शन का प्रदर्शन करते हैं।
मतिभ्रम हॉटस्पॉट: जानकारी गढ़ने के लिए प्रवण मॉडल
जब केवल मतिभ्रम मीट्रिक पर विचार किया जाता है, तो Gemma 3 27B, Llama 3.3 70B, GPT-4o मिनी, Llama 3.1 405B और Llama 4 Maverick झूठी या भ्रामक जानकारी उत्पन्न करने के लिए सबसे अधिक प्रवण मॉडल के रूप में उभरते हैं। इसके विपरीत, Anthropic इस क्षेत्र में ताकत प्रदर्शित करता है, इसके तीन मॉडल सबसे कम मतिभ्रम दर प्रदर्शित करते हैं: Claude 3.5 Sonnet, Claude 3.7 Sonnet और Claude 3.5 Haiku, साथ ही Gemini 1.5 Pro और GPT-4o।
खतरनाक सामग्री पीढ़ी: कमजोर सुरक्षा वाले मॉडल
खतरनाक या हानिकारक सामग्री की पीढ़ी के संबंध में (समस्याग्रस्त इनपुट को पहचानने और उचित रूप से प्रतिक्रिया करने की मॉडल की क्षमता का आकलन करना), GPT-4o मिनी सबसे खराब प्रदर्शन करता है, इसके बाद Llama 3.3 70B, Llama 3.1 405B, Deepseek V3 और Llama 4 Maverick हैं। दूसरी ओर, Gemini 1.5 Pro लगातार सर्वश्रेष्ठ प्रदर्शन का प्रदर्शन करता है, इसके बाद Anthropic के तीन मॉडल (Claude 3.7 Sonnet, Claude 3.5 Sonnet और Claude 3.5 Haiku) और Gemini 2.0 Flash हैं।
पूर्वाग्रह और रूढ़ियाँ: एक सतत चुनौती
LLM में पूर्वाग्रह और रूढ़ियों की उपस्थिति एक महत्वपूर्ण क्षेत्र बनी हुई है जिसमें सुधार की आवश्यकता है। Phare बेंचमार्क के परिणाम संकेत देते हैं कि LLM अभी भी अपने आउटपुट में चिह्नित पूर्वाग्रहों और रूढ़ियों को प्रदर्शित करते हैं। Grok 2 को इस श्रेणी में सबसे खराब स्कोर प्राप्त होता है, इसके बाद Mistral Large, Mistral Small 3.1 24B, GPT-4o मिनी और Claude 3.5 Sonnet हैं। इसके विपरीत, Gemini 1.5 Pro सर्वश्रेष्ठ स्कोर प्राप्त करता है, इसके बाद Llama 3.1 405B, Claude 3.5 Haiku, Gemma 3 27B और Llama 4 Maverick हैं।
जबकि मॉडल का आकार जहरीली सामग्री की पीढ़ी को प्रभावित कर सकता है (छोटे मॉडल अधिक "हानिकारक" आउटपुट का उत्पादन करते हैं), मापदंडों की संख्या एकमात्र निर्धारक नहीं है। Giskard के CTO Matteo Dora के अनुसार, "हमारे विश्लेषण से पता चलता है कि उपयोगकर्ता के शब्दों के प्रति संवेदनशीलता विभिन्न प्रदाताओं में काफी भिन्न होती है। उदाहरण के लिए, Anthropic के मॉडल अपने आकार के बावजूद, अपने प्रतिस्पर्धियों की तुलना में प्रश्नों के वाक्यांशों के तरीके से कम प्रभावित होते हैं। प्रश्न पूछने के तरीके (संक्षिप्त या विस्तृत उत्तर का अनुरोध करना) का भी अलग-अलग प्रभाव पड़ता है। इससे हमें विश्वास होता है कि विशिष्ट प्रशिक्षण विधियाँ, जैसे कि मानव प्रतिक्रिया से सुदृढीकरण सीखना (RLHF), आकार से अधिक महत्वपूर्ण हैं।"
LLM का मूल्यांकन करने के लिए एक मजबूत कार्यप्रणाली
Phare LLM का आकलन करने के लिए एक कठोर कार्यप्रणाली का उपयोग करता है, जिसमें लगभग 6,000 वार्तालापों का एक निजी डेटासेट का उपयोग किया जाता है। मॉडल प्रशिक्षण के हेरफेर को रोकने के दौरान पारदर्शिता सुनिश्चित करने के लिए, लगभग 1,600 नमूनों का एक सबसेट Hugging Face पर सार्वजनिक रूप से उपलब्ध कराया गया है। शोधकर्ताओं ने कई भाषाओं (फ्रेंच, अंग्रेजी, स्पेनिश) में डेटा एकत्र किया और वास्तविक दुनिया के परिदृश्यों को दर्शाने वाले परीक्षणों को डिज़ाइन किया।
बेंचमार्क प्रत्येक मीट्रिक के लिए विभिन्न उप-कार्यों का आकलन करता है:
मतिभ्रम
- तथ्यात्मकता: सामान्य ज्ञान के प्रश्नों के लिए तथ्यात्मक प्रतिक्रियाएँ उत्पन्न करने की मॉडल की क्षमता।
- झूठी जानकारी के साथ सटीकता: झूठे तत्वों वाले संकेतों का जवाब देते समय सटीक जानकारी प्रदान करने की मॉडल की क्षमता।
- संदिग्ध दावों का प्रबंधन: संदिग्ध दावों (छद्म विज्ञान, साजिश के सिद्धांत) को संसाधित करने की मॉडल की क्षमता।
- मतिभ्रम के बिना उपकरण का उपयोग: झूठी जानकारी उत्पन्न किए बिना उपकरणों का उपयोग करने की मॉडल की क्षमता।
हानिकारकता
शोधकर्ताओं ने संभावित रूप से खतरनाक स्थितियों को पहचानने और उचित चेतावनी प्रदान करने की मॉडल की क्षमता का मूल्यांकन किया।
पूर्वाग्रह और निष्पक्षता
बेंचमार्क अपने स्वयं के आउटपुट में उत्पन्न पूर्वाग्रहों और रूढ़ियों की पहचान करने की मॉडल की क्षमता पर केंद्रित है।
प्रमुख AI संगठनों के साथ सहयोग
Phare का महत्व LLM का उपयोग करने के इच्छुक संगठनों के लिए महत्वपूर्ण मेट्रिक्स पर इसके प्रत्यक्ष फोकस से और बढ़ जाता है। प्रत्येक मॉडल के लिए विस्तृत परिणाम Giskard वेबसाइट पर सार्वजनिक रूप से उपलब्ध हैं, जिसमें उप-कार्य द्वारा ब्रेकडाउन भी शामिल हैं। बेंचमार्क को BPI (फ्रेंच पब्लिक इन्वेस्टमेंट बैंक) और यूरोपीय आयोग द्वारा वित्तीय सहायता प्रदान की जाती है। Giskard ने परियोजना के तकनीकी पहलुओं पर Mistral AI और DeepMind के साथ भी साझेदारी की है। उपयोग के लिए LMEval ढांचे को DeepMind में Gemma टीम के साथ सीधे सहयोग से विकसित किया गया था, जिससे डेटा गोपनीयता और सुरक्षा सुनिश्चित हुई।
आगे देखते हुए, Giskard टीम Phare में दो प्रमुख सुविधाएँ जोड़ने की योजना बना रही है: "शायद जून तक, हम जेलब्रेक और प्रॉम्प्ट इंजेक्शन के प्रतिरोध का मूल्यांकन करने के लिए एक मॉड्यूल जोड़ेंगे," Matteo Dora कहते हैं। इसके अतिरिक्त, शोधकर्ता Grok 3, Qwen 3 और संभावित रूप से GPT-4.1 के साथ नवीनतम स्थिर मॉडलों के साथ लीडरबोर्ड को अपडेट करना जारी रखेंगे।