பிரெஞ்சு ஸ்டார்ட்அப் நிறுவனமான Giskard சமீபத்தில் நடத்திய ஒரு ஆய்வில், செயற்கை நுண்ணறிவுத் துறையில் பரவலாகப் பயன்படுத்தப்படும் சில மொழி மாதிரிகளின் (LLMs) குறிப்பிடத்தக்க குறைபாடுகள் வெளிச்சத்திற்கு வந்துள்ளன. இந்த ஆய்வு, இந்த மாதிரிகள் தீங்கு விளைவிக்கும் உள்ளடக்கத்தை உருவாக்குதல், தகவல்களைத் தவறாக சித்தரித்தல் மற்றும் பதில்களில் பல்வேறு பாரபட்சங்களை வெளிப்படுத்துதல் ஆகியவற்றின் சாத்தியக்கூறுகளைக் கவனமாக மதிப்பிடுகிறது.
ஆபத்தான LLMகளை அடையாளம் காணுதல்: ஒரு விரிவான மதிப்பீடு
ஏப்ரல் மாதத்தில் வெளியிடப்பட்ட Giskard-ன் தரப்படுத்தல், LLMகளுடன் தொடர்புடைய சாத்தியமான அபாயங்களை ஆராய்கிறது. மேலும் தகவல்களை உருவாக்குதல், நச்சுத்தன்மையுள்ள வெளியீடுகளை உருவாக்குதல் மற்றும் தப்பெண்ணம் அல்லது தவறான கண்ணோட்டங்களைக் காட்டுதல் ஆகியவற்றில் அவற்றின் போக்கு குறித்த நம்பகமான மதிப்பீட்டை வழங்குகிறது. இந்த ஆய்வின் கண்டுபிடிப்புகள், டெவலப்பர்கள், ஆராய்ச்சியாளர்கள் மற்றும் AI மாதிரிகளைப் பொறுப்புடன் பயன்படுத்த விரும்பும் நிறுவனங்களுக்கு மதிப்புமிக்க நுண்ணறிவுகளை வழங்குகின்றன.
இந்த தரப்படுத்தல் LLM செயல்திறனின் பல முக்கியமான அம்சங்களை கவனமாக ஆராய்கிறது:
- தவறான சித்தரிப்பு (Hallucination): மாதிரி தவறான அல்லது அர்த்தமற்ற தகவல்களை உருவாக்கும் போக்கு.
- தீங்கு விளைவித்தல் (Harmfulness): மாதிரி ஆபத்தான, புண்படுத்தும் அல்லது பொருத்தமற்ற உள்ளடக்கத்தை உருவாக்கும் சாத்தியம்.
- பாரபட்சம் மற்றும் தவறான கண்ணோட்டங்கள் (Bias and Stereotypes): மாதிரி நியாயமற்ற அல்லது பாகுபாடு காட்டும் கண்ணோட்டங்களைத் தொடரும் போக்கு.
இந்த காரணிகளை மதிப்பிடுவதன் மூலம், Giskard-ன் தரப்படுத்தல் வெவ்வேறு LLMகளுடன் தொடர்புடைய ஒட்டுமொத்த ஆபத்துகளின் விரிவான மதிப்பீட்டை வழங்குகிறது.
குறிப்பிடத்தக்க குறைபாடுகள் உள்ள LLMகளின் தரவரிசை
இந்த ஆய்வின் கண்டுபிடிப்புகள், இந்த முக்கிய அளவீடுகளின் அடிப்படையில் LLMகளின் தரவரிசையை வெளிப்படுத்துகின்றன. மதிப்பெண் குறைவாக இருந்தால், மாதிரி மிகவும் சிக்கலானதாகக் கருதப்படுகிறது. முடிவுகளை கீழே உள்ள அட்டவணை சுருக்கமாகக் கூறுகிறது:
மாதிரி | ஒட்டுமொத்த சராசரி | தவறான சித்தரிப்பு | தீங்கு விளைவித்தல் | பாரபட்சம் & தவறான கண்ணோட்டங்கள் | டெவலப்பர் |
---|---|---|---|---|---|
GPT-4o mini | 63.93% | 74.50% | 77.29% | 40.00% | |
Grok 2 | 65.15% | 77.35% | 91.44% | 26.67% | xAI |
Mistral Large | 66.00% | 79.72% | 89.38% | 28.89% | Mistral |
Mistral Small 3.1 24B | 67.88% | 77.72% | 90.91% | 35.00% | Mistral |
Llama 3.3 70B | 67.97% | 73.41% | 86.04% | 44.44% | Meta |
Deepseek V3 | 70.77% | 77.91% | 89.00% | 45.39% | Deepseek |
Qwen 2.5 Max | 72.71% | 77.12% | 89.89% | 51.11% | Alibaba Qwen |
GPT-4o | 72.80% | 83.89% | 92.66% | 41.85% | OpenAI |
Deepseek V3 (0324) | 73.92% | 77.86% | 92.80% | 51.11% | Deepseek |
Gemini 2.0 Flash | 74.89% | 78.13% | 94.30% | 52.22% | |
Gemma 3 27B | 75.23% | 69.90% | 91.36% | 64.44% | |
Claude 3.7 Sonnet | 75.53% | 89.26% | 95.52% | 41.82% | Anthropic |
Claude 3.5 Sonnet | 75.62% | 91.09% | 95.40% | 40.37% | Anthropic |
Llama 4 Maverick | 76.72% | 77.02% | 89.25% | 63.89% | Meta |
Llama 3.1 405B | 77.59% | 75.54% | 86.49% | 70.74% | Meta |
Claude 3.5 Haiku | 82.72% | 86.97% | 95.36% | 65.81% | Anthropic |
Gemini 1.5 Pro | 87.29% | 87.06% | 96.84% | 77.96% |
தற்போதைய AI நிலப்பரப்பை பிரதிநிதித்துவப்படுத்தும் வகையில், இந்த தரப்படுத்தலில் பரவலாகப் பயன்படுத்தப்படும் 17 மாதிரிகள் கவனமாக தேர்ந்தெடுக்கப்பட்டன. Giskard, சோதனை அல்லது இறுதி செய்யப்படாத பதிப்புகளை விட நிலையான மற்றும் பரவலாக ஏற்றுக்கொள்ளப்பட்ட மாதிரிகளை மதிப்பிடுவதற்கு முன்னுரிமை அளித்தது. முடிவுகளின் பொருத்தம் மற்றும் நம்பகத்தன்மையை உறுதி செய்தது. இந்த அணுகுமுறை முக்கியமாக நியாயப்படுத்தும் பணிகளுக்காக வடிவமைக்கப்பட்ட மாதிரிகளை விலக்குகிறது, ஏனெனில் அவை இந்த தரப்படுத்தலின் முதன்மை கவனம் அல்ல.
அனைத்து வகைகளிலும் மோசமாக செயல்படும் மாதிரிகளை அடையாளம் காணுதல்
Phare தரப்படுத்தலின் ஆரம்ப கண்டுபிடிப்புகள், ஏற்கனவே உள்ள சமூகக் கருத்துக்கள் மற்றும் கருத்துக்களைப் பெரிதும் ஒத்துப்போகின்றன. சோதிக்கப்பட்ட 17 மாதிரிகளில், GPT-4o mini, Grok 2, Mistral Large, Mistral Small 3.1 24B, மற்றும் Llama 3.3 70B ஆகியவை முதல் ஐந்து "மோசமான" செயல்திறன் கொண்ட மாதிரிகளில் அடங்கும். மாறாக, சிறந்த செயல்திறனை வெளிப்படுத்தும் மாதிரிகளில் Gemini 1.5 Pro, Claude 3.5 Haiku மற்றும் Llama 3.1 405B ஆகியவை அடங்கும்.
தவறான சித்தரிப்பு மையங்கள்: தகவல்களைத் தவறாக சித்தரிக்க வாய்ப்புள்ள மாதிரிகள்
தவறான சித்தரிப்பு அளவீடுகளை மட்டுமே கருத்தில் கொள்ளும்போது, Gemma 3 27B, Llama 3.3 70B, GPT-4o mini, Llama 3.1 405B மற்றும் Llama 4 Maverick ஆகியவை தவறான அல்லது தவறான தகவல்களை உருவாக்கும் வாய்ப்புள்ள மாதிரிகளாக வெளிப்படுகின்றன. இதற்கு மாறாக, Anthropic இந்த பகுதியில் பலத்தை நிரூபிக்கிறது. அதன் மூன்று மாதிரிகள் குறைந்த தவறான சித்தரிப்பு விகிதங்களை வெளிப்படுத்துகின்றன: Claude 3.5 Sonnet, Claude 3.7 Sonnet மற்றும் Claude 3.5 Haiku, அத்துடன் Gemini 1.5 Pro மற்றும் GPT-4o.
ஆபத்தான உள்ளடக்க உருவாக்கம்: பலவீனமான பாதுகாப்புகள் கொண்ட மாதிரிகள்
ஆபத்தான அல்லது தீங்கு விளைவிக்கும் உள்ளடக்கத்தை உருவாக்குவதைப் பொறுத்தவரை (பிரச்சனையான உள்ளீடுகளை அடையாளம் கண்டு பொருத்தமான பதில்களை வழங்குவதற்கான மாதிரியின் திறனை மதிப்பிடுதல்), GPT-4o mini மோசமாக செயல்படுகிறது, அதைத் தொடர்ந்து Llama 3.3 70B, Llama 3.1 405B, Deepseek V3 மற்றும் Llama 4 Maverick. மறுபுறம், Gemini 1.5 Pro தொடர்ந்து சிறந்த செயல்திறனை வெளிப்படுத்துகிறது, அதைத் தொடர்ந்து Anthropic-ன் மூன்று மாதிரிகள் (Claude 3.7 Sonnet, Claude 3.5 Sonnet மற்றும் Claude 3.5 Haiku) மற்றும் Gemini 2.0 Flash.
பாரபட்சம் மற்றும் தவறான கண்ணோட்டங்கள்: ஒரு நிலையான சவால்
LLMகளில் பாரபட்சம் மற்றும் தவறான கண்ணோட்டங்களின் இருப்பு மேம்படுத்தப்பட வேண்டிய ஒரு குறிப்பிடத்தக்க பகுதியாக உள்ளது. Phare தரப்படுத்தல் முடிவுகள், LLMகள் அவற்றின் வெளியீடுகளில் குறிப்பிடத்தக்க பாரபட்சங்களையும் தவறான கண்ணோட்டங்களையும் இன்னும் வெளிப்படுத்துகின்றன என்பதைக் குறிக்கிறது. Grok 2 இந்த பிரிவில் மோசமான மதிப்பெண்ணைப் பெறுகிறது, அதைத் தொடர்ந்து Mistral Large, Mistral Small 3.1 24B, GPT-4o mini மற்றும் Claude 3.5 Sonnet. மாறாக, Gemini 1.5 Pro சிறந்த மதிப்பெண்களைப் பெறுகிறது, அதைத் தொடர்ந்து Llama 3.1 405B, Claude 3.5 Haiku, Gemma 3 27B மற்றும் Llama 4 Maverick.
மாதிரியின் அளவு நச்சு உள்ளடக்கத்தை உருவாக்குவதில் செல்வாக்கு செலுத்தக்கூடும் என்றாலும் (சிறிய மாதிரிகள் அதிக "தீங்கு விளைவிக்கும்" வெளியீடுகளை உருவாக்குகின்றன), அளவுருக்களின் எண்ணிக்கை மட்டுமே தீர்மானிக்கும் காரணி அல்ல. Giskard-ன் CTO Matteo Dora கருத்துப்படி, "பயனரின் சொற்களுக்கு ஏற்ப உணர்திறன் வெவ்வேறு வழங்குநர்களிடையே கணிசமாக வேறுபடுகிறது என்பதை எங்கள் பகுப்பாய்வுகள் காட்டுகின்றன. உதாரணமாக, Anthropic-ன் மாதிரிகள் அவற்றின் அளவைப் பொருட்படுத்தாமல், அவற்றின் போட்டியாளர்களை விட கேள்விகள் கேட்கப்படும் விதத்தால் குறைவாகவே பாதிக்கப்படுகின்றன. கேள்வி கேட்கும் விதமும் (சுருக்கமான அல்லது விரிவான பதிலை கோருவது) மாறுபட்ட விளைவுகளை ஏற்படுத்துகிறது. இது மனித பின்னூட்டத்திலிருந்து வலுவூட்டல் கற்றல் (RLHF) போன்ற குறிப்பிட்ட பயிற்சி முறைகள் அளவை விட மிகவும் முக்கியமானவை என்று நம்ப வைக்கிறது."
LLMகளை மதிப்பிடுவதற்கான ஒரு வலுவான வழிமுறை
Phare, LLMகளை மதிப்பிடுவதற்கு கடுமையான வழிமுறையைப் பயன்படுத்துகிறது. சுமார் 6,000 உரையாடல்களின் தனிப்பட்ட தரவுத்தொகுப்பைப் பயன்படுத்துகிறது. மாதிரி பயிற்சியின் கையாளுதலைத் தடுக்கும் போது வெளிப்படைத்தன்மையை உறுதி செய்வதற்காக, சுமார் 1,600 மாதிரிகளின் ஒரு துணைக்குழு Hugging Face-ல் பொதுவில் கிடைக்கிறது. ஆராய்ச்சியாளர்கள் பல மொழிகளில் (பிரெஞ்சு, ஆங்கிலம், ஸ்பானிஷ்) தரவுகளைச் சேகரித்தனர் மற்றும் நிஜ உலக சூழ்நிலைகளைப் பிரதிபலிக்கும் சோதனைகளை வடிவமைத்தனர்.
இந்த தரப்படுத்தல் ஒவ்வொரு அளவீட்டிற்கும் பல்வேறு துணை பணிகளை மதிப்பிடுகிறது:
தவறான சித்தரிப்பு
- உண்மைத்தன்மை (Factuality): பொது அறிவு கேள்விகளுக்கு உண்மையான பதில்களை உருவாக்கும் மாதிரியின் திறன்.
- தவறான தகவலுடன் கூடிய துல்லியம் (Accuracy with False Information): தவறான கூறுகளைக் கொண்ட தூண்டுதல்களுக்கு பதிலளிக்கும்போது துல்லியமான தகவல்களை வழங்கும் மாதிரியின் திறன்.
- சந்தேகத்திற்குரிய கூற்றுகளைக் கையாளுதல் (Handling Dubious Claims): சந்தேகத்திற்குரிய கூற்றுகளை (போலி அறிவியல், சதி கோட்பாடுகள்) செயலாக்கும் மாதிரியின் திறன்.
- தவறான சித்தரிப்பு இல்லாமல் கருவி பயன்பாடு (Tool Usage without Hallucination): தவறான தகவல்களை உருவாக்காமல் கருவிகளைப் பயன்படுத்தும் மாதிரியின் திறன்.
தீங்கு விளைவித்தல்
ஆபத்தான சூழ்நிலைகளை அடையாளம் கண்டு பொருத்தமான எச்சரிக்கைகளை வழங்கும் மாதிரியின் திறனை ஆராய்ச்சியாளர்கள் மதிப்பிட்டனர்.
பாரபட்சம் மற்றும் நியாயம்
இந்த தரப்படுத்தல், அதன் சொந்த வெளியீடுகளில் உருவாக்கப்பட்ட பாரபட்சங்கள் மற்றும் தவறான கண்ணோட்டங்களை அடையாளம் காணும் மாதிரியின் திறனில் கவனம் செலுத்துகிறது.
முன்னணி AI நிறுவனங்களுடன் ஒத்துழைப்பு
LLMகளைப் பயன்படுத்த விரும்பும் நிறுவனங்களுக்கு முக்கியமான அளவீடுகளில் நேரடியாக கவனம் செலுத்துவதன் மூலம் Phare-ன் முக்கியத்துவம் மேலும் மேம்படுத்தப்படுகிறது. ஒவ்வொரு மாதிரிக்கும் விரிவான முடிவுகள், துணை பணி மூலம் முறிவுகள் உட்பட, Giskard இணையதளத்தில் பொதுவில் கிடைக்கின்றன. இந்த தரப்படுத்தலுக்கு BPI (பிரெஞ்சு பொது முதலீட்டு வங்கி) மற்றும் ஐரோப்பிய ஆணையம் நிதி ஆதரவு அளிக்கின்றன. Giskard Mistral AI மற்றும் DeepMind ஆகியவற்றுடன் திட்டத்தின் தொழில்நுட்ப அம்சங்களில் கூட்டு சேர்ந்துள்ளது. LMEval பயன்பாட்டிற்கான கட்டமைப்பை DeepMind-ல் உள்ள Gemma குழுவுடன் நேரடி ஒத்துழைப்புடன் உருவாக்கப்பட்டது. தரவு தனியுரிமை மற்றும் பாதுகாப்பை உறுதி செய்கிறது.
எதிர்காலத்தில், Giskard குழு Phare-க்கு இரண்டு முக்கிய அம்சங்களைச் சேர்க்க திட்டமிட்டுள்ளது: "ஜூன் மாதத்திற்குள், நாங்கள் ஜெயில்பிரேக்குகள் மற்றும் தூண்டுதல் ஊசிக்கு எதிர்ப்பை மதிப்பிடுவதற்கு ஒரு தொகுதியைச் சேர்ப்போம்," என்று Matteo Dora கூறுகிறார். கூடுதலாக, ஆராய்ச்சியாளர்கள் சமீபத்திய நிலையான மாதிரிகள் மூலம் லீடர்போர்டை தொடர்ந்து புதுப்பிப்பார்கள். Grok 3, Qwen 3 மற்றும் சாத்தியமாக GPT-4.1 ஆகியவை எல்லைக்கு அப்பாற்பட்டவை.