ਇੱਕ ਤਾਜ਼ਾ ਬੈਂਚਮਾਰਕ ਅਧਿਐਨ, ਜੋ ਕਿ ਫਰਾਂਸੀਸੀ ਸਟਾਰਟਅੱਪ Giskard ਦੁਆਰਾ ਕੀਤਾ ਗਿਆ ਹੈ, ਨੇ ਆਰਟੀਫੀਸ਼ੀਅਲ ਇੰਟੈਲੀਜੈਂਸ (Artificial Intelligence) ਦੇ ਖੇਤਰ ਵਿੱਚ ਵਰਤੇ ਜਾਂਦੇ ਕੁੱਝ ਸਭ ਤੋਂ ਵੱਧ ਭਾਸ਼ਾ ਮਾਡਲਾਂ (Language Models (LLMs)) ਦੀਆਂ ਮਹੱਤਵਪੂਰਨ ਕਮੀਆਂ ਵੱਲ ਧਿਆਨ ਦਿਵਾਇਆ ਹੈ। ਇਸ ਅਧਿਐਨ ਵਿੱਚ ਇਨ੍ਹਾਂ ਮਾਡਲਾਂ ਦੀ ਹਾਨੀਕਾਰਕ ਸਮੱਗਰੀ ਪੈਦਾ ਕਰਨ, ਗਲਤ ਜਾਣਕਾਰੀ ਦੇਣ, ਅਤੇ ਆਪਣੇ ਜਵਾਬਾਂ ਵਿੱਚ ਕਈ ਤਰ੍ਹਾਂ ਦੇ ਪੱਖਪਾਤ ਦਿਖਾਉਣ ਦੀ ਪ੍ਰਵਿਰਤੀ ਦਾ ਬਹੁਤ ਹੀ ਧਿਆਨ ਨਾਲ ਮੁਲਾਂਕਣ ਕੀਤਾ ਗਿਆ ਹੈ।
ਸਭ ਤੋਂ ਖਤਰਨਾਕ LLMs ਦੀ ਪਛਾਣ: ਇੱਕ ਵਿਆਪਕ ਮੁਲਾਂਕਣ
Giskard ਦਾ ਬੈਂਚਮਾਰਕ, ਜੋ ਕਿ ਅਪ੍ਰੈਲ ਵਿੱਚ ਜਾਰੀ ਕੀਤਾ ਗਿਆ ਸੀ, LLMs ਨਾਲ ਜੁੜੇ ਸੰਭਾਵੀ ਖਤਰਿਆਂ ਦੀ ਡੂੰਘਾਈ ਨਾਲ ਜਾਂਚ ਕਰਦਾ ਹੈ, ਅਤੇ ਗਲਤ ਜਾਣਕਾਰੀ ਘੜਨ, ਜ਼ਹਿਰੀਲੇ ਨਤੀਜੇ ਪੈਦਾ ਕਰਨ, ਅਤੇ ਪੱਖਪਾਤੀ ਜਾਂ ਰੂੜੀਵਾਦੀ ਵਿਚਾਰਾਂ ਨੂੰ ਪ੍ਰਦਰਸ਼ਿਤ ਕਰਨ ਦੀ ਉਨ੍ਹਾਂ ਦੀ ਪ੍ਰਵਿਰਤੀ ਦਾ ਇੱਕ ਭਰੋਸੇਯੋਗ ਮੁਲਾਂਕਣ ਪ੍ਰਦਾਨ ਕਰਦਾ ਹੈ। ਅਧਿਐਨ ਦੇ ਨਤੀਜੇ ਡਿਵੈਲਪਰਾਂ, ਖੋਜਕਰਤਾਵਾਂ, ਅਤੇ ਸੰਸਥਾਵਾਂ ਲਈ ਕੀਮਤੀ ਜਾਣਕਾਰੀ ਪ੍ਰਦਾਨ ਕਰਦੇ ਹਨ ਜੋ ਜ਼ਿੰਮੇਵਾਰੀ ਨਾਲ AI ਮਾਡਲਾਂ ਨੂੰ ਲਾਗੂ ਕਰਨ ਦੀ ਕੋਸ਼ਿਸ਼ ਕਰ ਰਹੇ ਹਨ।
ਬੈਂਚਮਾਰਕ LLM ਪ੍ਰਦਰਸ਼ਨ ਦੇ ਕਈ ਮਹੱਤਵਪੂਰਨ ਪਹਿਲੂਆਂ ਦੀ ਬਹੁਤ ਹੀ ਧਿਆਨ ਨਾਲ ਜਾਂਚ ਕਰਦਾ ਹੈ, ਜਿਸ ਵਿੱਚ ਸ਼ਾਮਲ ਹਨ:
- ਭੁਲੇਖਾ (Hallucination): ਮਾਡਲ ਦੀ ਝੂਠੀ ਜਾਂ ਬੇਤੁਕੀ ਜਾਣਕਾਰੀ ਪੈਦਾ ਕਰਨ ਦੀ ਪ੍ਰਵਿਰਤੀ।
- ਨੁਕਸਾਨਦੇਹੀ (Harmfulness): ਮਾਡਲ ਦੀ ਖਤਰਨਾਕ, ਅਪਮਾਨਜਨਕ, ਜਾਂ ਗੈਰ-ਢੁਕਵੀਂ ਸਮੱਗਰੀ ਪੈਦਾ ਕਰਨ ਦੀ ਪ੍ਰਵਿਰਤੀ।
- ਪੱਖਪਾਤ ਅਤੇ ਰੂੜ੍ਹੀਵਾਦ (Bias and Stereotypes): ਮਾਡਲ ਦਾ ਬੇਇਨਸਾਫ਼ੀ ਜਾਂ ਵਿਤਕਰੇ ਵਾਲੇ ਵਿਚਾਰਾਂ ਨੂੰ ਸਥਾਈ ਬਣਾਉਣ ਦਾ ਝੁਕਾਅ।
ਇਨ੍ਹਾਂ ਕਾਰਕਾਂ ਦਾ ਮੁਲਾਂਕਣ ਕਰਕੇ, Giskard ਦਾ ਬੈਂਚਮਾਰਕ ਵੱਖ-ਵੱਖ LLMs ਨਾਲ ਜੁੜੇ ਸਮੁੱਚੇ ਜੋਖਮ ਦਾ ਇੱਕ ਵਿਆਪਕ ਮੁਲਾਂਕਣ ਪ੍ਰਦਾਨ ਕਰਦਾ ਹੈ।
ਸਭ ਤੋਂ ਮਹੱਤਵਪੂਰਨ ਕਮੀਆਂ ਵਾਲੇ LLMs ਦੀ ਦਰਜਾਬੰਦੀ
ਅਧਿਐਨ ਦੇ ਨਤੀਜੇ ਇਨ੍ਹਾਂ ਮੁੱਖ ਮਾਪਦੰਡਾਂ ਵਿੱਚ ਉਨ੍ਹਾਂ ਦੇ ਪ੍ਰਦਰਸ਼ਨ ਦੇ ਅਧਾਰ ਤੇ LLMs ਦੀ ਇੱਕ ਦਰਜਾਬੰਦੀ ਨੂੰ ਪ੍ਰਗਟ ਕਰਦੇ ਹਨ। ਜਿੰਨਾ ਸਕੋਰ ਘੱਟ ਹੋਵੇਗਾ, ਮਾਡਲ ਨੂੰ ਓਨਾ ਹੀ ਜ਼ਿਆਦਾ ਸਮੱਸਿਆ ਵਾਲਾ ਮੰਨਿਆ ਜਾਂਦਾ ਹੈ। ਹੇਠਾਂ ਦਿੱਤੀ ਸਾਰਣੀ ਨਤੀਜਿਆਂ ਦਾ ਸਾਰ ਦਿੰਦੀ ਹੈ:
ਮਾਡਲ | ਸਮੁੱਚੀ ਔਸਤ | ਭੁਲੇਖਾ | ਨੁਕਸਾਨਦੇਹੀ | ਪੱਖਪਾਤ ਅਤੇ ਰੂੜ੍ਹੀਵਾਦ | ਡਿਵੈਲਪਰ |
---|---|---|---|---|---|
GPT-4o mini | 63.93% | 74.50% | 77.29% | 40.00% | |
Grok 2 | 65.15% | 77.35% | 91.44% | 26.67% | xAI |
Mistral Large | 66.00% | 79.72% | 89.38% | 28.89% | Mistral |
Mistral Small 3.1 24B | 67.88% | 77.72% | 90.91% | 35.00% | Mistral |
Llama 3.3 70B | 67.97% | 73.41% | 86.04% | 44.44% | Meta |
Deepseek V3 | 70.77% | 77.91% | 89.00% | 45.39% | Deepseek |
Qwen 2.5 Max | 72.71% | 77.12% | 89.89% | 51.11% | Alibaba Qwen |
GPT-4o | 72.80% | 83.89% | 92.66% | 41.85% | OpenAI |
Deepseek V3 (0324) | 73.92% | 77.86% | 92.80% | 51.11% | Deepseek |
Gemini 2.0 Flash | 74.89% | 78.13% | 94.30% | 52.22% | |
Gemma 3 27B | 75.23% | 69.90% | 91.36% | 64.44% | |
Claude 3.7 Sonnet | 75.53% | 89.26% | 95.52% | 41.82% | Anthropic |
Claude 3.5 Sonnet | 75.62% | 91.09% | 95.40% | 40.37% | Anthropic |
Llama 4 Maverick | 76.72% | 77.02% | 89.25% | 63.89% | Meta |
Llama 3.1 405B | 77.59% | 75.54% | 86.49% | 70.74% | Meta |
Claude 3.5 Haiku | 82.72% | 86.97% | 95.36% | 65.81% | Anthropic |
Gemini 1.5 Pro | 87.29% | 87.06% | 96.84% | 77.96% |
ਬੈਂਚਮਾਰਕ ਵਿੱਚ 17 ਵਿਆਪਕ ਤੌਰ ‘ਤੇ ਵਰਤੇ ਜਾਂਦੇ ਮਾਡਲ ਸ਼ਾਮਲ ਕੀਤੇ ਗਏ ਸਨ, ਜੋ ਕਿ ਮੌਜੂਦਾ AI ਲੈਂਡਸਕੇਪ ਨੂੰ ਦਰਸਾਉਣ ਲਈ ਧਿਆਨ ਨਾਲ ਚੁਣੇ ਗਏ ਸਨ। Giskard ਨੇ ਪ੍ਰਯੋਗਾਤਮਕ ਜਾਂ ਅੰਤਿਮ ਰੂਪ ਤੋਂ ਬਿਨਾਂ ਵਰਜਨਾਂ ਦੀ ਬਜਾਏ ਸਥਿਰ ਅਤੇ ਵਿਆਪਕ ਤੌਰ ‘ਤੇ ਅਪਣਾਏ ਗਏ ਮਾਡਲਾਂ ਦਾ ਮੁਲਾਂਕਣ ਕਰਨ ਨੂੰ ਤਰਜੀਹ ਦਿੱਤੀ, ਜਿਸ ਨਾਲ ਨਤੀਜਿਆਂ ਦੀ ਪ੍ਰਸੰਗਿਕਤਾ ਅਤੇ ਭਰੋਸੇਯੋਗਤਾ ਨੂੰ ਯਕੀਨੀ ਬਣਾਇਆ ਗਿਆ। ਇਹ ਪਹੁੰਚ ਉਨ੍ਹਾਂ ਮਾਡਲਾਂ ਨੂੰ ਬਾਹਰ ਕੱਢਦੀ ਹੈ ਜੋ ਮੁੱਖ ਤੌਰ ‘ਤੇ ਤਰਕ ਦੇ ਕਾਰਜਾਂ ਲਈ ਤਿਆਰ ਕੀਤੇ ਗਏ ਹਨ, ਕਿਉਂਕਿ ਉਹ ਇਸ ਬੈਂਚਮਾਰਕ ਦਾ ਮੁੱਖ ਫੋਕਸ ਨਹੀਂ ਹਨ।
ਸਾਰੀਆਂ ਸ਼੍ਰੇਣੀਆਂ ਵਿੱਚ ਸਭ ਤੋਂ ਮਾੜਾ ਪ੍ਰਦਰਸ਼ਨ ਕਰਨ ਵਾਲਿਆਂ ਦੀ ਪਛਾਣ
Phare ਬੈਂਚਮਾਰਕ ਦੇ ਸ਼ੁਰੂਆਤੀ ਨਤੀਜੇ ਵੱਡੇ ਪੱਧਰ ‘ਤੇ ਮੌਜੂਦਾ ਕਮਿਊਨਿਟੀ ਧਾਰਨਾਵਾਂ ਅਤੇ ਫੀਡਬੈਕ ਨਾਲ ਮੇਲ ਖਾਂਦੇ ਹਨ। ਚੋਟੀ ਦੇ ਪੰਜ "ਸਭ ਤੋਂ ਮਾੜਾ" ਪ੍ਰਦਰਸ਼ਨ ਕਰਨ ਵਾਲੇ ਮਾਡਲਾਂ (17 ਵਿੱਚੋਂ ਜਿਨ੍ਹਾਂ ਦੀ ਜਾਂਚ ਕੀਤੀ ਗਈ) ਵਿੱਚ GPT-4o mini, Grok 2, Mistral Large, Mistral Small 3.1 24B, ਅਤੇ Llama 3.3 70B ਸ਼ਾਮਲ ਹਨ। ਇਸਦੇ ਉਲਟ, ਵਧੀਆ ਪ੍ਰਦਰਸ਼ਨ ਦਿਖਾਉਣ ਵਾਲੇ ਮਾਡਲਾਂ ਵਿੱਚ Gemini 1.5 Pro, Claude 3.5 Haiku, ਅਤੇ Llama 3.1 405B ਸ਼ਾਮਲ ਹਨ।
ਭੁਲੇਖਾ ਦੇ ਹੌਟਸਪੌਟਸ: ਜਾਣਕਾਰੀ ਘੜਨ ਲਈ ਸੰਭਾਵਿਤ ਮਾਡਲ
ਜਦੋਂ ਸਿਰਫ਼ ਭੁਲੇਖਾ ਮਾਪਦੰਡ ‘ਤੇ ਵਿਚਾਰ ਕੀਤਾ ਜਾਂਦਾ ਹੈ, ਤਾਂ Gemma 3 27B, Llama 3.3 70B, GPT-4o mini, Llama 3.1 405B, ਅਤੇ Llama 4 Maverick ਝੂਠੀ ਜਾਂ ਗੁੰਮਰਾਹਕੁੰਨ ਜਾਣਕਾਰੀ ਪੈਦਾ ਕਰਨ ਲਈ ਸਭ ਤੋਂ ਵੱਧ ਸੰਭਾਵਿਤ ਮਾਡਲ ਵਜੋਂ ਉਭਰਦੇ ਹਨ। ਇਸਦੇ ਉਲਟ, Anthropic ਇਸ ਖੇਤਰ ਵਿੱਚ ਤਾਕਤ ਦਾ ਪ੍ਰਦਰਸ਼ਨ ਕਰਦਾ ਹੈ, ਇਸਦੇ ਤਿੰਨ ਮਾਡਲਾਂ ਵਿੱਚ ਸਭ ਤੋਂ ਘੱਟ ਭੁਲੇਖਾ ਦਰਾਂ ਦਿਖਾਈ ਦਿੰਦੀਆਂ ਹਨ: Claude 3.5 Sonnet, Claude 3.7 Sonnet, ਅਤੇ Claude 3.5 Haiku, Gemini 1.5 Pro ਅਤੇ GPT-4o ਦੇ ਨਾਲ।
ਖਤਰਨਾਕ ਸਮੱਗਰੀ ਉਤਪਾਦਨ: ਕਮਜ਼ੋਰ ਸੁਰੱਖਿਆ ਉਪਾਵਾਂ ਵਾਲੇ ਮਾਡਲ
ਖਤਰਨਾਕ ਜਾਂ ਹਾਨੀਕਾਰਕ ਸਮੱਗਰੀ ਦੇ ਉਤਪਾਦਨ ਦੇ ਸੰਬੰਧ ਵਿੱਚ (ਮਾਡਲ ਦੀਆਂ ਸਮੱਸਿਆਵਾਂ ਵਾਲੀਆਂ ਇਨਪੁਟਸ ਨੂੰ ਪਛਾਣਨ ਅਤੇ ਢੁਕਵੇਂ ਜਵਾਬ ਦੇਣ ਦੀ ਯੋਗਤਾ ਦਾ ਮੁਲਾਂਕਣ ਕਰਨਾ), GPT-4o mini ਸਭ ਤੋਂ ਮਾੜਾ ਪ੍ਰਦਰਸ਼ਨ ਕਰਦਾ ਹੈ, ਇਸਦੇ ਬਾਅਦ Llama 3.3 70B, Llama 3.1 405B, Deepseek V3, ਅਤੇ Llama 4 Maverick ਹਨ। ਦੂਜੇ ਪਾਸੇ, Gemini 1.5 Pro ਲਗਾਤਾਰ ਵਧੀਆ ਪ੍ਰਦਰਸ਼ਨ ਦਾ ਪ੍ਰਦਰਸ਼ਨ ਕਰਦਾ ਹੈ, ਇਸਦੇ ਬਾਅਦ Anthropic ਦੇ ਤਿੰਨ ਮਾਡਲ (Claude 3.7 Sonnet, Claude 3.5 Sonnet, ਅਤੇ Claude 3.5 Haiku) ਅਤੇ Gemini 2.0 Flash ਹਨ।
ਪੱਖਪਾਤ ਅਤੇ ਰੂੜ੍ਹੀਵਾਦ: ਇੱਕ ਲਗਾਤਾਰ ਚੁਣੌਤੀ
LLMs ਵਿੱਚ ਪੱਖਪਾਤ ਅਤੇ ਰੂੜ੍ਹੀਵਾਦ ਦੀ ਮੌਜੂਦਗੀ ਇੱਕ ਮਹੱਤਵਪੂਰਨ ਖੇਤਰ ਬਣੀ ਹੋਈ ਹੈ ਜਿਸ ਵਿੱਚ ਸੁਧਾਰ ਦੀ ਲੋੜ ਹੈ। Phare ਬੈਂਚਮਾਰਕ ਦੇ ਨਤੀਜੇ ਦਰਸਾਉਂਦੇ ਹਨ ਕਿ LLMs ਅਜੇ ਵੀ ਆਪਣੇ ਆਉਟਪੁੱਟ ਵਿੱਚ ਮਾਰਕ ਕੀਤੇ ਪੱਖਪਾਤ ਅਤੇ ਰੂੜ੍ਹੀਵਾਦ ਦਾ ਪ੍ਰਦਰਸ਼ਨ ਕਰਦੇ ਹਨ। Grok 2 ਨੂੰ ਇਸ ਸ਼੍ਰੇਣੀ ਵਿੱਚ ਸਭ ਤੋਂ ਮਾੜਾ ਸਕੋਰ ਮਿਲਦਾ ਹੈ, ਇਸਦੇ ਬਾਅਦ Mistral Large, Mistral Small 3.1 24B, GPT-4o mini, ਅਤੇ Claude 3.5 Sonnet ਹਨ। ਇਸਦੇ ਉਲਟ, Gemini 1.5 Pro ਵਧੀਆ ਸਕੋਰ ਪ੍ਰਾਪਤ ਕਰਦਾ ਹੈ, ਇਸਦੇ ਬਾਅਦ Llama 3.1 405B, Claude 3.5 Haiku, Gemma 3 27B, ਅਤੇ Llama 4 Maverick ਹਨ।
ਜਦੋਂ ਕਿ ਮਾਡਲ ਦਾ ਆਕਾਰ ਜ਼ਹਿਰੀਲੀ ਸਮੱਗਰੀ ਦੇ ਉਤਪਾਦਨ ਨੂੰ ਪ੍ਰਭਾਵਿਤ ਕਰ ਸਕਦਾ ਹੈ (ਛੋਟੇ ਮਾਡਲ ਵਧੇਰੇ "ਨੁਕਸਾਨਦੇਹ" ਆਉਟਪੁੱਟ ਪੈਦਾ ਕਰਦੇ ਹਨ), ਪੈਰਾਮੀਟਰਾਂ ਦੀ ਸੰਖਿਆ ਇਕੋਮਾਤਰ ਨਿਰਧਾਰਕ ਨਹੀਂ ਹੈ। Giskard ਦੇ CTO Matteo Dora ਦੇ ਅਨੁਸਾਰ, "ਸਾਡੇ ਵਿਸ਼ਲੇਸ਼ਣ ਦਰਸਾਉਂਦੇ ਹਨ ਕਿ ਉਪਭੋਗਤਾ ਸ਼ਬਦਾਂ ਪ੍ਰਤੀ ਸੰਵੇਦਨਸ਼ੀਲਤਾ ਵੱਖ-ਵੱਖ ਪ੍ਰਦਾਤਾਵਾਂ ਵਿੱਚ ਕਾਫ਼ੀ ਵੱਖਰੀ ਹੁੰਦੀ ਹੈ। ਉਦਾਹਰਨ ਲਈ, Anthropic ਦੇ ਮਾਡਲ ਉਨ੍ਹਾਂ ਦੇ ਆਕਾਰ ਦੀ ਪਰਵਾਹ ਕੀਤੇ ਬਿਨਾਂ, ਆਪਣੇ ਮੁਕਾਬਲੇਬਾਜ਼ਾਂ ਦੇ ਮੁਕਾਬਲੇ ਪ੍ਰਸ਼ਨਾਂ ਦੇ ਪੁੱਛਣ ਦੇ ਤਰੀਕੇ ਤੋਂ ਘੱਟ ਪ੍ਰਭਾਵਿਤ ਹੁੰਦੇ ਹਨ। ਪ੍ਰਸ਼ਨ ਪੁੱਛਣ ਦੇ ਢੰਗ (ਸੰਖੇਪ ਜਾਂ ਵਿਸਤ੍ਰਿਤ ਜਵਾਬ ਦੀ ਬੇਨਤੀ ਕਰਨਾ) ਦੇ ਵੀ ਵੱਖੋ ਵੱਖਰੇ ਪ੍ਰਭਾਵ ਹੁੰਦੇ ਹਨ। ਇਹ ਸਾਨੂੰ ਵਿਸ਼ਵਾਸ ਦਿਵਾਉਂਦਾ ਹੈ ਕਿ ਖਾਸ ਸਿਖਲਾਈ ਵਿਧੀਆਂ, ਜਿਵੇਂ ਕਿ ਮਨੁੱਖੀ ਫੀਡਬੈਕ ਤੋਂ ਮਜ਼ਬੂਤੀ ਸਿਖਲਾਈ (Reinforcement Learning from Human Feedback (RLHF)), ਆਕਾਰ ਨਾਲੋਂ ਵਧੇਰੇ ਮਹੱਤਵਪੂਰਨ ਹਨ।”
LLMs ਦਾ ਮੁਲਾਂਕਣ ਕਰਨ ਲਈ ਇੱਕ ਮਜ਼ਬੂਤ ਵਿਧੀ
Phare LLMs ਦਾ ਮੁਲਾਂਕਣ ਕਰਨ ਲਈ ਇੱਕ ਸਖ਼ਤ ਵਿਧੀ ਦੀ ਵਰਤੋਂ ਕਰਦਾ ਹੈ, ਲਗਭਗ 6,000 ਗੱਲਬਾਤਾਂ ਦੇ ਇੱਕ ਨਿੱਜੀ ਡੇਟਾਸੈਟ ਦੀ ਵਰਤੋਂ ਕਰਦਾ ਹੈ। ਮਾਡਲ ਸਿਖਲਾਈ ਦੀ ਹੇਰਾਫੇਰੀ ਨੂੰ ਰੋਕਦੇ ਹੋਏ ਪਾਰਦਰਸ਼ਤਾ ਨੂੰ ਯਕੀਨੀ ਬਣਾਉਣ ਲਈ, ਲਗਭਗ 1,600 ਨਮੂਨਿਆਂ ਦਾ ਇੱਕ ਸਬਸੈੱਟ Hugging Face ‘ਤੇ ਜਨਤਕ ਤੌਰ ‘ਤੇ ਉਪਲਬਧ ਕਰਵਾਇਆ ਗਿਆ ਹੈ। ਖੋਜਕਰਤਾਵਾਂ ਨੇ ਕਈ ਭਾਸ਼ਾਵਾਂ (ਫ੍ਰੈਂਚ, ਅੰਗਰੇਜ਼ੀ, ਸਪੈਨਿਸ਼) ਵਿੱਚ ਡੇਟਾ ਇਕੱਠਾ ਕੀਤਾ ਅਤੇ ਅਜਿਹੇ ਟੈਸਟ ਤਿਆਰ ਕੀਤੇ ਜੋ ਅਸਲ-ਸੰਸਾਰ ਦੇ ਦ੍ਰਿਸ਼ਾਂ ਨੂੰ ਦਰਸਾਉਂਦੇ ਹਨ।
ਬੈਂਚਮਾਰਕ ਹਰੇਕ ਮਾਪਦੰਡ ਲਈ ਵੱਖ-ਵੱਖ ਉਪ-ਕਾਰਜਾਂ ਦਾ ਮੁਲਾਂਕਣ ਕਰਦਾ ਹੈ:
ਭੁਲੇਖਾ
- ਹਕੀਕਤ (Factuality): ਆਮ ਗਿਆਨ ਦੇ ਪ੍ਰਸ਼ਨਾਂ ਦੇ ਤੱਥਪੂਰਨ ਜਵਾਬ ਦੇਣ ਦੀ ਮਾਡਲ ਦੀ ਯੋਗਤਾ।
- ਗਲਤ ਜਾਣਕਾਰੀ ਨਾਲ ਸ਼ੁੱਧਤਾ (Accuracy with False Information): ਝੂਠੇ ਤੱਤਾਂ ਵਾਲੇ ਪ੍ਰੋਂਪਟਸ ਦਾ ਜਵਾਬ ਦਿੰਦੇ ਸਮੇਂ ਸਹੀ ਜਾਣਕਾਰੀ ਪ੍ਰਦਾਨ ਕਰਨ ਦੀ ਮਾਡਲ ਦੀ ਯੋਗਤਾ।
- ਸ਼ੱਕੀ ਦਾਅਵਿਆਂ ਨਾਲ ਨਜਿੱਠਣਾ (Handling Dubious Claims): ਸ਼ੱਕੀ ਦਾਅਵਿਆਂ (ਪੀਸੁਡੋਸਾਇੰਸ, ਸਾਜ਼ਿਸ਼ ਸਿਧਾਂਤਾਂ) ‘ਤੇ ਕਾਰਵਾਈ ਕਰਨ ਦੀ ਮਾਡਲ ਦੀ ਯੋਗਤਾ।
- ਭੁਲੇਖੇ ਤੋਂ ਬਿਨਾਂ ਟੂਲ ਦੀ ਵਰਤੋਂ (Tool Usage without Hallucination): ਝੂਠੀ ਜਾਣਕਾਰੀ ਪੈਦਾ ਕੀਤੇ ਬਿਨਾਂ ਟੂਲਸ ਦੀ ਵਰਤੋਂ ਕਰਨ ਦੀ ਮਾਡਲ ਦੀ ਯੋਗਤਾ।
ਨੁਕਸਾਨਦੇਹੀ
ਖੋਜਕਰਤਾਵਾਂ ਨੇ ਸੰਭਾਵੀ ਤੌਰ ‘ਤੇ ਖਤਰਨਾਕ ਸਥਿਤੀਆਂ ਨੂੰ ਪਛਾਣਨ ਅਤੇ ਢੁਕਵੀਂ ਚੇਤਾਵਨੀ ਪ੍ਰਦਾਨ ਕਰਨ ਦੀ ਮਾਡਲ ਦੀ ਯੋਗਤਾ ਦਾ ਮੁਲਾਂਕਣ ਕੀਤਾ।
ਪੱਖਪਾਤ ਅਤੇ ਨਿਰਪੱਖਤਾ
ਬੈਂਚਮਾਰਕ ਮਾਡਲ ਦੀ ਆਪਣੀ ਆਉਟਪੁੱਟ ਵਿੱਚ ਪੈਦਾ ਹੋਏ ਪੱਖਪਾਤਾਂ ਅਤੇ ਰੂੜ੍ਹੀਵਾਦਾਂ ਦੀ ਪਛਾਣ ਕਰਨ ਦੀ ਯੋਗਤਾ ‘ਤੇ ਕੇਂਦ੍ਰਤ ਹੈ।
ਪ੍ਰਮੁੱਖ AI ਸੰਸਥਾਵਾਂ ਨਾਲ ਸਹਿਯੋਗ
Phare ਦੀ ਮਹੱਤਤਾ ਨੂੰ ਉਹਨਾਂ ਸੰਸਥਾਵਾਂ ਲਈ ਮਹੱਤਵਪੂਰਨ ਮਾਪਦੰਡਾਂ ‘ਤੇ ਇਸਦੇ ਸਿੱਧੇ ਫੋਕਸ ਦੁਆਰਾ ਹੋਰ ਵਧਾਇਆ ਗਿਆ ਹੈ ਜੋ LLMs ਦੀ ਵਰਤੋਂ ਕਰਨ ਦੀ ਕੋਸ਼ਿਸ਼ ਕਰ ਰਹੀਆਂ ਹਨ। ਹਰੇਕ ਮਾਡਲ ਲਈ ਵਿਸਤ੍ਰਿਤ ਨਤੀਜੇ Giskard ਵੈੱਬਸਾਈਟ ‘ਤੇ ਜਨਤਕ ਤੌਰ ‘ਤੇ ਉਪਲਬਧ ਹਨ, ਜਿਸ ਵਿੱਚ ਉਪ-ਕਾਰਜ ਦੁਆਰਾ ਵੰਡ ਵੀ ਸ਼ਾਮਲ ਹੈ। ਬੈਂਚਮਾਰਕ ਨੂੰ BPI (ਫ੍ਰੈਂਚ ਪਬਲਿਕ ਇਨਵੈਸਟਮੈਂਟ ਬੈਂਕ) ਅਤੇ ਯੂਰਪੀਅਨ ਕਮਿਸ਼ਨ ਦੁਆਰਾ ਵਿੱਤੀ ਸਹਾਇਤਾ ਦਿੱਤੀ ਜਾਂਦੀ ਹੈ। Giskard ਨੇ ਪ੍ਰੋਜੈਕਟ ਦੇ ਤਕਨੀਕੀ ਪਹਿਲੂਆਂ ‘ਤੇ Mistral AI ਅਤੇ DeepMind ਨਾਲ ਵੀ ਸਾਂਝੇਦਾਰੀ ਕੀਤੀ ਹੈ। ਵਰਤੋਂ ਲਈ LMEval ਫਰੇਮਵਰਕ DeepMind ਵਿਖੇGemma ਟੀਮ ਨਾਲ ਸਿੱਧੇ ਸਹਿਯੋਗ ਵਿੱਚ ਵਿਕਸਤ ਕੀਤਾ ਗਿਆ ਸੀ, ਜਿਸ ਨਾਲ ਡਾਟਾ ਗੋਪਨੀਯਤਾ ਅਤੇ ਸੁਰੱਖਿਆ ਨੂੰ ਯਕੀਨੀ ਬਣਾਇਆ ਗਿਆ ਸੀ।
ਅੱਗੇ ਦੇਖਦੇ ਹੋਏ, Giskard ਟੀਮ Phare ਵਿੱਚ ਦੋ ਮੁੱਖ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ ਜੋੜਨ ਦੀ ਯੋਜਨਾ ਬਣਾ ਰਹੀ ਹੈ: "ਸੰਭਵ ਤੌਰ ‘ਤੇ ਜੂਨ ਤੱਕ, ਅਸੀਂ ਜੇਲ੍ਹ ਤੋੜਨ ਅਤੇ ਪ੍ਰੋਂਪਟ ਇੰਜੈਕਸ਼ਨ ਦੇ ਵਿਰੋਧ ਦਾ ਮੁਲਾਂਕਣ ਕਰਨ ਲਈ ਇੱਕ ਮੋਡੀਊਲ ਸ਼ਾਮਲ ਕਰਾਂਗੇ," Matteo Dora ਕਹਿੰਦਾ ਹੈ। ਇਸ ਤੋਂ ਇਲਾਵਾ, ਖੋਜਕਰਤਾ ਲੀਡਰਬੋਰਡ ਨੂੰ ਨਵੀਨਤਮ ਸਥਿਰ ਮਾਡਲਾਂ ਨਾਲ ਅਪਡੇਟ ਕਰਨਾ ਜਾਰੀ ਰੱਖਣਗੇ, ਜਿਸ ਵਿੱਚ Grok 3, Qwen 3, ਅਤੇ ਸੰਭਾਵੀ ਤੌਰ ‘ਤੇ GPT-4.1 ਵੀ ਸ਼ਾਮਲ ਹਨ।