ਸਭ ਤੋਂ ਔਖੇ AI ਮਾਡਲ: ਖਤਰੇ, ਭੁਲੇਖੇ, ਅਤੇ ਪੱਖਪਾਤ

ਇੱਕ ਤਾਜ਼ਾ ਬੈਂਚਮਾਰਕ ਅਧਿਐਨ, ਜੋ ਕਿ ਫਰਾਂਸੀਸੀ ਸਟਾਰਟਅੱਪ Giskard ਦੁਆਰਾ ਕੀਤਾ ਗਿਆ ਹੈ, ਨੇ ਆਰਟੀਫੀਸ਼ੀਅਲ ਇੰਟੈਲੀਜੈਂਸ (Artificial Intelligence) ਦੇ ਖੇਤਰ ਵਿੱਚ ਵਰਤੇ ਜਾਂਦੇ ਕੁੱਝ ਸਭ ਤੋਂ ਵੱਧ ਭਾਸ਼ਾ ਮਾਡਲਾਂ (Language Models (LLMs)) ਦੀਆਂ ਮਹੱਤਵਪੂਰਨ ਕਮੀਆਂ ਵੱਲ ਧਿਆਨ ਦਿਵਾਇਆ ਹੈ। ਇਸ ਅਧਿਐਨ ਵਿੱਚ ਇਨ੍ਹਾਂ ਮਾਡਲਾਂ ਦੀ ਹਾਨੀਕਾਰਕ ਸਮੱਗਰੀ ਪੈਦਾ ਕਰਨ, ਗਲਤ ਜਾਣਕਾਰੀ ਦੇਣ, ਅਤੇ ਆਪਣੇ ਜਵਾਬਾਂ ਵਿੱਚ ਕਈ ਤਰ੍ਹਾਂ ਦੇ ਪੱਖਪਾਤ ਦਿਖਾਉਣ ਦੀ ਪ੍ਰਵਿਰਤੀ ਦਾ ਬਹੁਤ ਹੀ ਧਿਆਨ ਨਾਲ ਮੁਲਾਂਕਣ ਕੀਤਾ ਗਿਆ ਹੈ।

ਸਭ ਤੋਂ ਖਤਰਨਾਕ LLMs ਦੀ ਪਛਾਣ: ਇੱਕ ਵਿਆਪਕ ਮੁਲਾਂਕਣ

Giskard ਦਾ ਬੈਂਚਮਾਰਕ, ਜੋ ਕਿ ਅਪ੍ਰੈਲ ਵਿੱਚ ਜਾਰੀ ਕੀਤਾ ਗਿਆ ਸੀ, LLMs ਨਾਲ ਜੁੜੇ ਸੰਭਾਵੀ ਖਤਰਿਆਂ ਦੀ ਡੂੰਘਾਈ ਨਾਲ ਜਾਂਚ ਕਰਦਾ ਹੈ, ਅਤੇ ਗਲਤ ਜਾਣਕਾਰੀ ਘੜਨ, ਜ਼ਹਿਰੀਲੇ ਨਤੀਜੇ ਪੈਦਾ ਕਰਨ, ਅਤੇ ਪੱਖਪਾਤੀ ਜਾਂ ਰੂੜੀਵਾਦੀ ਵਿਚਾਰਾਂ ਨੂੰ ਪ੍ਰਦਰਸ਼ਿਤ ਕਰਨ ਦੀ ਉਨ੍ਹਾਂ ਦੀ ਪ੍ਰਵਿਰਤੀ ਦਾ ਇੱਕ ਭਰੋਸੇਯੋਗ ਮੁਲਾਂਕਣ ਪ੍ਰਦਾਨ ਕਰਦਾ ਹੈ। ਅਧਿਐਨ ਦੇ ਨਤੀਜੇ ਡਿਵੈਲਪਰਾਂ, ਖੋਜਕਰਤਾਵਾਂ, ਅਤੇ ਸੰਸਥਾਵਾਂ ਲਈ ਕੀਮਤੀ ਜਾਣਕਾਰੀ ਪ੍ਰਦਾਨ ਕਰਦੇ ਹਨ ਜੋ ਜ਼ਿੰਮੇਵਾਰੀ ਨਾਲ AI ਮਾਡਲਾਂ ਨੂੰ ਲਾਗੂ ਕਰਨ ਦੀ ਕੋਸ਼ਿਸ਼ ਕਰ ਰਹੇ ਹਨ।

ਬੈਂਚਮਾਰਕ LLM ਪ੍ਰਦਰਸ਼ਨ ਦੇ ਕਈ ਮਹੱਤਵਪੂਰਨ ਪਹਿਲੂਆਂ ਦੀ ਬਹੁਤ ਹੀ ਧਿਆਨ ਨਾਲ ਜਾਂਚ ਕਰਦਾ ਹੈ, ਜਿਸ ਵਿੱਚ ਸ਼ਾਮਲ ਹਨ:

  • ਭੁਲੇਖਾ (Hallucination): ਮਾਡਲ ਦੀ ਝੂਠੀ ਜਾਂ ਬੇਤੁਕੀ ਜਾਣਕਾਰੀ ਪੈਦਾ ਕਰਨ ਦੀ ਪ੍ਰਵਿਰਤੀ।
  • ਨੁਕਸਾਨਦੇਹੀ (Harmfulness): ਮਾਡਲ ਦੀ ਖਤਰਨਾਕ, ਅਪਮਾਨਜਨਕ, ਜਾਂ ਗੈਰ-ਢੁਕਵੀਂ ਸਮੱਗਰੀ ਪੈਦਾ ਕਰਨ ਦੀ ਪ੍ਰਵਿਰਤੀ।
  • ਪੱਖਪਾਤ ਅਤੇ ਰੂੜ੍ਹੀਵਾਦ (Bias and Stereotypes): ਮਾਡਲ ਦਾ ਬੇਇਨਸਾਫ਼ੀ ਜਾਂ ਵਿਤਕਰੇ ਵਾਲੇ ਵਿਚਾਰਾਂ ਨੂੰ ਸਥਾਈ ਬਣਾਉਣ ਦਾ ਝੁਕਾਅ।

ਇਨ੍ਹਾਂ ਕਾਰਕਾਂ ਦਾ ਮੁਲਾਂਕਣ ਕਰਕੇ, Giskard ਦਾ ਬੈਂਚਮਾਰਕ ਵੱਖ-ਵੱਖ LLMs ਨਾਲ ਜੁੜੇ ਸਮੁੱਚੇ ਜੋਖਮ ਦਾ ਇੱਕ ਵਿਆਪਕ ਮੁਲਾਂਕਣ ਪ੍ਰਦਾਨ ਕਰਦਾ ਹੈ।

ਸਭ ਤੋਂ ਮਹੱਤਵਪੂਰਨ ਕਮੀਆਂ ਵਾਲੇ LLMs ਦੀ ਦਰਜਾਬੰਦੀ

ਅਧਿਐਨ ਦੇ ਨਤੀਜੇ ਇਨ੍ਹਾਂ ਮੁੱਖ ਮਾਪਦੰਡਾਂ ਵਿੱਚ ਉਨ੍ਹਾਂ ਦੇ ਪ੍ਰਦਰਸ਼ਨ ਦੇ ਅਧਾਰ ਤੇ LLMs ਦੀ ਇੱਕ ਦਰਜਾਬੰਦੀ ਨੂੰ ਪ੍ਰਗਟ ਕਰਦੇ ਹਨ। ਜਿੰਨਾ ਸਕੋਰ ਘੱਟ ਹੋਵੇਗਾ, ਮਾਡਲ ਨੂੰ ਓਨਾ ਹੀ ਜ਼ਿਆਦਾ ਸਮੱਸਿਆ ਵਾਲਾ ਮੰਨਿਆ ਜਾਂਦਾ ਹੈ। ਹੇਠਾਂ ਦਿੱਤੀ ਸਾਰਣੀ ਨਤੀਜਿਆਂ ਦਾ ਸਾਰ ਦਿੰਦੀ ਹੈ:

ਮਾਡਲ ਸਮੁੱਚੀ ਔਸਤ ਭੁਲੇਖਾ ਨੁਕਸਾਨਦੇਹੀ ਪੱਖਪਾਤ ਅਤੇ ਰੂੜ੍ਹੀਵਾਦ ਡਿਵੈਲਪਰ
GPT-4o mini 63.93% 74.50% 77.29% 40.00%
Grok 2 65.15% 77.35% 91.44% 26.67% xAI
Mistral Large 66.00% 79.72% 89.38% 28.89% Mistral
Mistral Small 3.1 24B 67.88% 77.72% 90.91% 35.00% Mistral
Llama 3.3 70B 67.97% 73.41% 86.04% 44.44% Meta
Deepseek V3 70.77% 77.91% 89.00% 45.39% Deepseek
Qwen 2.5 Max 72.71% 77.12% 89.89% 51.11% Alibaba Qwen
GPT-4o 72.80% 83.89% 92.66% 41.85% OpenAI
Deepseek V3 (0324) 73.92% 77.86% 92.80% 51.11% Deepseek
Gemini 2.0 Flash 74.89% 78.13% 94.30% 52.22% Google
Gemma 3 27B 75.23% 69.90% 91.36% 64.44% Google
Claude 3.7 Sonnet 75.53% 89.26% 95.52% 41.82% Anthropic
Claude 3.5 Sonnet 75.62% 91.09% 95.40% 40.37% Anthropic
Llama 4 Maverick 76.72% 77.02% 89.25% 63.89% Meta
Llama 3.1 405B 77.59% 75.54% 86.49% 70.74% Meta
Claude 3.5 Haiku 82.72% 86.97% 95.36% 65.81% Anthropic
Gemini 1.5 Pro 87.29% 87.06% 96.84% 77.96% Google

ਬੈਂਚਮਾਰਕ ਵਿੱਚ 17 ਵਿਆਪਕ ਤੌਰ ‘ਤੇ ਵਰਤੇ ਜਾਂਦੇ ਮਾਡਲ ਸ਼ਾਮਲ ਕੀਤੇ ਗਏ ਸਨ, ਜੋ ਕਿ ਮੌਜੂਦਾ AI ਲੈਂਡਸਕੇਪ ਨੂੰ ਦਰਸਾਉਣ ਲਈ ਧਿਆਨ ਨਾਲ ਚੁਣੇ ਗਏ ਸਨ। Giskard ਨੇ ਪ੍ਰਯੋਗਾਤਮਕ ਜਾਂ ਅੰਤਿਮ ਰੂਪ ਤੋਂ ਬਿਨਾਂ ਵਰਜਨਾਂ ਦੀ ਬਜਾਏ ਸਥਿਰ ਅਤੇ ਵਿਆਪਕ ਤੌਰ ‘ਤੇ ਅਪਣਾਏ ਗਏ ਮਾਡਲਾਂ ਦਾ ਮੁਲਾਂਕਣ ਕਰਨ ਨੂੰ ਤਰਜੀਹ ਦਿੱਤੀ, ਜਿਸ ਨਾਲ ਨਤੀਜਿਆਂ ਦੀ ਪ੍ਰਸੰਗਿਕਤਾ ਅਤੇ ਭਰੋਸੇਯੋਗਤਾ ਨੂੰ ਯਕੀਨੀ ਬਣਾਇਆ ਗਿਆ। ਇਹ ਪਹੁੰਚ ਉਨ੍ਹਾਂ ਮਾਡਲਾਂ ਨੂੰ ਬਾਹਰ ਕੱਢਦੀ ਹੈ ਜੋ ਮੁੱਖ ਤੌਰ ‘ਤੇ ਤਰਕ ਦੇ ਕਾਰਜਾਂ ਲਈ ਤਿਆਰ ਕੀਤੇ ਗਏ ਹਨ, ਕਿਉਂਕਿ ਉਹ ਇਸ ਬੈਂਚਮਾਰਕ ਦਾ ਮੁੱਖ ਫੋਕਸ ਨਹੀਂ ਹਨ।

ਸਾਰੀਆਂ ਸ਼੍ਰੇਣੀਆਂ ਵਿੱਚ ਸਭ ਤੋਂ ਮਾੜਾ ਪ੍ਰਦਰਸ਼ਨ ਕਰਨ ਵਾਲਿਆਂ ਦੀ ਪਛਾਣ

Phare ਬੈਂਚਮਾਰਕ ਦੇ ਸ਼ੁਰੂਆਤੀ ਨਤੀਜੇ ਵੱਡੇ ਪੱਧਰ ‘ਤੇ ਮੌਜੂਦਾ ਕਮਿਊਨਿਟੀ ਧਾਰਨਾਵਾਂ ਅਤੇ ਫੀਡਬੈਕ ਨਾਲ ਮੇਲ ਖਾਂਦੇ ਹਨ। ਚੋਟੀ ਦੇ ਪੰਜ "ਸਭ ਤੋਂ ਮਾੜਾ" ਪ੍ਰਦਰਸ਼ਨ ਕਰਨ ਵਾਲੇ ਮਾਡਲਾਂ (17 ਵਿੱਚੋਂ ਜਿਨ੍ਹਾਂ ਦੀ ਜਾਂਚ ਕੀਤੀ ਗਈ) ਵਿੱਚ GPT-4o mini, Grok 2, Mistral Large, Mistral Small 3.1 24B, ਅਤੇ Llama 3.3 70B ਸ਼ਾਮਲ ਹਨ। ਇਸਦੇ ਉਲਟ, ਵਧੀਆ ਪ੍ਰਦਰਸ਼ਨ ਦਿਖਾਉਣ ਵਾਲੇ ਮਾਡਲਾਂ ਵਿੱਚ Gemini 1.5 Pro, Claude 3.5 Haiku, ਅਤੇ Llama 3.1 405B ਸ਼ਾਮਲ ਹਨ।

ਭੁਲੇਖਾ ਦੇ ਹੌਟਸਪੌਟਸ: ਜਾਣਕਾਰੀ ਘੜਨ ਲਈ ਸੰਭਾਵਿਤ ਮਾਡਲ

ਜਦੋਂ ਸਿਰਫ਼ ਭੁਲੇਖਾ ਮਾਪਦੰਡ ‘ਤੇ ਵਿਚਾਰ ਕੀਤਾ ਜਾਂਦਾ ਹੈ, ਤਾਂ Gemma 3 27B, Llama 3.3 70B, GPT-4o mini, Llama 3.1 405B, ਅਤੇ Llama 4 Maverick ਝੂਠੀ ਜਾਂ ਗੁੰਮਰਾਹਕੁੰਨ ਜਾਣਕਾਰੀ ਪੈਦਾ ਕਰਨ ਲਈ ਸਭ ਤੋਂ ਵੱਧ ਸੰਭਾਵਿਤ ਮਾਡਲ ਵਜੋਂ ਉਭਰਦੇ ਹਨ। ਇਸਦੇ ਉਲਟ, Anthropic ਇਸ ਖੇਤਰ ਵਿੱਚ ਤਾਕਤ ਦਾ ਪ੍ਰਦਰਸ਼ਨ ਕਰਦਾ ਹੈ, ਇਸਦੇ ਤਿੰਨ ਮਾਡਲਾਂ ਵਿੱਚ ਸਭ ਤੋਂ ਘੱਟ ਭੁਲੇਖਾ ਦਰਾਂ ਦਿਖਾਈ ਦਿੰਦੀਆਂ ਹਨ: Claude 3.5 Sonnet, Claude 3.7 Sonnet, ਅਤੇ Claude 3.5 Haiku, Gemini 1.5 Pro ਅਤੇ GPT-4o ਦੇ ਨਾਲ।

ਖਤਰਨਾਕ ਸਮੱਗਰੀ ਉਤਪਾਦਨ: ਕਮਜ਼ੋਰ ਸੁਰੱਖਿਆ ਉਪਾਵਾਂ ਵਾਲੇ ਮਾਡਲ

ਖਤਰਨਾਕ ਜਾਂ ਹਾਨੀਕਾਰਕ ਸਮੱਗਰੀ ਦੇ ਉਤਪਾਦਨ ਦੇ ਸੰਬੰਧ ਵਿੱਚ (ਮਾਡਲ ਦੀਆਂ ਸਮੱਸਿਆਵਾਂ ਵਾਲੀਆਂ ਇਨਪੁਟਸ ਨੂੰ ਪਛਾਣਨ ਅਤੇ ਢੁਕਵੇਂ ਜਵਾਬ ਦੇਣ ਦੀ ਯੋਗਤਾ ਦਾ ਮੁਲਾਂਕਣ ਕਰਨਾ), GPT-4o mini ਸਭ ਤੋਂ ਮਾੜਾ ਪ੍ਰਦਰਸ਼ਨ ਕਰਦਾ ਹੈ, ਇਸਦੇ ਬਾਅਦ Llama 3.3 70B, Llama 3.1 405B, Deepseek V3, ਅਤੇ Llama 4 Maverick ਹਨ। ਦੂਜੇ ਪਾਸੇ, Gemini 1.5 Pro ਲਗਾਤਾਰ ਵਧੀਆ ਪ੍ਰਦਰਸ਼ਨ ਦਾ ਪ੍ਰਦਰਸ਼ਨ ਕਰਦਾ ਹੈ, ਇਸਦੇ ਬਾਅਦ Anthropic ਦੇ ਤਿੰਨ ਮਾਡਲ (Claude 3.7 Sonnet, Claude 3.5 Sonnet, ਅਤੇ Claude 3.5 Haiku) ਅਤੇ Gemini 2.0 Flash ਹਨ।

ਪੱਖਪਾਤ ਅਤੇ ਰੂੜ੍ਹੀਵਾਦ: ਇੱਕ ਲਗਾਤਾਰ ਚੁਣੌਤੀ

LLMs ਵਿੱਚ ਪੱਖਪਾਤ ਅਤੇ ਰੂੜ੍ਹੀਵਾਦ ਦੀ ਮੌਜੂਦਗੀ ਇੱਕ ਮਹੱਤਵਪੂਰਨ ਖੇਤਰ ਬਣੀ ਹੋਈ ਹੈ ਜਿਸ ਵਿੱਚ ਸੁਧਾਰ ਦੀ ਲੋੜ ਹੈ। Phare ਬੈਂਚਮਾਰਕ ਦੇ ਨਤੀਜੇ ਦਰਸਾਉਂਦੇ ਹਨ ਕਿ LLMs ਅਜੇ ਵੀ ਆਪਣੇ ਆਉਟਪੁੱਟ ਵਿੱਚ ਮਾਰਕ ਕੀਤੇ ਪੱਖਪਾਤ ਅਤੇ ਰੂੜ੍ਹੀਵਾਦ ਦਾ ਪ੍ਰਦਰਸ਼ਨ ਕਰਦੇ ਹਨ। Grok 2 ਨੂੰ ਇਸ ਸ਼੍ਰੇਣੀ ਵਿੱਚ ਸਭ ਤੋਂ ਮਾੜਾ ਸਕੋਰ ਮਿਲਦਾ ਹੈ, ਇਸਦੇ ਬਾਅਦ Mistral Large, Mistral Small 3.1 24B, GPT-4o mini, ਅਤੇ Claude 3.5 Sonnet ਹਨ। ਇਸਦੇ ਉਲਟ, Gemini 1.5 Pro ਵਧੀਆ ਸਕੋਰ ਪ੍ਰਾਪਤ ਕਰਦਾ ਹੈ, ਇਸਦੇ ਬਾਅਦ Llama 3.1 405B, Claude 3.5 Haiku, Gemma 3 27B, ਅਤੇ Llama 4 Maverick ਹਨ।

ਜਦੋਂ ਕਿ ਮਾਡਲ ਦਾ ਆਕਾਰ ਜ਼ਹਿਰੀਲੀ ਸਮੱਗਰੀ ਦੇ ਉਤਪਾਦਨ ਨੂੰ ਪ੍ਰਭਾਵਿਤ ਕਰ ਸਕਦਾ ਹੈ (ਛੋਟੇ ਮਾਡਲ ਵਧੇਰੇ "ਨੁਕਸਾਨਦੇਹ" ਆਉਟਪੁੱਟ ਪੈਦਾ ਕਰਦੇ ਹਨ), ਪੈਰਾਮੀਟਰਾਂ ਦੀ ਸੰਖਿਆ ਇਕੋਮਾਤਰ ਨਿਰਧਾਰਕ ਨਹੀਂ ਹੈ। Giskard ਦੇ CTO Matteo Dora ਦੇ ਅਨੁਸਾਰ, "ਸਾਡੇ ਵਿਸ਼ਲੇਸ਼ਣ ਦਰਸਾਉਂਦੇ ਹਨ ਕਿ ਉਪਭੋਗਤਾ ਸ਼ਬਦਾਂ ਪ੍ਰਤੀ ਸੰਵੇਦਨਸ਼ੀਲਤਾ ਵੱਖ-ਵੱਖ ਪ੍ਰਦਾਤਾਵਾਂ ਵਿੱਚ ਕਾਫ਼ੀ ਵੱਖਰੀ ਹੁੰਦੀ ਹੈ। ਉਦਾਹਰਨ ਲਈ, Anthropic ਦੇ ਮਾਡਲ ਉਨ੍ਹਾਂ ਦੇ ਆਕਾਰ ਦੀ ਪਰਵਾਹ ਕੀਤੇ ਬਿਨਾਂ, ਆਪਣੇ ਮੁਕਾਬਲੇਬਾਜ਼ਾਂ ਦੇ ਮੁਕਾਬਲੇ ਪ੍ਰਸ਼ਨਾਂ ਦੇ ਪੁੱਛਣ ਦੇ ਤਰੀਕੇ ਤੋਂ ਘੱਟ ਪ੍ਰਭਾਵਿਤ ਹੁੰਦੇ ਹਨ। ਪ੍ਰਸ਼ਨ ਪੁੱਛਣ ਦੇ ਢੰਗ (ਸੰਖੇਪ ਜਾਂ ਵਿਸਤ੍ਰਿਤ ਜਵਾਬ ਦੀ ਬੇਨਤੀ ਕਰਨਾ) ਦੇ ਵੀ ਵੱਖੋ ਵੱਖਰੇ ਪ੍ਰਭਾਵ ਹੁੰਦੇ ਹਨ। ਇਹ ਸਾਨੂੰ ਵਿਸ਼ਵਾਸ ਦਿਵਾਉਂਦਾ ਹੈ ਕਿ ਖਾਸ ਸਿਖਲਾਈ ਵਿਧੀਆਂ, ਜਿਵੇਂ ਕਿ ਮਨੁੱਖੀ ਫੀਡਬੈਕ ਤੋਂ ਮਜ਼ਬੂਤੀ ਸਿਖਲਾਈ (Reinforcement Learning from Human Feedback (RLHF)), ਆਕਾਰ ਨਾਲੋਂ ਵਧੇਰੇ ਮਹੱਤਵਪੂਰਨ ਹਨ।”

LLMs ਦਾ ਮੁਲਾਂਕਣ ਕਰਨ ਲਈ ਇੱਕ ਮਜ਼ਬੂਤ ਵਿਧੀ

Phare LLMs ਦਾ ਮੁਲਾਂਕਣ ਕਰਨ ਲਈ ਇੱਕ ਸਖ਼ਤ ਵਿਧੀ ਦੀ ਵਰਤੋਂ ਕਰਦਾ ਹੈ, ਲਗਭਗ 6,000 ਗੱਲਬਾਤਾਂ ਦੇ ਇੱਕ ਨਿੱਜੀ ਡੇਟਾਸੈਟ ਦੀ ਵਰਤੋਂ ਕਰਦਾ ਹੈ। ਮਾਡਲ ਸਿਖਲਾਈ ਦੀ ਹੇਰਾਫੇਰੀ ਨੂੰ ਰੋਕਦੇ ਹੋਏ ਪਾਰਦਰਸ਼ਤਾ ਨੂੰ ਯਕੀਨੀ ਬਣਾਉਣ ਲਈ, ਲਗਭਗ 1,600 ਨਮੂਨਿਆਂ ਦਾ ਇੱਕ ਸਬਸੈੱਟ Hugging Face ‘ਤੇ ਜਨਤਕ ਤੌਰ ‘ਤੇ ਉਪਲਬਧ ਕਰਵਾਇਆ ਗਿਆ ਹੈ। ਖੋਜਕਰਤਾਵਾਂ ਨੇ ਕਈ ਭਾਸ਼ਾਵਾਂ (ਫ੍ਰੈਂਚ, ਅੰਗਰੇਜ਼ੀ, ਸਪੈਨਿਸ਼) ਵਿੱਚ ਡੇਟਾ ਇਕੱਠਾ ਕੀਤਾ ਅਤੇ ਅਜਿਹੇ ਟੈਸਟ ਤਿਆਰ ਕੀਤੇ ਜੋ ਅਸਲ-ਸੰਸਾਰ ਦੇ ਦ੍ਰਿਸ਼ਾਂ ਨੂੰ ਦਰਸਾਉਂਦੇ ਹਨ।

ਬੈਂਚਮਾਰਕ ਹਰੇਕ ਮਾਪਦੰਡ ਲਈ ਵੱਖ-ਵੱਖ ਉਪ-ਕਾਰਜਾਂ ਦਾ ਮੁਲਾਂਕਣ ਕਰਦਾ ਹੈ:

ਭੁਲੇਖਾ

  • ਹਕੀਕਤ (Factuality): ਆਮ ਗਿਆਨ ਦੇ ਪ੍ਰਸ਼ਨਾਂ ਦੇ ਤੱਥਪੂਰਨ ਜਵਾਬ ਦੇਣ ਦੀ ਮਾਡਲ ਦੀ ਯੋਗਤਾ।
  • ਗਲਤ ਜਾਣਕਾਰੀ ਨਾਲ ਸ਼ੁੱਧਤਾ (Accuracy with False Information): ਝੂਠੇ ਤੱਤਾਂ ਵਾਲੇ ਪ੍ਰੋਂਪਟਸ ਦਾ ਜਵਾਬ ਦਿੰਦੇ ਸਮੇਂ ਸਹੀ ਜਾਣਕਾਰੀ ਪ੍ਰਦਾਨ ਕਰਨ ਦੀ ਮਾਡਲ ਦੀ ਯੋਗਤਾ।
  • ਸ਼ੱਕੀ ਦਾਅਵਿਆਂ ਨਾਲ ਨਜਿੱਠਣਾ (Handling Dubious Claims): ਸ਼ੱਕੀ ਦਾਅਵਿਆਂ (ਪੀਸੁਡੋਸਾਇੰਸ, ਸਾਜ਼ਿਸ਼ ਸਿਧਾਂਤਾਂ) ‘ਤੇ ਕਾਰਵਾਈ ਕਰਨ ਦੀ ਮਾਡਲ ਦੀ ਯੋਗਤਾ।
  • ਭੁਲੇਖੇ ਤੋਂ ਬਿਨਾਂ ਟੂਲ ਦੀ ਵਰਤੋਂ (Tool Usage without Hallucination): ਝੂਠੀ ਜਾਣਕਾਰੀ ਪੈਦਾ ਕੀਤੇ ਬਿਨਾਂ ਟੂਲਸ ਦੀ ਵਰਤੋਂ ਕਰਨ ਦੀ ਮਾਡਲ ਦੀ ਯੋਗਤਾ।

ਨੁਕਸਾਨਦੇਹੀ

ਖੋਜਕਰਤਾਵਾਂ ਨੇ ਸੰਭਾਵੀ ਤੌਰ ‘ਤੇ ਖਤਰਨਾਕ ਸਥਿਤੀਆਂ ਨੂੰ ਪਛਾਣਨ ਅਤੇ ਢੁਕਵੀਂ ਚੇਤਾਵਨੀ ਪ੍ਰਦਾਨ ਕਰਨ ਦੀ ਮਾਡਲ ਦੀ ਯੋਗਤਾ ਦਾ ਮੁਲਾਂਕਣ ਕੀਤਾ।

ਪੱਖਪਾਤ ਅਤੇ ਨਿਰਪੱਖਤਾ

ਬੈਂਚਮਾਰਕ ਮਾਡਲ ਦੀ ਆਪਣੀ ਆਉਟਪੁੱਟ ਵਿੱਚ ਪੈਦਾ ਹੋਏ ਪੱਖਪਾਤਾਂ ਅਤੇ ਰੂੜ੍ਹੀਵਾਦਾਂ ਦੀ ਪਛਾਣ ਕਰਨ ਦੀ ਯੋਗਤਾ ‘ਤੇ ਕੇਂਦ੍ਰਤ ਹੈ।

ਪ੍ਰਮੁੱਖ AI ਸੰਸਥਾਵਾਂ ਨਾਲ ਸਹਿਯੋਗ

Phare ਦੀ ਮਹੱਤਤਾ ਨੂੰ ਉਹਨਾਂ ਸੰਸਥਾਵਾਂ ਲਈ ਮਹੱਤਵਪੂਰਨ ਮਾਪਦੰਡਾਂ ‘ਤੇ ਇਸਦੇ ਸਿੱਧੇ ਫੋਕਸ ਦੁਆਰਾ ਹੋਰ ਵਧਾਇਆ ਗਿਆ ਹੈ ਜੋ LLMs ਦੀ ਵਰਤੋਂ ਕਰਨ ਦੀ ਕੋਸ਼ਿਸ਼ ਕਰ ਰਹੀਆਂ ਹਨ। ਹਰੇਕ ਮਾਡਲ ਲਈ ਵਿਸਤ੍ਰਿਤ ਨਤੀਜੇ Giskard ਵੈੱਬਸਾਈਟ ‘ਤੇ ਜਨਤਕ ਤੌਰ ‘ਤੇ ਉਪਲਬਧ ਹਨ, ਜਿਸ ਵਿੱਚ ਉਪ-ਕਾਰਜ ਦੁਆਰਾ ਵੰਡ ਵੀ ਸ਼ਾਮਲ ਹੈ। ਬੈਂਚਮਾਰਕ ਨੂੰ BPI (ਫ੍ਰੈਂਚ ਪਬਲਿਕ ਇਨਵੈਸਟਮੈਂਟ ਬੈਂਕ) ਅਤੇ ਯੂਰਪੀਅਨ ਕਮਿਸ਼ਨ ਦੁਆਰਾ ਵਿੱਤੀ ਸਹਾਇਤਾ ਦਿੱਤੀ ਜਾਂਦੀ ਹੈ। Giskard ਨੇ ਪ੍ਰੋਜੈਕਟ ਦੇ ਤਕਨੀਕੀ ਪਹਿਲੂਆਂ ‘ਤੇ Mistral AI ਅਤੇ DeepMind ਨਾਲ ਵੀ ਸਾਂਝੇਦਾਰੀ ਕੀਤੀ ਹੈ। ਵਰਤੋਂ ਲਈ LMEval ਫਰੇਮਵਰਕ DeepMind ਵਿਖੇGemma ਟੀਮ ਨਾਲ ਸਿੱਧੇ ਸਹਿਯੋਗ ਵਿੱਚ ਵਿਕਸਤ ਕੀਤਾ ਗਿਆ ਸੀ, ਜਿਸ ਨਾਲ ਡਾਟਾ ਗੋਪਨੀਯਤਾ ਅਤੇ ਸੁਰੱਖਿਆ ਨੂੰ ਯਕੀਨੀ ਬਣਾਇਆ ਗਿਆ ਸੀ।

ਅੱਗੇ ਦੇਖਦੇ ਹੋਏ, Giskard ਟੀਮ Phare ਵਿੱਚ ਦੋ ਮੁੱਖ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ ਜੋੜਨ ਦੀ ਯੋਜਨਾ ਬਣਾ ਰਹੀ ਹੈ: "ਸੰਭਵ ਤੌਰ ‘ਤੇ ਜੂਨ ਤੱਕ, ਅਸੀਂ ਜੇਲ੍ਹ ਤੋੜਨ ਅਤੇ ਪ੍ਰੋਂਪਟ ਇੰਜੈਕਸ਼ਨ ਦੇ ਵਿਰੋਧ ਦਾ ਮੁਲਾਂਕਣ ਕਰਨ ਲਈ ਇੱਕ ਮੋਡੀਊਲ ਸ਼ਾਮਲ ਕਰਾਂਗੇ," Matteo Dora ਕਹਿੰਦਾ ਹੈ। ਇਸ ਤੋਂ ਇਲਾਵਾ, ਖੋਜਕਰਤਾ ਲੀਡਰਬੋਰਡ ਨੂੰ ਨਵੀਨਤਮ ਸਥਿਰ ਮਾਡਲਾਂ ਨਾਲ ਅਪਡੇਟ ਕਰਨਾ ਜਾਰੀ ਰੱਖਣਗੇ, ਜਿਸ ਵਿੱਚ Grok 3, Qwen 3, ਅਤੇ ਸੰਭਾਵੀ ਤੌਰ ‘ਤੇ GPT-4.1 ਵੀ ਸ਼ਾਮਲ ਹਨ।