ਸਭ ਤੋਂ ਔਖੇ AI ਮਾਡਲ: ਖਤਰੇ, ਭੁਲੇਖੇ, ਅਤੇ ਪੱਖਪਾਤ | pa

ਇੱਕ ਤਾਜ਼ਾ ਬੈਂਚਮਾਰਕ ਅਧਿਐਨ, ਜੋ ਕਿ ਫਰਾਂਸੀਸੀ ਸਟਾਰਟਅੱਪ Giskard ਦੁਆਰਾ ਕੀਤਾ ਗਿਆ ਹੈ, ਨੇ ਆਰਟੀਫੀਸ਼ੀਅਲ ਇੰਟੈਲੀਜੈਂਸ (Artificial Intelligence) ਦੇ ਖੇਤਰ ਵਿੱਚ ਵਰਤੇ ਜਾਂਦੇ ਕੁੱਝ ਸਭ ਤੋਂ ਵੱਧ ਭਾਸ਼ਾ ਮਾਡਲਾਂ (Language Models (LLMs)) ਦੀਆਂ ਮਹੱਤਵਪੂਰਨ ਕਮੀਆਂ ਵੱਲ ਧਿਆਨ ਦਿਵਾਇਆ ਹੈ। ਇਸ ਅਧਿਐਨ ਵਿੱਚ ਇਨ੍ਹਾਂ ਮਾਡਲਾਂ ਦੀ ਹਾਨੀਕਾਰਕ ਸਮੱਗਰੀ ਪੈਦਾ ਕਰਨ, ਗਲਤ ਜਾਣਕਾਰੀ ਦੇਣ, ਅਤੇ ਆਪਣੇ ਜਵਾਬਾਂ ਵਿੱਚ ਕਈ ਤਰ੍ਹਾਂ ਦੇ ਪੱਖਪਾਤ ਦਿਖਾਉਣ ਦੀ ਪ੍ਰਵਿਰਤੀ ਦਾ ਬਹੁਤ ਹੀ ਧਿਆਨ ਨਾਲ ਮੁਲਾਂਕਣ ਕੀਤਾ ਗਿਆ ਹੈ।

ਸਭ ਤੋਂ ਖਤਰਨਾਕ LLMs ਦੀ ਪਛਾਣ: ਇੱਕ ਵਿਆਪਕ ਮੁਲਾਂਕਣ

Giskard ਦਾ ਬੈਂਚਮਾਰਕ, ਜੋ ਕਿ ਅਪ੍ਰੈਲ ਵਿੱਚ ਜਾਰੀ ਕੀਤਾ ਗਿਆ ਸੀ, LLMs ਨਾਲ ਜੁੜੇ ਸੰਭਾਵੀ ਖਤਰਿਆਂ ਦੀ ਡੂੰਘਾਈ ਨਾਲ ਜਾਂਚ ਕਰਦਾ ਹੈ, ਅਤੇ ਗਲਤ ਜਾਣਕਾਰੀ ਘੜਨ, ਜ਼ਹਿਰੀਲੇ ਨਤੀਜੇ ਪੈਦਾ ਕਰਨ, ਅਤੇ ਪੱਖਪਾਤੀ ਜਾਂ ਰੂੜੀਵਾਦੀ ਵਿਚਾਰਾਂ ਨੂੰ ਪ੍ਰਦਰਸ਼ਿਤ ਕਰਨ ਦੀ ਉਨ੍ਹਾਂ ਦੀ ਪ੍ਰਵਿਰਤੀ ਦਾ ਇੱਕ ਭਰੋਸੇਯੋਗ ਮੁਲਾਂਕਣ ਪ੍ਰਦਾਨ ਕਰਦਾ ਹੈ। ਅਧਿਐਨ ਦੇ ਨਤੀਜੇ ਡਿਵੈਲਪਰਾਂ, ਖੋਜਕਰਤਾਵਾਂ, ਅਤੇ ਸੰਸਥਾਵਾਂ ਲਈ ਕੀਮਤੀ ਜਾਣਕਾਰੀ ਪ੍ਰਦਾਨ ਕਰਦੇ ਹਨ ਜੋ ਜ਼ਿੰਮੇਵਾਰੀ ਨਾਲ AI ਮਾਡਲਾਂ ਨੂੰ ਲਾਗੂ ਕਰਨ ਦੀ ਕੋਸ਼ਿਸ਼ ਕਰ ਰਹੇ ਹਨ।

ਬੈਂਚਮਾਰਕ LLM ਪ੍ਰਦਰਸ਼ਨ ਦੇ ਕਈ ਮਹੱਤਵਪੂਰਨ ਪਹਿਲੂਆਂ ਦੀ ਬਹੁਤ ਹੀ ਧਿਆਨ ਨਾਲ ਜਾਂਚ ਕਰਦਾ ਹੈ, ਜਿਸ ਵਿੱਚ ਸ਼ਾਮਲ ਹਨ:

ਭੁਲੇਖਾ (Hallucination): ਮਾਡਲ ਦੀ ਝੂਠੀ ਜਾਂ ਬੇਤੁਕੀ ਜਾਣਕਾਰੀ ਪੈਦਾ ਕਰਨ ਦੀ ਪ੍ਰਵਿਰਤੀ।
ਨੁਕਸਾਨਦੇਹੀ (Harmfulness): ਮਾਡਲ ਦੀ ਖਤਰਨਾਕ, ਅਪਮਾਨਜਨਕ, ਜਾਂ ਗੈਰ-ਢੁਕਵੀਂ ਸਮੱਗਰੀ ਪੈਦਾ ਕਰਨ ਦੀ ਪ੍ਰਵਿਰਤੀ।
ਪੱਖਪਾਤ ਅਤੇ ਰੂੜ੍ਹੀਵਾਦ (Bias and Stereotypes): ਮਾਡਲ ਦਾ ਬੇਇਨਸਾਫ਼ੀ ਜਾਂ ਵਿਤਕਰੇ ਵਾਲੇ ਵਿਚਾਰਾਂ ਨੂੰ ਸਥਾਈ ਬਣਾਉਣ ਦਾ ਝੁਕਾਅ।

ਇਨ੍ਹਾਂ ਕਾਰਕਾਂ ਦਾ ਮੁਲਾਂਕਣ ਕਰਕੇ, Giskard ਦਾ ਬੈਂਚਮਾਰਕ ਵੱਖ-ਵੱਖ LLMs ਨਾਲ ਜੁੜੇ ਸਮੁੱਚੇ ਜੋਖਮ ਦਾ ਇੱਕ ਵਿਆਪਕ ਮੁਲਾਂਕਣ ਪ੍ਰਦਾਨ ਕਰਦਾ ਹੈ।

ਸਭ ਤੋਂ ਮਹੱਤਵਪੂਰਨ ਕਮੀਆਂ ਵਾਲੇ LLMs ਦੀ ਦਰਜਾਬੰਦੀ

ਅਧਿਐਨ ਦੇ ਨਤੀਜੇ ਇਨ੍ਹਾਂ ਮੁੱਖ ਮਾਪਦੰਡਾਂ ਵਿੱਚ ਉਨ੍ਹਾਂ ਦੇ ਪ੍ਰਦਰਸ਼ਨ ਦੇ ਅਧਾਰ ਤੇ LLMs ਦੀ ਇੱਕ ਦਰਜਾਬੰਦੀ ਨੂੰ ਪ੍ਰਗਟ ਕਰਦੇ ਹਨ। ਜਿੰਨਾ ਸਕੋਰ ਘੱਟ ਹੋਵੇਗਾ, ਮਾਡਲ ਨੂੰ ਓਨਾ ਹੀ ਜ਼ਿਆਦਾ ਸਮੱਸਿਆ ਵਾਲਾ ਮੰਨਿਆ ਜਾਂਦਾ ਹੈ। ਹੇਠਾਂ ਦਿੱਤੀ ਸਾਰਣੀ ਨਤੀਜਿਆਂ ਦਾ ਸਾਰ ਦਿੰਦੀ ਹੈ:

ਮਾਡਲ	ਸਮੁੱਚੀ ਔਸਤ	ਭੁਲੇਖਾ	ਨੁਕਸਾਨਦੇਹੀ	ਪੱਖਪਾਤ ਅਤੇ ਰੂੜ੍ਹੀਵਾਦ	ਡਿਵੈਲਪਰ
GPT-4o mini	63.93%	74.50%	77.29%	40.00%
Grok 2	65.15%	77.35%	91.44%	26.67%	xAI
Mistral Large	66.00%	79.72%	89.38%	28.89%	Mistral
Mistral Small 3.1 24B	67.88%	77.72%	90.91%	35.00%	Mistral
Llama 3.3 70B	67.97%	73.41%	86.04%	44.44%	Meta
Deepseek V3	70.77%	77.91%	89.00%	45.39%	Deepseek
Qwen 2.5 Max	72.71%	77.12%	89.89%	51.11%	Alibaba Qwen
GPT-4o	72.80%	83.89%	92.66%	41.85%	OpenAI
Deepseek V3 (0324)	73.92%	77.86%	92.80%	51.11%	Deepseek
Gemini 2.0 Flash	74.89%	78.13%	94.30%	52.22%	Google
Gemma 3 27B	75.23%	69.90%	91.36%	64.44%	Google
Claude 3.7 Sonnet	75.53%	89.26%	95.52%	41.82%	Anthropic
Claude 3.5 Sonnet	75.62%	91.09%	95.40%	40.37%	Anthropic
Llama 4 Maverick	76.72%	77.02%	89.25%	63.89%	Meta
Llama 3.1 405B	77.59%	75.54%	86.49%	70.74%	Meta
Claude 3.5 Haiku	82.72%	86.97%	95.36%	65.81%	Anthropic
Gemini 1.5 Pro	87.29%	87.06%	96.84%	77.96%	Google

ਬੈਂਚਮਾਰਕ ਵਿੱਚ 17 ਵਿਆਪਕ ਤੌਰ ‘ਤੇ ਵਰਤੇ ਜਾਂਦੇ ਮਾਡਲ ਸ਼ਾਮਲ ਕੀਤੇ ਗਏ ਸਨ, ਜੋ ਕਿ ਮੌਜੂਦਾ AI ਲੈਂਡਸਕੇਪ ਨੂੰ ਦਰਸਾਉਣ ਲਈ ਧਿਆਨ ਨਾਲ ਚੁਣੇ ਗਏ ਸਨ। Giskard ਨੇ ਪ੍ਰਯੋਗਾਤਮਕ ਜਾਂ ਅੰਤਿਮ ਰੂਪ ਤੋਂ ਬਿਨਾਂ ਵਰਜਨਾਂ ਦੀ ਬਜਾਏ ਸਥਿਰ ਅਤੇ ਵਿਆਪਕ ਤੌਰ ‘ਤੇ ਅਪਣਾਏ ਗਏ ਮਾਡਲਾਂ ਦਾ ਮੁਲਾਂਕਣ ਕਰਨ ਨੂੰ ਤਰਜੀਹ ਦਿੱਤੀ, ਜਿਸ ਨਾਲ ਨਤੀਜਿਆਂ ਦੀ ਪ੍ਰਸੰਗਿਕਤਾ ਅਤੇ ਭਰੋਸੇਯੋਗਤਾ ਨੂੰ ਯਕੀਨੀ ਬਣਾਇਆ ਗਿਆ। ਇਹ ਪਹੁੰਚ ਉਨ੍ਹਾਂ ਮਾਡਲਾਂ ਨੂੰ ਬਾਹਰ ਕੱਢਦੀ ਹੈ ਜੋ ਮੁੱਖ ਤੌਰ ‘ਤੇ ਤਰਕ ਦੇ ਕਾਰਜਾਂ ਲਈ ਤਿਆਰ ਕੀਤੇ ਗਏ ਹਨ, ਕਿਉਂਕਿ ਉਹ ਇਸ ਬੈਂਚਮਾਰਕ ਦਾ ਮੁੱਖ ਫੋਕਸ ਨਹੀਂ ਹਨ।

ਸਾਰੀਆਂ ਸ਼੍ਰੇਣੀਆਂ ਵਿੱਚ ਸਭ ਤੋਂ ਮਾੜਾ ਪ੍ਰਦਰਸ਼ਨ ਕਰਨ ਵਾਲਿਆਂ ਦੀ ਪਛਾਣ

Phare ਬੈਂਚਮਾਰਕ ਦੇ ਸ਼ੁਰੂਆਤੀ ਨਤੀਜੇ ਵੱਡੇ ਪੱਧਰ ‘ਤੇ ਮੌਜੂਦਾ ਕਮਿਊਨਿਟੀ ਧਾਰਨਾਵਾਂ ਅਤੇ ਫੀਡਬੈਕ ਨਾਲ ਮੇਲ ਖਾਂਦੇ ਹਨ। ਚੋਟੀ ਦੇ ਪੰਜ "ਸਭ ਤੋਂ ਮਾੜਾ" ਪ੍ਰਦਰਸ਼ਨ ਕਰਨ ਵਾਲੇ ਮਾਡਲਾਂ (17 ਵਿੱਚੋਂ ਜਿਨ੍ਹਾਂ ਦੀ ਜਾਂਚ ਕੀਤੀ ਗਈ) ਵਿੱਚ GPT-4o mini, Grok 2, Mistral Large, Mistral Small 3.1 24B, ਅਤੇ Llama 3.3 70B ਸ਼ਾਮਲ ਹਨ। ਇਸਦੇ ਉਲਟ, ਵਧੀਆ ਪ੍ਰਦਰਸ਼ਨ ਦਿਖਾਉਣ ਵਾਲੇ ਮਾਡਲਾਂ ਵਿੱਚ Gemini 1.5 Pro, Claude 3.5 Haiku, ਅਤੇ Llama 3.1 405B ਸ਼ਾਮਲ ਹਨ।

ਭੁਲੇਖਾ ਦੇ ਹੌਟਸਪੌਟਸ: ਜਾਣਕਾਰੀ ਘੜਨ ਲਈ ਸੰਭਾਵਿਤ ਮਾਡਲ

ਜਦੋਂ ਸਿਰਫ਼ ਭੁਲੇਖਾ ਮਾਪਦੰਡ ‘ਤੇ ਵਿਚਾਰ ਕੀਤਾ ਜਾਂਦਾ ਹੈ, ਤਾਂ Gemma 3 27B, Llama 3.3 70B, GPT-4o mini, Llama 3.1 405B, ਅਤੇ Llama 4 Maverick ਝੂਠੀ ਜਾਂ ਗੁੰਮਰਾਹਕੁੰਨ ਜਾਣਕਾਰੀ ਪੈਦਾ ਕਰਨ ਲਈ ਸਭ ਤੋਂ ਵੱਧ ਸੰਭਾਵਿਤ ਮਾਡਲ ਵਜੋਂ ਉਭਰਦੇ ਹਨ। ਇਸਦੇ ਉਲਟ, Anthropic ਇਸ ਖੇਤਰ ਵਿੱਚ ਤਾਕਤ ਦਾ ਪ੍ਰਦਰਸ਼ਨ ਕਰਦਾ ਹੈ, ਇਸਦੇ ਤਿੰਨ ਮਾਡਲਾਂ ਵਿੱਚ ਸਭ ਤੋਂ ਘੱਟ ਭੁਲੇਖਾ ਦਰਾਂ ਦਿਖਾਈ ਦਿੰਦੀਆਂ ਹਨ: Claude 3.5 Sonnet, Claude 3.7 Sonnet, ਅਤੇ Claude 3.5 Haiku, Gemini 1.5 Pro ਅਤੇ GPT-4o ਦੇ ਨਾਲ।

ਖਤਰਨਾਕ ਸਮੱਗਰੀ ਉਤਪਾਦਨ: ਕਮਜ਼ੋਰ ਸੁਰੱਖਿਆ ਉਪਾਵਾਂ ਵਾਲੇ ਮਾਡਲ

ਖਤਰਨਾਕ ਜਾਂ ਹਾਨੀਕਾਰਕ ਸਮੱਗਰੀ ਦੇ ਉਤਪਾਦਨ ਦੇ ਸੰਬੰਧ ਵਿੱਚ (ਮਾਡਲ ਦੀਆਂ ਸਮੱਸਿਆਵਾਂ ਵਾਲੀਆਂ ਇਨਪੁਟਸ ਨੂੰ ਪਛਾਣਨ ਅਤੇ ਢੁਕਵੇਂ ਜਵਾਬ ਦੇਣ ਦੀ ਯੋਗਤਾ ਦਾ ਮੁਲਾਂਕਣ ਕਰਨਾ), GPT-4o mini ਸਭ ਤੋਂ ਮਾੜਾ ਪ੍ਰਦਰਸ਼ਨ ਕਰਦਾ ਹੈ, ਇਸਦੇ ਬਾਅਦ Llama 3.3 70B, Llama 3.1 405B, Deepseek V3, ਅਤੇ Llama 4 Maverick ਹਨ। ਦੂਜੇ ਪਾਸੇ, Gemini 1.5 Pro ਲਗਾਤਾਰ ਵਧੀਆ ਪ੍ਰਦਰਸ਼ਨ ਦਾ ਪ੍ਰਦਰਸ਼ਨ ਕਰਦਾ ਹੈ, ਇਸਦੇ ਬਾਅਦ Anthropic ਦੇ ਤਿੰਨ ਮਾਡਲ (Claude 3.7 Sonnet, Claude 3.5 Sonnet, ਅਤੇ Claude 3.5 Haiku) ਅਤੇ Gemini 2.0 Flash ਹਨ।

ਪੱਖਪਾਤ ਅਤੇ ਰੂੜ੍ਹੀਵਾਦ: ਇੱਕ ਲਗਾਤਾਰ ਚੁਣੌਤੀ

LLMs ਵਿੱਚ ਪੱਖਪਾਤ ਅਤੇ ਰੂੜ੍ਹੀਵਾਦ ਦੀ ਮੌਜੂਦਗੀ ਇੱਕ ਮਹੱਤਵਪੂਰਨ ਖੇਤਰ ਬਣੀ ਹੋਈ ਹੈ ਜਿਸ ਵਿੱਚ ਸੁਧਾਰ ਦੀ ਲੋੜ ਹੈ। Phare ਬੈਂਚਮਾਰਕ ਦੇ ਨਤੀਜੇ ਦਰਸਾਉਂਦੇ ਹਨ ਕਿ LLMs ਅਜੇ ਵੀ ਆਪਣੇ ਆਉਟਪੁੱਟ ਵਿੱਚ ਮਾਰਕ ਕੀਤੇ ਪੱਖਪਾਤ ਅਤੇ ਰੂੜ੍ਹੀਵਾਦ ਦਾ ਪ੍ਰਦਰਸ਼ਨ ਕਰਦੇ ਹਨ। Grok 2 ਨੂੰ ਇਸ ਸ਼੍ਰੇਣੀ ਵਿੱਚ ਸਭ ਤੋਂ ਮਾੜਾ ਸਕੋਰ ਮਿਲਦਾ ਹੈ, ਇਸਦੇ ਬਾਅਦ Mistral Large, Mistral Small 3.1 24B, GPT-4o mini, ਅਤੇ Claude 3.5 Sonnet ਹਨ। ਇਸਦੇ ਉਲਟ, Gemini 1.5 Pro ਵਧੀਆ ਸਕੋਰ ਪ੍ਰਾਪਤ ਕਰਦਾ ਹੈ, ਇਸਦੇ ਬਾਅਦ Llama 3.1 405B, Claude 3.5 Haiku, Gemma 3 27B, ਅਤੇ Llama 4 Maverick ਹਨ।

ਜਦੋਂ ਕਿ ਮਾਡਲ ਦਾ ਆਕਾਰ ਜ਼ਹਿਰੀਲੀ ਸਮੱਗਰੀ ਦੇ ਉਤਪਾਦਨ ਨੂੰ ਪ੍ਰਭਾਵਿਤ ਕਰ ਸਕਦਾ ਹੈ (ਛੋਟੇ ਮਾਡਲ ਵਧੇਰੇ "ਨੁਕਸਾਨਦੇਹ" ਆਉਟਪੁੱਟ ਪੈਦਾ ਕਰਦੇ ਹਨ), ਪੈਰਾਮੀਟਰਾਂ ਦੀ ਸੰਖਿਆ ਇਕੋਮਾਤਰ ਨਿਰਧਾਰਕ ਨਹੀਂ ਹੈ। Giskard ਦੇ CTO Matteo Dora ਦੇ ਅਨੁਸਾਰ, "ਸਾਡੇ ਵਿਸ਼ਲੇਸ਼ਣ ਦਰਸਾਉਂਦੇ ਹਨ ਕਿ ਉਪਭੋਗਤਾ ਸ਼ਬਦਾਂ ਪ੍ਰਤੀ ਸੰਵੇਦਨਸ਼ੀਲਤਾ ਵੱਖ-ਵੱਖ ਪ੍ਰਦਾਤਾਵਾਂ ਵਿੱਚ ਕਾਫ਼ੀ ਵੱਖਰੀ ਹੁੰਦੀ ਹੈ। ਉਦਾਹਰਨ ਲਈ, Anthropic ਦੇ ਮਾਡਲ ਉਨ੍ਹਾਂ ਦੇ ਆਕਾਰ ਦੀ ਪਰਵਾਹ ਕੀਤੇ ਬਿਨਾਂ, ਆਪਣੇ ਮੁਕਾਬਲੇਬਾਜ਼ਾਂ ਦੇ ਮੁਕਾਬਲੇ ਪ੍ਰਸ਼ਨਾਂ ਦੇ ਪੁੱਛਣ ਦੇ ਤਰੀਕੇ ਤੋਂ ਘੱਟ ਪ੍ਰਭਾਵਿਤ ਹੁੰਦੇ ਹਨ। ਪ੍ਰਸ਼ਨ ਪੁੱਛਣ ਦੇ ਢੰਗ (ਸੰਖੇਪ ਜਾਂ ਵਿਸਤ੍ਰਿਤ ਜਵਾਬ ਦੀ ਬੇਨਤੀ ਕਰਨਾ) ਦੇ ਵੀ ਵੱਖੋ ਵੱਖਰੇ ਪ੍ਰਭਾਵ ਹੁੰਦੇ ਹਨ। ਇਹ ਸਾਨੂੰ ਵਿਸ਼ਵਾਸ ਦਿਵਾਉਂਦਾ ਹੈ ਕਿ ਖਾਸ ਸਿਖਲਾਈ ਵਿਧੀਆਂ, ਜਿਵੇਂ ਕਿ ਮਨੁੱਖੀ ਫੀਡਬੈਕ ਤੋਂ ਮਜ਼ਬੂਤੀ ਸਿਖਲਾਈ (Reinforcement Learning from Human Feedback (RLHF)), ਆਕਾਰ ਨਾਲੋਂ ਵਧੇਰੇ ਮਹੱਤਵਪੂਰਨ ਹਨ।”

LLMs ਦਾ ਮੁਲਾਂਕਣ ਕਰਨ ਲਈ ਇੱਕ ਮਜ਼ਬੂਤ ਵਿਧੀ

Phare LLMs ਦਾ ਮੁਲਾਂਕਣ ਕਰਨ ਲਈ ਇੱਕ ਸਖ਼ਤ ਵਿਧੀ ਦੀ ਵਰਤੋਂ ਕਰਦਾ ਹੈ, ਲਗਭਗ 6,000 ਗੱਲਬਾਤਾਂ ਦੇ ਇੱਕ ਨਿੱਜੀ ਡੇਟਾਸੈਟ ਦੀ ਵਰਤੋਂ ਕਰਦਾ ਹੈ। ਮਾਡਲ ਸਿਖਲਾਈ ਦੀ ਹੇਰਾਫੇਰੀ ਨੂੰ ਰੋਕਦੇ ਹੋਏ ਪਾਰਦਰਸ਼ਤਾ ਨੂੰ ਯਕੀਨੀ ਬਣਾਉਣ ਲਈ, ਲਗਭਗ 1,600 ਨਮੂਨਿਆਂ ਦਾ ਇੱਕ ਸਬਸੈੱਟ Hugging Face ‘ਤੇ ਜਨਤਕ ਤੌਰ ‘ਤੇ ਉਪਲਬਧ ਕਰਵਾਇਆ ਗਿਆ ਹੈ। ਖੋਜਕਰਤਾਵਾਂ ਨੇ ਕਈ ਭਾਸ਼ਾਵਾਂ (ਫ੍ਰੈਂਚ, ਅੰਗਰੇਜ਼ੀ, ਸਪੈਨਿਸ਼) ਵਿੱਚ ਡੇਟਾ ਇਕੱਠਾ ਕੀਤਾ ਅਤੇ ਅਜਿਹੇ ਟੈਸਟ ਤਿਆਰ ਕੀਤੇ ਜੋ ਅਸਲ-ਸੰਸਾਰ ਦੇ ਦ੍ਰਿਸ਼ਾਂ ਨੂੰ ਦਰਸਾਉਂਦੇ ਹਨ।

ਬੈਂਚਮਾਰਕ ਹਰੇਕ ਮਾਪਦੰਡ ਲਈ ਵੱਖ-ਵੱਖ ਉਪ-ਕਾਰਜਾਂ ਦਾ ਮੁਲਾਂਕਣ ਕਰਦਾ ਹੈ:

ਭੁਲੇਖਾ

ਹਕੀਕਤ (Factuality): ਆਮ ਗਿਆਨ ਦੇ ਪ੍ਰਸ਼ਨਾਂ ਦੇ ਤੱਥਪੂਰਨ ਜਵਾਬ ਦੇਣ ਦੀ ਮਾਡਲ ਦੀ ਯੋਗਤਾ।
ਗਲਤ ਜਾਣਕਾਰੀ ਨਾਲ ਸ਼ੁੱਧਤਾ (Accuracy with False Information): ਝੂਠੇ ਤੱਤਾਂ ਵਾਲੇ ਪ੍ਰੋਂਪਟਸ ਦਾ ਜਵਾਬ ਦਿੰਦੇ ਸਮੇਂ ਸਹੀ ਜਾਣਕਾਰੀ ਪ੍ਰਦਾਨ ਕਰਨ ਦੀ ਮਾਡਲ ਦੀ ਯੋਗਤਾ।
ਸ਼ੱਕੀ ਦਾਅਵਿਆਂ ਨਾਲ ਨਜਿੱਠਣਾ (Handling Dubious Claims): ਸ਼ੱਕੀ ਦਾਅਵਿਆਂ (ਪੀਸੁਡੋਸਾਇੰਸ, ਸਾਜ਼ਿਸ਼ ਸਿਧਾਂਤਾਂ) ‘ਤੇ ਕਾਰਵਾਈ ਕਰਨ ਦੀ ਮਾਡਲ ਦੀ ਯੋਗਤਾ।
ਭੁਲੇਖੇ ਤੋਂ ਬਿਨਾਂ ਟੂਲ ਦੀ ਵਰਤੋਂ (Tool Usage without Hallucination): ਝੂਠੀ ਜਾਣਕਾਰੀ ਪੈਦਾ ਕੀਤੇ ਬਿਨਾਂ ਟੂਲਸ ਦੀ ਵਰਤੋਂ ਕਰਨ ਦੀ ਮਾਡਲ ਦੀ ਯੋਗਤਾ।

ਨੁਕਸਾਨਦੇਹੀ

ਖੋਜਕਰਤਾਵਾਂ ਨੇ ਸੰਭਾਵੀ ਤੌਰ ‘ਤੇ ਖਤਰਨਾਕ ਸਥਿਤੀਆਂ ਨੂੰ ਪਛਾਣਨ ਅਤੇ ਢੁਕਵੀਂ ਚੇਤਾਵਨੀ ਪ੍ਰਦਾਨ ਕਰਨ ਦੀ ਮਾਡਲ ਦੀ ਯੋਗਤਾ ਦਾ ਮੁਲਾਂਕਣ ਕੀਤਾ।

ਪੱਖਪਾਤ ਅਤੇ ਨਿਰਪੱਖਤਾ

ਬੈਂਚਮਾਰਕ ਮਾਡਲ ਦੀ ਆਪਣੀ ਆਉਟਪੁੱਟ ਵਿੱਚ ਪੈਦਾ ਹੋਏ ਪੱਖਪਾਤਾਂ ਅਤੇ ਰੂੜ੍ਹੀਵਾਦਾਂ ਦੀ ਪਛਾਣ ਕਰਨ ਦੀ ਯੋਗਤਾ ‘ਤੇ ਕੇਂਦ੍ਰਤ ਹੈ।

ਪ੍ਰਮੁੱਖ AI ਸੰਸਥਾਵਾਂ ਨਾਲ ਸਹਿਯੋਗ

Phare ਦੀ ਮਹੱਤਤਾ ਨੂੰ ਉਹਨਾਂ ਸੰਸਥਾਵਾਂ ਲਈ ਮਹੱਤਵਪੂਰਨ ਮਾਪਦੰਡਾਂ ‘ਤੇ ਇਸਦੇ ਸਿੱਧੇ ਫੋਕਸ ਦੁਆਰਾ ਹੋਰ ਵਧਾਇਆ ਗਿਆ ਹੈ ਜੋ LLMs ਦੀ ਵਰਤੋਂ ਕਰਨ ਦੀ ਕੋਸ਼ਿਸ਼ ਕਰ ਰਹੀਆਂ ਹਨ। ਹਰੇਕ ਮਾਡਲ ਲਈ ਵਿਸਤ੍ਰਿਤ ਨਤੀਜੇ Giskard ਵੈੱਬਸਾਈਟ ‘ਤੇ ਜਨਤਕ ਤੌਰ ‘ਤੇ ਉਪਲਬਧ ਹਨ, ਜਿਸ ਵਿੱਚ ਉਪ-ਕਾਰਜ ਦੁਆਰਾ ਵੰਡ ਵੀ ਸ਼ਾਮਲ ਹੈ। ਬੈਂਚਮਾਰਕ ਨੂੰ BPI (ਫ੍ਰੈਂਚ ਪਬਲਿਕ ਇਨਵੈਸਟਮੈਂਟ ਬੈਂਕ) ਅਤੇ ਯੂਰਪੀਅਨ ਕਮਿਸ਼ਨ ਦੁਆਰਾ ਵਿੱਤੀ ਸਹਾਇਤਾ ਦਿੱਤੀ ਜਾਂਦੀ ਹੈ। Giskard ਨੇ ਪ੍ਰੋਜੈਕਟ ਦੇ ਤਕਨੀਕੀ ਪਹਿਲੂਆਂ ‘ਤੇ Mistral AI ਅਤੇ DeepMind ਨਾਲ ਵੀ ਸਾਂਝੇਦਾਰੀ ਕੀਤੀ ਹੈ। ਵਰਤੋਂ ਲਈ LMEval ਫਰੇਮਵਰਕ DeepMind ਵਿਖੇGemma ਟੀਮ ਨਾਲ ਸਿੱਧੇ ਸਹਿਯੋਗ ਵਿੱਚ ਵਿਕਸਤ ਕੀਤਾ ਗਿਆ ਸੀ, ਜਿਸ ਨਾਲ ਡਾਟਾ ਗੋਪਨੀਯਤਾ ਅਤੇ ਸੁਰੱਖਿਆ ਨੂੰ ਯਕੀਨੀ ਬਣਾਇਆ ਗਿਆ ਸੀ।

ਅੱਗੇ ਦੇਖਦੇ ਹੋਏ, Giskard ਟੀਮ Phare ਵਿੱਚ ਦੋ ਮੁੱਖ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ ਜੋੜਨ ਦੀ ਯੋਜਨਾ ਬਣਾ ਰਹੀ ਹੈ: "ਸੰਭਵ ਤੌਰ ‘ਤੇ ਜੂਨ ਤੱਕ, ਅਸੀਂ ਜੇਲ੍ਹ ਤੋੜਨ ਅਤੇ ਪ੍ਰੋਂਪਟ ਇੰਜੈਕਸ਼ਨ ਦੇ ਵਿਰੋਧ ਦਾ ਮੁਲਾਂਕਣ ਕਰਨ ਲਈ ਇੱਕ ਮੋਡੀਊਲ ਸ਼ਾਮਲ ਕਰਾਂਗੇ," Matteo Dora ਕਹਿੰਦਾ ਹੈ। ਇਸ ਤੋਂ ਇਲਾਵਾ, ਖੋਜਕਰਤਾ ਲੀਡਰਬੋਰਡ ਨੂੰ ਨਵੀਨਤਮ ਸਥਿਰ ਮਾਡਲਾਂ ਨਾਲ ਅਪਡੇਟ ਕਰਨਾ ਜਾਰੀ ਰੱਖਣਗੇ, ਜਿਸ ਵਿੱਚ Grok 3, Qwen 3, ਅਤੇ ਸੰਭਾਵੀ ਤੌਰ ‘ਤੇ GPT-4.1 ਵੀ ਸ਼ਾਮਲ ਹਨ।

ਤੇ ਅੱਪਡੇਟ ਕੀਤਾ ਗਿਆ 2025-05-07

# AIGC # OpenAI # GPT