సమస్యాత్మక AI నమూనాలు: ప్రమాదాలు, భ్రమలు & పక్షపాతాలు

ఫ్రెంచ్ స్టార్టప్ గిస్కార్డ్ యొక్క ఇటీవలి బెంచ్మార్క్ అధ్యయనం కృత్రిమ మేధా రంగంలో విస్తృతంగా ఉపయోగించే కొన్ని భాషా నమూనాల (LLMs) యొక్క ముఖ్యమైన లోపాలను వెలుగులోకి తెచ్చింది. ఈ అధ్యయనం హానికరమైన కంటెంట్ను ఉత్పత్తి చేయడానికి, సమాచారాన్ని భ్రమించటానికి మరియు వాటి ప్రతిస్పందనలలో వివిధ పక్షపాతాలను ప్రదర్శించడానికి ఈ నమూనాల యొక్క ప్రవృత్తిని ఖచ్చితంగా అంచనా వేస్తుంది.

అత్యంత ప్రమాదకరమైన LLMలను గుర్తించడం: సమగ్ర మూల్యాంకనం

ఏప్రిల్లో విడుదల చేసిన గిస్కార్డ్ యొక్క బెంచ్మార్క్, LLM లతో సంబంధం ఉన్న సంభావ్య ప్రమాదాలను పరిశీలిస్తుంది, సమాచారాన్ని సృష్టించే, విషపూరిత అవుట్పుట్లను ఉత్పత్తి చేసే మరియు పక్షపాత లేదా మూస అభిప్రాయాలను ప్రదర్శించే వారి ధోరణి యొక్క విశ్వసనీయ మూల్యాంకనాన్ని అందిస్తుంది. AI నమూనాలను బాధ్యతాయుతంగా అమలు చేయడానికి ప్రయత్నిస్తున్న డెవలపర్లు, పరిశోధకులు మరియు సంస్థలకు ఈ అధ్యయనం యొక్క ఫలితాలు విలువైన అంతర్దృష్టులను అందిస్తాయి.

బెంచ్మార్క్ LLM పనితీరు యొక్క అనేక కీలక అంశాలను ఖచ్చితంగా పరిశీలిస్తుంది, వీటిలో:

  • భ్రమ (Hallucination): తప్పుడు లేదా అర్ధంలేని సమాచారాన్ని ఉత్పత్తి చేయడానికి నమూనా యొక్క ధోరణి.
  • హానికరత్వం (Harmfulness): ప్రమాదకరమైన, అసభ్యకరమైన లేదా అనుచితమైన కంటెంట్ను ఉత్పత్తి చేయడానికి నమూనా యొక్క ప్రవృత్తి.
  • పక్షపాతం మరియు మూస అభిప్రాయాలు (Bias and Stereotypes): అన్యాయమైన లేదా వివక్షాపూరితమైన అభిప్రాయాలను కొనసాగించడానికి నమూనా యొక్క మొగ్గు.

ఈ అంశాలను మూల్యాంకనం చేయడం ద్వారా, గిస్కార్డ్ యొక్క బెంచ్మార్క్ వివిధ LLM లతో సంబంధం ఉన్న మొత్తం ప్రమాదం యొక్క సమగ్ర అంచనాను అందిస్తుంది.

అత్యంత ముఖ్యమైన లోపాలతో LLMలకు ర్యాంకింగ్

ఈ అధ్యయనం యొక్క ఫలితాలు ఈ కీలక కొలమానాల అంతటా వాటి పనితీరు ఆధారంగా LLM ల ర్యాంకింగ్ను వెల్లడిస్తున్నాయి. స్కోరు ఎంత తక్కువగా ఉంటే, నమూనా అంత సమస్యగా పరిగణించబడుతుంది. ఫలితాలను క్రింది పట్టిక సంగ్రహిస్తుంది:

మోడల్ మొత్తం సగటు భ్రమ హానికరత్వం పక్షపాతం & మూస అభిప్రాయాలు డెవలపర్
GPT-4o mini 63.93% 74.50% 77.29% 40.00%
Grok 2 65.15% 77.35% 91.44% 26.67% xAI
మిస్ట్రల్ లార్జ్ 66.00% 79.72% 89.38% 28.89% మిస్ట్రల్
మిస్ట్రల్ స్మాల్ 3.1 24B 67.88% 77.72% 90.91% 35.00% మిస్ట్రల్
లామా 3.3 70B 67.97% 73.41% 86.04% 44.44% మెటా
డీప్‌సీక్ V3 70.77% 77.91% 89.00% 45.39% డీప్‌సీక్
క్యూవెన్ 2.5 మాక్స్ 72.71% 77.12% 89.89% 51.11% అలీబాబా క్యూవెన్
GPT-4o 72.80% 83.89% 92.66% 41.85% OpenAI
డీప్‌సీక్ V3 (0324) 73.92% 77.86% 92.80% 51.11% డీప్‌సీక్
జెమిని 2.0 ఫ్లాష్ 74.89% 78.13% 94.30% 52.22% గూగుల్
జెమ్మా 3 27B 75.23% 69.90% 91.36% 64.44% గూగుల్
క్లాడ్ 3.7 సోనెట్ 75.53% 89.26% 95.52% 41.82% ఆంత్రోపిక్
క్లాడ్ 3.5 సోనెట్ 75.62% 91.09% 95.40% 40.37% ఆంత్రోపిక్
లామా 4 మేవెరిక్ 76.72% 77.02% 89.25% 63.89% మెటా
లామా 3.1 405B 77.59% 75.54% 86.49% 70.74% మెటా
క్లాడ్ 3.5 హైకు 82.72% 86.97% 95.36% 65.81% ఆంత్రోపిక్
జెమిని 1.5 ప్రో 87.29% 87.06% 96.84% 77.96% గూగుల్

బెంచ్మార్క్ ప్రస్తుత AI ల్యాండ్స్కేప్ను సూచించడానికి జాగ్రత్తగా ఎంపిక చేయబడిన 17 విస్తృతంగా ఉపయోగించే నమూనాలను కలిగి ఉంది. గిస్కార్డ్ ప్రయోగాత్మక లేదా పూర్తికాని సంస్కరణల కంటే స్థిరమైన మరియు విస్తృతంగా స్వీకరించబడిన నమూనాలను మూల్యాంకనం చేయడానికి ప్రాధాన్యతనిచ్చింది, ఫలితాల యొక్క ఔచిత్యం మరియు విశ్వసనీయతను నిర్ధారిస్తుంది. ఈ విధానం ప్రధానంగా తార్కిక పనుల కోసం రూపొందించిన నమూనాలను మినహాయిస్తుంది, ఎందుకంటే అవి ఈ బెంచ్మార్క్ యొక్క ప్రధాన దృష్టి కాదు.

అన్ని వర్గాలలో చెత్త పనితీరు కనబరిచే వాటిని గుర్తించడం

ఫేర్ బెంచ్మార్క్ యొక్క ప్రారంభ ఫలితాలు చాలావరకు ఉన్న సమాజ అవగాహనలు మరియు అభిప్రాయాలతో సమలేఖనం అవుతాయి. పరీక్షించిన 17 నమూనాలలో మొదటి ఐదు "చెత్త" పనితీరు కనబరిచిన నమూనాలలో GPT-4o mini, Grok 2, మిస్ట్రల్ లార్జ్, మిస్ట్రల్ స్మాల్ 3.1 24B మరియు లామా 3.3 70B ఉన్నాయి. దీనికి విరుద్ధంగా, ఉత్తమ పనితీరును ప్రదర్శించే నమూనాలలో జెమిని 1.5 ప్రో, క్లాడ్ 3.5 హైకు మరియు లామా 3.1 405B ఉన్నాయి.

భ్రమ హాట్‌స్పాట్‌లు: సమాచారాన్ని కల్పించడానికి అవకాశం ఉన్న నమూనాలు

భ్రమ కొలమానాన్ని మాత్రమే పరిగణనలోకి తీసుకుంటే, జెమ్మా 3 27B, లామా 3.3 70B, GPT-4o mini, లామా 3.1 405B మరియు లామా 4 మేవెరిక్ తప్పుడు లేదా తప్పుదోవ పట్టించే సమాచారాన్ని ఉత్పత్తి చేయడానికి ఎక్కువగా అవకాశం ఉన్న నమూనాలుగా కనిపిస్తాయి. దీనికి విరుద్ధంగా, ఆంత్రోపిక్ ఈ విషయంలో బలాన్ని ప్రదర్శిస్తుంది, దాని నమూనాలలో మూడు తక్కువ భ్రమ రేట్లను ప్రదర్శిస్తాయి: క్లాడ్ 3.5 సోనెట్, క్లాడ్ 3.7 సోనెట్ మరియు క్లాడ్ 3.5 హైకు, జెమిని 1.5 ప్రో మరియు GPT-4o లతో పాటు.

ప్రమాదకరమైన కంటెంట్ ఉత్పత్తి: బలహీనమైన రక్షణలతో కూడిన నమూనాలు

ప్రమాదకరమైన లేదా హానికరమైన కంటెంట్ ఉత్పత్తికి సంబంధించి (సమస్యాత్మక ఇన్పుట్లను గుర్తించి తగిన విధంగా స్పందించే నమూనా యొక్క సామర్థ్యాన్ని అంచనా వేయడం), GPT-4o mini పేలవంగా పనిచేస్తుంది, తరువాత లామా 3.3 70B, లామా 3.1 405B, డీప్‌సీక్ V3 మరియు లామా 4 మేవెరిక్ ఉన్నాయి. మరోవైపు, జెమిని 1.5 ప్రో స్థిరంగా ఉత్తమ పనితీరును ప్రదర్శిస్తుంది, తరువాత ఆంత్రోపిక్ యొక్క మూడు నమూనాలు (క్లాడ్ 3.7 సోనెట్, క్లాడ్ 3.5 సోనెట్ మరియు క్లాడ్ 3.5 హైకు) మరియు జెమిని 2.0 ఫ్లాష్ ఉన్నాయి.

పక్షపాతం మరియు మూస అభిప్రాయాలు: నిరంతర సవాలు

LLM లలో పక్షపాతం మరియు మూస అభిప్రాయాల ఉనికి అనేది మెరుగుదల అవసరమయ్యే ముఖ్యమైన ప్రాంతంగా మిగిలిపోయింది. ఫేర్ బెంచ్మార్క్ ఫలితాలు LLM లు ఇప్పటికీ వాటి అవుట్పుట్లలో గుర్తించదగిన పక్షపాతాలను మరియు మూస అభిప్రాయాలను ప్రదర్శిస్తున్నాయని సూచిస్తున్నాయి. గ్రోక్ 2 ఈ వర్గంలో చెత్త స్కోరును అందుకుంది, తరువాత మిస్ట్రల్ లార్జ్, మిస్ట్రల్ స్మాల్ 3.1 24B, GPT-4o mini మరియు క్లాడ్ 3.5 సోనెట్ ఉన్నాయి. దీనికి విరుద్ధంగా, జెమిని 1.5 ప్రో ఉత్తమ స్కోర్లను సాధించింది, తరువాత లామా 3.1 405B, క్లాడ్ 3.5 హైకు, జెమ్మా 3 27B మరియు లామా 4 మేవెరిక్ ఉన్నాయి.

మోడల్ పరిమాణం విషపూరిత కంటెంట్ ఉత్పత్తిని ప్రభావితం చేసినప్పటికీ (చిన్న నమూనాలు ఎక్కువ "హానికరమైన" అవుట్పుట్లను ఉత్పత్తి చేస్తాయి), పారామితుల సంఖ్య మాత్రమే నిర్ణయాధికారి కాదు. గిస్కార్డ్ యొక్క CTO అయిన మాటియో డోరా ప్రకారం, "వినియోగదారు పదాల పట్ల సున్నితత్వం వివిధ ప్రొవైడర్ల మధ్య గణనీయంగా మారుతుందని మా విశ్లేషణలు చూపిస్తున్నాయి. ఉదాహరణకు, ఆంత్రోపిక్ యొక్క నమూనాలు వాటి పరిమాణంతో సంబంధం లేకుండా, వారి పోటీదారులతో పోలిస్తే ప్రశ్నలు అడిగే విధానం ద్వారా తక్కువ ప్రభావితమవుతాయి. ప్రశ్న అడిగే విధానం (సంక్షిప్త లేదా వివరణాత్మక సమాధానం కోరడం) కూడా వివిధ ప్రభావాలను చూపుతుంది. ఇది మానవ అభిప్రాయం (RLHF) నుండి ఉపబల అభ్యాసం వంటి నిర్దిష్ట శిక్షణా పద్ధతులు పరిమాణం కంటే ముఖ్యమైనవని నమ్మడానికి దారితీస్తుంది."

LLMలను మూల్యాంకనం చేయడానికి ఒక బలమైన విధానం

ఫేర్ LLMలను అంచనా వేయడానికి ఖచ్చితమైన పద్ధతిని ఉపయోగిస్తుంది, సుమారు 6,000 సంభాషణల యొక్క ప్రైవేట్ డేటాసెట్ను ఉపయోగిస్తుంది. మోడల్ శిక్షణ యొక్క తారుమారుని నిరోధిస్తూ పారదర్శకతను నిర్ధారించడానికి, సుమారు 1,600 నమూనాల ఉపసమితిని హగ్గింగ్ ఫేస్లో బహిరంగంగా అందుబాటులో ఉంచారు. పరిశోధకులు బహుళ భాషలలో (ఫ్రెంచ్, ఇంగ్లీష్, స్పానిష్) డేటాను సేకరించారు మరియు వాస్తవ ప్రపంచ దృశ్యాలను ప్రతిబింబించే పరీక్షలను రూపొందించారు.

బెంచ్మార్క్ ప్రతి కొలమానం కోసం వివిధ ఉప-పనులను అంచనా వేస్తుంది:

భ్రమ

  • వాస్తవికత (Factuality): సాధారణ జ్ఞాన ప్రశ్నలకు వాస్తవ సమాధానాలను ఉత్పత్తి చేయడానికి నమూనా యొక్క సామర్థ్యం.
  • తప్పుడు సమాచారంతో ఖచ్చితత్వం (Accuracy with False Information): తప్పుడు అంశాలను కలిగి ఉన్న సూచనలకు ప్రతిస్పందించేటప్పుడు ఖచ్చితమైన సమాచారాన్ని అందించడానికి నమూనా యొక్క సామర్థ్యం.
  • సందేహాస్పద దావాలను నిర్వహించడం (Handling Dubious Claims): సందేహాస్పద దావాలను (సూడోసైన్స్, కుట్ర సిద్ధాంతాలు) ప్రాసెస్ చేయడానికి నమూనా యొక్క సామర్థ్యం.
  • భ్రమ లేకుండా సాధన వినియోగం (Tool Usage without Hallucination): తప్పుడు సమాచారాన్ని ఉత్పత్తి చేయకుండా సాధనాలను ఉపయోగించడానికి నమూనా యొక్క సామర్థ్యం.

హానికరత్వం

పరిశోధకులు సంభావ్య ప్రమాదకరమైన పరిస్థితులను గుర్తించడానికి మరియు తగిన హెచ్చరికలను అందించడానికి నమూనా యొక్క సామర్థ్యాన్ని మూల్యాంకనం చేశారు.

పక్షపాతం & న్యాయబద్ధత

బెంచ్మార్క్ దాని స్వంత అవుట్పుట్లలో ఉత్పత్తి చేయబడిన పక్షపాతాలను మరియు మూస అభిప్రాయాలను గుర్తించడానికి నమూనా యొక్క సామర్థ్యంపై దృష్టి పెడుతుంది.

ప్రముఖ AI సంస్థలతో సహకారం

LLMలను ఉపయోగించడానికి ప్రయత్నిస్తున్న సంస్థలకు కీలకమైన కొలమానాలపై ప్రత్యక్ష దృష్టిని కేంద్రీకరించడం ద్వారా ఫేర్ యొక్క ప్రాముఖ్యత మరింత పెరిగింది. ప్రతి నమూనాకు సంబంధించిన వివరణాత్మక ఫలితాలు గిస్కార్డ్ వెబ్‌సైట్‌లో బహిరంగంగా అందుబాటులో ఉన్నాయి, ఉప-పనుల ద్వారా విచ్ఛిన్నాలు ఉన్నాయి. ఈ బెంచ్మార్క్కు BPI (ఫ్రెంచ్ పబ్లిక్ ఇన్వెస్ట్మెంట్ బ్యాంక్) మరియు యూరోపియన్ కమిషన్ ఆర్థికంగా మద్దతు ఇస్తున్నాయి. గిస్కార్డ్ ప్రాజెక్ట్ యొక్క సాంకేతిక అంశాలపై మిస్ట్రల్ AI మరియు డీప్మైండ్తో కూడా భాగస్వామ్యం కలిగి ఉంది. వినియోగం కోసం LMEval ఫ్రేమ్వర్క్ డీప్మైండ్లోని జెమ్మా బృందంతో ప్రత్యక్ష సహకారంతో అభివృద్ధి చేయబడింది, డేటా గోప్యత మరియు భద్రతను నిర్ధారిస్తుంది.

ముందుకు చూస్తే, గిస్కార్డ్ బృందం ఫేర్‌కు రెండు ముఖ్య లక్షణాలను జోడించాలని యోచిస్తోంది: "బహుశా జూన్ నాటికి, మేము జైల్‌బ్రేక్‌లకు మరియు ప్రాంప్ట్ ఇంజెక్షన్లకు నిరోధకతను అంచనా వేయడానికి ఒక మాడ్యూల్‌ను జోడిస్తాము," అని మాటియో డోరా చెప్పారు. అదనంగా, పరిశోధకులు తాజా స్థిరమైన నమూనాలతో లీడర్‌బోర్డ్‌ను నవీకరించడం కొనసాగిస్తారు, గ్రోక్ 3, క్యూవెన్ 3 మరియు బహుశా GPT-4.1 కూడా దృష్టిలో ఉన్నాయి.