Utafiti wa hivi majuzi uliofanywa na kampuni mpya ya Ufaransa, Giskard, umeangazia upungufu mkubwa wa baadhi ya mifumo ya lugha (LLMs) inayotumika sana katika ulimwengu wa akili bandia. Utafiti huu unachunguza kwa kina uwezo wa mifumo hii kutoa maudhui yenye madhara, kuzua habari za uongo, na kuonyesha aina mbalimbali za ubaguzi katika majibu yao.
Kutambua LLMs Hatari Zaidi: Tathmini Kamili
Kigezo cha Giskard, kilichotolewa mwezi Aprili, kinachunguza hatari zinazoweza kuhusishwa na LLMs, kikitoa tathmini ya kuaminika ya tabia yao ya kubuni habari, kutoa matokeo yenye sumu, na kuonyesha mitazamo yenye ubaguzi au dhana potofu. Matokeo ya utafiti huu yanatoa maarifa muhimu kwa wasanidi programu, watafiti, na mashirika yanayotaka kupeleka mifumo ya AI kwa uwajibikaji.
Kigezo hiki kinachunguza kwa kina vipengele kadhaa muhimu vya utendaji wa LLM, ikiwa ni pamoja na:
- Udanganyifu (Hallucination): Tabia ya mfumo kutoa habari za uongo au zisizo na maana.
- Uharibifu (Harmfulness): Tabia ya mfumo kutoa maudhui hatari, yenye kukera, au yasiyofaa.
- Ubaguzi na Dhana Potofu (Bias and Stereotypes): Mwelekeo wa mfumo kuendeleza mitazamo isiyo ya haki au ya kibaguzi.
Kwa kutathmini vipengele hivi, kigezo cha Giskard kinatoa tathmini kamili ya hatari ya jumla inayohusishwa na LLMs tofauti.
Kupanga LLMs Zenye Kasoro Kubwa Zaidi
Matokeo ya utafiti yanaonyesha orodha ya LLMs kulingana na utendaji wao katika vipimo muhimu. Kadiri alama inavyokuwa chini, ndivyo mfumo unavyoonekana kuwa na matatizo zaidi. Jedwali hapa chini linafupisha matokeo:
Model | Overall Average | Hallucination | Harmfulness | Bias & Stereotypes | Developer |
---|---|---|---|---|---|
GPT-4o mini | 63.93% | 74.50% | 77.29% | 40.00% | |
Grok 2 | 65.15% | 77.35% | 91.44% | 26.67% | xAI |
Mistral Large | 66.00% | 79.72% | 89.38% | 28.89% | Mistral |
Mistral Small 3.1 24B | 67.88% | 77.72% | 90.91% | 35.00% | Mistral |
Llama 3.3 70B | 67.97% | 73.41% | 86.04% | 44.44% | Meta |
Deepseek V3 | 70.77% | 77.91% | 89.00% | 45.39% | Deepseek |
Qwen 2.5 Max | 72.71% | 77.12% | 89.89% | 51.11% | Alibaba Qwen |
GPT-4o | 72.80% | 83.89% | 92.66% | 41.85% | OpenAI |
Deepseek V3 (0324) | 73.92% | 77.86% | 92.80% | 51.11% | Deepseek |
Gemini 2.0 Flash | 74.89% | 78.13% | 94.30% | 52.22% | |
Gemma 3 27B | 75.23% | 69.90% | 91.36% | 64.44% | |
Claude 3.7 Sonnet | 75.53% | 89.26% | 95.52% | 41.82% | Anthropic |
Claude 3.5 Sonnet | 75.62% | 91.09% | 95.40% | 40.37% | Anthropic |
Llama 4 Maverick | 76.72% | 77.02% | 89.25% | 63.89% | Meta |
Llama 3.1 405B | 77.59% | 75.54% | 86.49% | 70.74% | Meta |
Claude 3.5 Haiku | 82.72% | 86.97% | 95.36% | 65.81% | Anthropic |
Gemini 1.5 Pro | 87.29% | 87.06% | 96.84% | 77.96% |
Kigezo hicho kilijumuisha mifumo 17 inayotumika sana, iliyochaguliwa kwa uangalifu ili kuwakilisha mandhari ya sasa ya AI. Giskard alitanguliza kutathmini mifumo iliyo imara na iliyokubaliwa sana badala ya matoleo ya majaribio au ambayo hayajakamilika, kuhakikisha umuhimu na uaminifu wa matokeo. Mbinu hii haijumuishi mifumo ambayo imeundwa kimsingi kwa kazi za hoja, kwani sio lengo kuu la kigezo hiki.
Kutambua Wafanyikazi Wabaya Zaidi Katika Aina Zote
Matokeo ya awali ya kigezo cha Phare yanaendana kwa kiasi kikubwa na mitazamo na maoni yaliyopo ya jamii. Mifumo mitano ya "kibaya" zaidi (kati ya 17 iliyojaribiwa) ni pamoja na GPT-4o mini, Grok 2, Mistral Large, Mistral Small 3.1 24B, na Llama 3.3 70B. Kinyume chake, mifumo inayoonyesha utendaji bora zaidi ni pamoja na Gemini 1.5 Pro, Claude 3.5 Haiku, na Llama 3.1 405B.
Maeneo Hatari ya Udanganyifu: Mifumo Inayokabiliwa na Kubuni Habari
Wakati wa kuzingatia tu kipimo cha udanganyifu, Gemma 3 27B, Llama 3.3 70B, GPT-4o mini, Llama 3.1 405B, na Llama 4 Maverick zinaibuka kama mifumo inayokabiliwa zaidi na kutoa habari za uongo au za kupotosha. Tofauti na hayo, Anthropic inaonyesha nguvu katika eneo hili, huku mifumo yake mitatu ikionyesha viwango vya chini kabisa vya udanganyifu: Claude 3.5 Sonnet, Claude 3.7 Sonnet, na Claude 3.5 Haiku, pamoja na Gemini 1.5 Pro na GPT-4o.
Uzalishaji wa Maudhui Hatari: Mifumo Yenye Kinga Dhaifu
Kuhusu uzalishaji wa maudhui hatari au yenye madhara (kutathmini uwezo wa mfumo kutambua ingizo zenye matatizo na kujibu ipasavyo), GPT-4o mini hufanya vibaya zaidi, ikifuatiwa na Llama 3.3 70B, Llama 3.1 405B, Deepseek V3, na Llama 4 Maverick. Kwa upande mwingine, Gemini 1.5 Pro huonyesha utendaji bora zaidi kila wakati, ikifuatiwa kwa karibu na mifumo mitatu ya Anthropic (Claude 3.7 Sonnet, Claude 3.5 Sonnet, na Claude 3.5 Haiku) na Gemini 2.0 Flash.
Ubaguzi na Dhana Potofu: Changamoto Endelevu
Uwepo wa ubaguzi na dhana potofu katika LLMs bado ni eneo muhimu linalohitaji uboreshaji. Matokeo ya kigezo cha Phare yanaonyesha kuwa LLMs bado zinaonyesha ubaguzi na dhana potofu zilizo wazi katika matokeo yao. Grok 2 inapokea alama mbaya zaidi katika kitengo hiki, ikifuatiwa na Mistral Large, Mistral Small 3.1 24B, GPT-4o mini, na Claude 3.5 Sonnet. Kinyume chake, Gemini 1.5 Pro inapata alama bora zaidi, ikifuatiwa na Llama 3.1 405B, Claude 3.5 Haiku, Gemma 3 27B, na Llama 4 Maverick.
Ingawa ukubwa wa mfumo unaweza kuathiri uzalishaji wa maudhui yenye sumu (mifumo midogo huwa inatoa matokeo "yenye madhara" zaidi), idadi ya vigezo sio uamuzi pekee. Kulingana na Matteo Dora, CTO wa Giskard, "Uchambuzi wetu unaonyesha kuwa unyeti kwa maneno ya mtumiaji unatofautiana sana kati ya watoa huduma tofauti. Kwa mfano, mifumo ya Anthropic inaonekana kuathiriwa kidogo na jinsi maswali yanavyoulizwa ikilinganishwa na washindani wao, bila kujali ukubwa wao. Njia ya kuuliza swali (kuomba jibu fupi au la kina) pia ina athari tofauti. Hii inatupeleka kuamini kwamba mbinu maalum za mafunzo, kama vile kujifunza kwa uimarishaji kutoka kwa maoni ya kibinadamu (RLHF), ni muhimu zaidi kuliko ukubwa."
Mbinu Imara ya Kutathmini LLMs
Phare hutumia mbinu madhubuti kutathmini LLMs, ikitumia hifadhidata ya faragha ya takriban mazungumzo 6,000. Ili kuhakikisha uwazi huku ikizuia uendeshaji wa mafunzo ya mfumo, sehemu ndogo ya takriban sampuli 1,600 imefanywa kupatikana hadharani kwenye Hugging Face. Watafiti walikusanya data katika lugha nyingi (Kifaransa, Kiingereza, Kihispania) na wakaandaa majaribio ambayo yanaonyesha matukio halisi ya ulimwengu.
Kigezo kinatathmini kazi ndogo ndogo kadhaa kwa kila kipimo:
Udanganyifu
- Ukweli: Uwezo wa mfumo kutoa majibu ya kweli kwa maswali ya maarifa ya jumla.
- Usahihi na Habari za Uongo: Uwezo wa mfumo kutoa habari sahihi wakati wa kujibu maswali yaliyo na vipengele vya uongo.
- Kushughulikia Madai Yanayotiliwa Shaka: Uwezo wa mfumo kuchakata madai yanayotiliwa shaka (sayansi bandia, nadharia za njama).
- Matumizi ya Zana bila Udanganyifu: Uwezo wa mfumo kutumia zana bila kutoa habari za uongo.
Uharibifu
Watafiti walitathmini uwezo wa mfumo kutambua hali zinazoweza kuwa hatari na kutoa maonyo sahihi.
Ubaguzi na Haki
Kigezo kinazingatia uwezo wa mfumo kutambua ubaguzi na dhana potofu zinazozalishwa katika matokeo yake yenyewe.
Ushirikiano na Mashirika Yanayoongoza ya AI
Umuhimu wa Phare unaimarishwa zaidi na mwelekeo wake wa moja kwa moja kwenye vipimo muhimu kwa mashirika yanayotaka kutumia LLMs. Matokeo ya kina kwa kila mfumo yanapatikana hadharani kwenye tovuti ya Giskard, pamoja na uchanganuzi kwa kila kazi ndogo. Kigezo hicho kinaungwa mkono kifedha na BPI (Benki ya Uwekezaji ya Umma ya Ufaransa) na Tume ya Ulaya. Giskard pia imeshirikiana na Mistral AI na DeepMind katika vipengele vya kiufundi vya mradi huo. Mfumo wa LMEval wa matumizi ulitengenezwa kwa ushirikiano wa moja kwa moja na timu ya Gemma huko DeepMind, kuhakikisha faragha na usalama wa data.
Tukiangalia mbele, timu ya Giskard inapanga kuongeza vipengele viwili muhimu kwenye Phare: "Pengine kufikia Juni, tutaongeza moduli ya kutathmini upinzani dhidi ya udukuzi na uingizaji wa haraka," anasema Matteo Dora. Zaidi ya hayo, watafiti wataendelea kusasisha ubao wa wanaoongoza na mifumo thabiti ya hivi karibuni, huku Grok 3, Qwen 3, na uwezekano wa GPT-4.1 zikiwa kwenye upeo wa macho.