Kufikiria Upya Vipimo vya AI: Utafutaji wa Vipimo Muhimu

Jumuiya ya AI inakabiliana na swali hili huku vipimo vya jadi vinakabiliwa na uchunguzi unaoongezeka.

SWE-Bench, iliyoanzishwa Novemba 2024, ilipata umaarufu haraka kama chombo maarufu cha kutathmini uwezo wa kuweka misimbo wa kielelezo cha AI. Inatumia zaidi ya changamoto 2,000 halisi za programu zilizotolewa kutoka kwa hazina za umma za GitHub katika miradi kadhaa ya Python. Alama thabiti ya SWE-Bench imekuwa beji inayotamaniwa, iliyoonyeshwa wazi katika matoleo makuu ya kielelezo kutoka kwa watengenezaji wakuu wa AI kama vile OpenAI, Anthropic, na Google. Zaidi ya makampuni haya makubwa, makampuni ya AI yanayo utaalam katika urekebishaji mzuri hushindana kila mara kwa ubora kwenye ubao wa wanaoongoza wa SWE-Bench.

Hata hivyo, shauku inayozunguka vipimo hivi inaweza kupotosha. John Yang, mtafiti katika Chuo Kikuu cha Princeton anayehusika katika maendeleo ya SWE-Bench, anabainisha kuwa ushindani mkali wa nafasi ya juu umesababisha “kucheza” mfumo. Hii inazua wasiwasi kuhusu kama vipimo hivi vinaonyesha kwa usahihi mafanikio halisi ya AI.

Suala sio lazima udanganyifu wa wazi, lakini badala yake maendeleo ya mikakati iliyoundwa mahsusi kutumia mapungufu ya kipimo. Kwa mfano, SWE-Bench ya awali ililenga tu msimbo wa Python, ikiwapa watengenezaji motisha ya kutoa mafunzo kwa vielelezo vyao pekee kwenye Python. Yang aliona kuwa vielelezo hivi vya alama za juu mara nyingi vilishindwa vilipokabilishwa na lugha tofauti za programu, na kufichua uelewa wa juu ambao anaufafanua kama “uliopambwa.”

"Inaonekana nzuri na kung’aa mwanzoni, lakini kisha unajaribu kuiendesha kwa lugha tofauti na jambo zima linaanguka tu," Yang anaelezea. "Katika hatua hiyo, haundesaini mtaalamu wa uhandisi wa programu. Unaendesaini kufanya wakala wa SWE-Bench, ambayo haipendezi sana."

"Suala la SWE-Bench" hili linaonyesha changamoto pana katika tathmini ya AI. Vipimo, vilivyochukuliwa kuwa viashiria vya kuaminika vya maendeleo, vinazidi kutengwa na uwezo wa ulimwengu halisi. Kuchanganya tatizo, wasiwasi kuhusu uwazi umejitokeza, na kupunguza zaidi uaminifu katika metriki hizi. Pamoja na masuala haya, vipimo vinaendelea kuchukua jukumu muhimu katika maendeleo ya kielelezo, ingawa wataalam wengi wanahoji thamani yao ya asili. Mwanzilishi mwenza wa OpenAI Andrej Karpathy hata ametaja hali ya sasa kama "mgogoro wa tathmini," akilalamika ukosefu wa mbinu za kuaminika za kupima uwezo wa AI na ukosefu wa njia wazi ya kusonga mbele.

Vanessa Parli, mkurugenzi wa utafiti katika Taasisi ya Chuo Kikuu cha Stanford ya AI Inayomlenga Mwanadamu, anauliza, "Kihistoria, vipimo vilikuwa njia tuliyotathmini mifumo ya AI. Je, hiyo ndiyo njia tunayotaka kutathmini mifumo inayoendelea? Na ikiwa sivyo, njia gani?"

Kikundi kinachokua cha wasomi na watafiti wa AI kinatetea mbinu iliyolenga zaidi, ikichota msukumo kutoka kwa sayansi ya jamii. Wanapendekeza kuweka kipaumbele "uhalali," dhana muhimu kwa sayansi ya jamii ya kiasi, ambayo inatathmini jinsi chombo cha kupimia kinavyotekeleza kwa usahihi muundo uliokusudiwa. Msisitizo huu juu ya uhalali unaweza kupinga vipimo vinavyotathmini dhana zilizoainishwa kwa ulegevu kama vile "kutoa hoja" au "ujuzi wa kisayansi." Ingawa inaweza kupunguza ufuatiliaji wa akili bandia ya jumla (AGI), itatoa msingi thabiti zaidi wa kutathmini vielelezo vya mtu binafsi.

Abigail Jacobs, profesa katika Chuo Kikuu cha Michigan na sauti inayoongoza katika msukumo wa uhalali, anasema, "Kuchukua uhalali kwa uzito kunamaanisha kuuliza watu katika taaluma, tasnia, au popote pale kuonyesha kwamba mfumo wao unafanya kile wanachosema unafanya. Nadhani inaonyesha udhaifu katika ulimwengu wa AI ikiwa wanataka kurudi nyuma kutoka kuonyesha kwamba wanaweza kuunga mkono madai yao."

Mipaka ya Upimaji wa Jadi

Kutegemea kwa tasnia ya AI juu ya vipimo kunatokana na mafanikio yao ya zamani, haswa katika changamoto kama ImageNet.

ImageNet, iliyozinduliwa mnamo 2010, iliwasilisha watafiti na hifadhidata ya zaidi ya picha milioni 3 zilizogawanywa katika madarasa 1,000 tofauti. Changamoto ilikuwa ya kimbinu-agnostiki, ikiruhusu algorithm yoyote iliyofanikiwa kupata uaminifu bila kujali mbinu yake ya msingi. Mafanikio ya AlexNet mnamo 2012, ambayo ilitumia aina isiyo ya kawaida ya mafunzo ya GPU, ikawa msingi wa AI ya kisasa. Ingawa wachache wangeweza kutabiri kwamba mitandao ya neva ya convolutional ya AlexNet itafungua utambuzi wa picha, alama yake ya juu ilituliza mashaka yoyote. (Hasa, mmoja wa watengenezaji wa AlexNet aliendelea kuanzisha OpenAI.)

Ufanisi wa ImageNet ulitokana na upatanisho wa karibu kati ya changamoto na kazi za utambuzi wa picha za ulimwengu halisi. Hata kwa mijadala kuhusu mbinu, kielelezo cha alama za juu zaidi mara kwa mara kilionyesha utendaji bora katika matumizi ya vitendo.

Hata hivyo, katika miaka iliyofuata, watafiti wa AI wametumia mbinu hii sawa ya kimbinu-agnostiki kwa kazi za jumla zinazoongezeka. SWE-Bench, kwa mfano, mara nyingi hutumiwa kama wakala wa uwezo mpana wa kuweka misimbo, wakati vipimo vingine vya mtindo wa mtihani hutumiwa kupima uwezo wa kutoa hoja. Upeo huu mpana unafanya iwe vigumu kufafanua kwa ukali kile ambacho kipimo maalum kinapima, na hivyo kuzuia tafsiri inayowajibika ya matokeo.

Pale Mambo Yanapoanguka

Anka Reuel, mwanafunzi wa PhD huko Stanford, anasema kwamba msukumo kuelekea ujumla ndio mzizi wa tatizo la tathmini. "Tumehamia kutoka kwa vielelezo maalum vya kazi hadi vielelezo vya jumla," Reuel anasema. "Sio kuhusu kazi moja tena lakini rundo zima la kazi, kwa hivyo tathmini inakuwa ngumu zaidi."

Kama Jacobs, Reuel anaamini kwamba "suala kuu na vipimo ni uhalali, hata zaidi ya utekelezaji wa vitendo," akibainisha: "Hapo ndipo mambo mengi yanaanguka." Kwa kazi ngumu kama kuweka misimbo, karibu haiwezekani kujumuisha kila hali inayoweza kufikirika katika seti ya tatizo. Kwa hivyo, inakuwa ngumu kutambua kama alama ya juu ya kielelezo inaonyesha ujuzi halisi wa kuweka misimbo au udanganyifu mzuri wa seti ya tatizo. Shinikizo kali la kufikia alama za rekodi huendeleza zaidi njia za mkato.

Watengenezaji wanatumai kuwa mafanikio katika wingi wa vipimo maalum yatatafsiriwa kuwa kielelezo chenye uwezo kwa ujumla. Hata hivyo, kuongezeka kwa AI ya wakala, ambapo mfumo mmoja unaweza kujumuisha safu tata ya vielelezo, hufanya iwe vigumu kutathmini kama maboresho kwenye kazi maalum yatakuwa ya jumla. "Kuna vifundo vingi zaidi ambavyo unaweza kugeuza," anasema Sayash Kapoor, mwanasayansi wa kompyuta huko Princeton na mkosoaji wa mazoea mabaya katika tasnia ya AI. "Linapokuja suala la mawakala, wameachana na mazoea bora ya tathmini."

Katika karatasi iliyochapishwa Julai iliyopita, Kapoor aliangazia masuala mahususi na jinsi vielelezo vya AI vilivyoshughulikia kipimo cha WebArena mnamo 2024, ambacho kinajaribu uwezo wa wakala wa AI wa kuvinjari wavuti. Kipimo hicho kina zaidi ya kazi 800 zinazofanywa kwenye tovuti zilizounganishwa zinazoiga Reddit, Wikipedia, na zingine. Kapoor na timu yake waligundua kuwa kielelezo kilichoshinda, STeP, kilitumia muundo wa URL za Reddit kufikia moja kwa moja kurasa za wasifu wa mtumiaji, mahitaji ya mara kwa mara katika kazi za WebArena.

Ingawa sio udanganyifu wa moja kwa moja, Kapoor anachukulia hii kama "uwakilishi mbaya mbaya wa jinsi wakala angefanya kazi ikiwa angeona kazi katika WebArena kwa mara ya kwanza." Lichaya hili, wakala wa wavuti wa OpenAI, Operator, tangu wakati huo amepitisha sera sawa.

Kuonyesha zaidi matatizo na vipimo vya AI, Kapoor na timu ya watafiti hivi karibuni walichapisha karatasi iliyoonyesha masuala makubwa katika Chatbot Arena, mfumo maarufu wa tathmini uliofadhiliwa na umati. Matokeo yao yalionyesha kuwa ubao wa wanaoongoza ulikuwa ukidanganywa, huku vielelezo vingine vya msingi vya juu vikishiriki katika upimaji wa faragha usiojulikana na kuchagua kutoa alama zao.

Hata ImageNet, kipimo kilichoanzisha yote, sasa inakabiliwa na matatizo ya uhalali. Utafiti wa 2023 uliofanywa na watafiti katika Chuo Kikuu cha Washington na Google Research uligundua kuwa algoriti zilizoshinda za ImageNet zilionyesha "maendeleo kidogo au hakuna" zinapotumiwa kwa seti sita za data za ulimwengu halisi, na kupendekeza kuwa uhalali wa nje wa jaribio ulikuwa umefikia kikomo chake.

Kwenda Ndogo

Ili kushughulikia tatizo la uhalali, watafiti wengine wanapendekeza kuunganisha tena vipimo na kazi maalum. Kama Reuel anavyosema, watengenezaji wa AI "wanapaswa kutumia vipimo hivi vya kiwango cha juu ambavyo karibu havina maana kwa watumiaji wa mwisho, kwa sababu watengenezaji wa kipimo hawawezi kutarajia kazi ya mwisho tena."

Mnamo Novemba 2024, Reuel alizindua BetterBench, mradi wa orodha ya umma ambayo hutathmini vipimo kulingana na vigezo mbalimbali, ikiwa ni pamoja na uwazi wa hati za msimbo na, muhimu, uhalali wa kipimo katika kupima uwezo wake uliotajwa. BetterBench inawapa wabunifu changamoto kufafanua kwa uwazi kile ambacho vipimo vyao vinajaribu na jinsi inavyohusiana na kazi ambazo zinajumuisha kipimo.

"Unahitaji kuwa na uchambuzi wa kimuundo wa uwezo," Reuel anasema. "Je, ni ujuzi gani halisi unayojali, na unawezaje kuifanya iwe kitu tunachoweza kupima?"

Matokeo yanaonyesha. Mazingira ya Kujifunza ya Arcade (ALE), yaliyoanzishwa mnamo 2013 ili kujaribu uwezo wa vielelezo wa kujifunza jinsi ya kucheza michezo ya Atari 2600, yanaibuka kama moja ya vipimo vya alama za juu zaidi. Kinyume chake, kipimo cha Uelewa Mkubwa wa Lugha nyingi (MMLU), jaribio linalotumiwa sana kwa ujuzi wa jumla wa lugha, hupokea moja ya alama za chini zaidi kutokana na uhusiano uliofafanuliwa vibaya kati ya maswali na ujuzi wa msingi.

Ingawa BetterBench bado haijaathiri kwa kiasi kikubwa sifa za vipimo maalum, imefanikiwa kuleta uhalali mbele ya majadiliano kuhusu jinsi ya kuboresha vipimo vya AI. Reuel amejiunga na kikundi kipya cha utafiti kilichoandaliwa na Hugging Face, Chuo Kikuu cha Edinburgh, na EleutherAI, ambapo ataendeleza zaidi mawazo yake juu ya uhalali na tathmini ya kielelezo cha AI.

Irene Solaiman, mkuu wa sera za kimataifa wa Hugging Face, anasema kikundi hicho kitalenga kujenga vipimo halali ambavyo vinaenda zaidi ya kupima uwezo wa moja kwa moja. "Kuna njaa nyingi sana ya kipimo kizuri kutoka kwenye rafu ambacho tayari kinafanya kazi," Solaiman anasema. "Tathmini nyingi zinajaribu kufanya mengi sana."

Tasnia pana inaonekana kukutana kwenye mtazamo huu. Katika karatasi iliyochapishwa mwezi Machi, watafiti kutoka Google, Microsoft, Anthropic, na wengine walieleza mfumo mpya wa kuboresha tathmini, na uhalali kama msingi.

"Sayansi ya tathmini ya AI lazima," watafiti wanasema, "isogeze zaidi ya madai ya jumla ya ‘akili ya jumla’ kuelekea vipimo mahususi vya kazi na vinavyohusiana na ulimwengu halisi vya maendeleo."

Kupima Vitu “Vinavyoteleza”

Ili kuwezesha mabadiliko haya, watafiti wengine wanageukia zana za sayansi ya jamii. Karatasi ya msimamo wa Februari ilisema kuwa "kutathmini mifumo ya GenAI ni changamoto ya kipimo cha sayansi ya jamii," haswa kuchunguza jinsi mifumo ya uhalali wa sayansi ya jamii inaweza kutumika kwa vipimo vya AI.

Waandishi, hasa kutoka tawi la utafiti la Microsoft lakini pia ikiwa ni pamoja na wasomi kutoka Stanford na Chuo Kikuu cha Michigan, wanaashiria viwango ambavyo wanasayansi wa jamii hutumia kupima dhana zilizopingwa kama vile itikadi, demokrasia, na upendeleo wa vyombo vya habari. Inapotumiwa kwa vipimo vya AI, taratibu hizi hizo zinaweza kutoa njia ya kupima dhana kama vile "kutoa hoja" na "ustadi wa hesabu" bila kutumia mkuu wa jumla usio wazi.

Fasihi ya sayansi ya jamii inasisitiza umuhimu wa kufafanua kwa ukali dhana inayopimwa. Kwa mfano, jaribio lililoundwa kupima kiwango cha demokrasia katika jamii lazima kwanza lianzishe ufafanuzi wazi wa "jamii ya kidemokrasia" na kisha kuunda maswali yanayohusiana na ufafanuzi huo.

Ili kutumia hili kwa kipimo kama SWE-Bench, wabunifu watahitaji kuacha mbinu ya jadi ya kujifunza kwa mashine ya kukusanya matatizo ya programu kutoka GitHub na kuunda mpango wa kuhalalisha majibu. Badala yake, wangefafanua kwanza kile kipimo kinacholenga kupima (k.m., "uwezo wa kutatua masuala yaliyo alama katika programu"), kuvunja hiyo katika ujuzi mdogo (k.m., aina tofauti za matatizo au miundo ya programu), na kisha kuunda maswali ambayo yanashughulikia kwa usahihi ujuzi huo mdogo.

Kwa watafiti kama Jacobs, mabadiliko haya makubwa kutoka kwa jinsi watafiti wa AI kawaida wanavyokaribia vipimo ni kwa usahihi jambo. "Kuna kutolingana kati ya kile kinachotokea katika tasnia ya teknolojia na zana hizi kutoka kwa sayansi ya jamii," anasema. "Tuna miongo na miongo ya kufikiria juu ya jinsi tunavyotaka kupima vitu hivi vinavyoteleza kuhusu wanadamu."

Licha ya athari inayoongezeka ya mawazo haya katika jumuiya ya utafiti, ushawishi wao juu ya jinsi makampuni ya AI hutumia vipimo kwa kweli imekuwa polepole.

Matoleo ya hivi karibuni ya kielelezo kutoka OpenAI, Anthropic, Google, na Meta yanaendelea kutegemea sana vipimo vya ujuzi vya chaguo nyingi kama MMLU, mbinu yenyewe ambayo watafiti wa uhalali wanajaribu kuhamia zaidi. Matoleo ya kielelezo, kwa sehemu kubwa, bado yanazingatia kuonyesha ongezeko la akili ya jumla, na vipimo pana hutumiwa kuunga mkono madai haya.

Waangalizi wengine wanaona hii inaridhisha. Profesa wa Wharton Ethan Mollick anapendekeza kwamba vipimo, licha ya kuwa "vipimo vibaya vya vitu, pia ndivyo tulivyo navyo." Anaongeza, "Wakati huo huo, vielelezo vinazidi kuwa bora. Dhambi nyingi zinasamehewa na maendeleo ya haraka."

Kwa sasa, lengo la muda mrefu la tasnia juu ya akili bandia ya jumla inaonekana kuwa inafunika mbinu iliyolenga zaidi, yenye msingi wa uhalali. Mradi vielelezo vya AI vinaendelea kusonga mbele katika akili ya jumla, matumizi maalum yanaonekana kuwa ya kulazimisha kidogo, hata kama watendaji wanatumia zana ambazo hawaamini tena kikamilifu.

"Huu ndio kamba tunayotembea," anasema Solaiman wa Hugging Face. "Ni rahisi sana kutupa mfumo nje, lakini tathmini zinasaidia sana katika kuelewa vielelezo vyetu, hata kwa mapungufu haya."