Mgogoro wa Turing Test: AI Imeipita Kipimo?

Kufichua Udanganyifu wa Akili

Kwa miongo kadhaa, Turing Test imesimama kama alama muhimu, ingawa mara nyingi haieleweki vizuri, katika jitihada za kupima akili bandia. Iliyobuniwa na mwanachuoni mahiri Alan Turing, ilipendekeza changamoto rahisi lakini yenye uzito: je, mashine inaweza kumshawishi binadamu, kupitia mazungumzo ya maandishi pekee, kwamba nayo ni binadamu? Wengi wamefasiri mafanikio katika jaribio hili kama mwanzo wa fikra halisi za mashine, ishara kwamba akili za silicon hatimaye zilikuwa zikiakisi uwezo wetu wa utambuzi. Hata hivyo, tafsiri hii daima imekuwa imejaa mjadala, na maendeleo ya hivi karibuni yanayohusisha mifumo ya AI ya kisasa kama GPT-4.5 ya OpenAI yanalazimisha tathmini upya muhimu.

Utafiti wa kimapinduzi unaotoka Chuo Kikuu cha California huko San Diego unaweka mjadala huu wazi zaidi. Wasomi huko walifanya majaribio yaliyowakutanisha binadamu dhidi ya mifumo mikubwa ya lugha (LLMs) ya hali ya juu katika muundo wa kawaida wa Turing Test. Matokeo yalikuwa ya kushangaza: toleo jipya la OpenAI, linaloripotiwa kuwa GPT-4.5, halikufaulu tu; lilifanya vizuri zaidi, likithibitisha kuwa lenye kushawishi zaidi katika uigaji wake wa kibinadamu kuliko washiriki halisi wa kibinadamu walivyoweza kuthibitisha ubinadamu wao wenyewe. Hii inawakilisha hatua kubwa katika uwezo wa AI generativa kuunda majibu yanayohisi kuwa ya kibinadamu kweli. Hata hivyo, hata watafiti walio nyuma ya utafiti huu wanaonya dhidi ya kulinganisha umahiri huu wa mazungumzo na mafanikio ya akili bandia ya jumla (AGI) – lengo lisilofikiwa la kuunda mashine zenye uwezo wa utambuzi wa kiwango cha binadamu. Jaribio, inaonekana, linaweza kuwa linafunua zaidi kuhusu mipaka ya jaribio lenyewe, na dhana zetu wenyewe za kibinadamu, kuliko kuhusu asili halisi ya akili ya mashine.

Mabadiliko ya Kisasa kwenye Jaribio la Kale

Mvuto wa kudumu wa Turing Test upo katika urahisi wake wa kifahari. Turing aliona ‘mchezo wa kuiga’ unaohusisha wachezaji watatu: mhoji wa kibinadamu (jaji), shahidi wa kibinadamu, na shahidi wa kompyuta. Wakiwa wametengwa kutoka kwa kila mmoja, wakiwasiliana tu kupitia ujumbe wa maandishi, mashahidi wangejaribu kumshawishi jaji juu ya utambulisho wao wa kibinadamu. Jaji, akijua kwamba mshiriki mmoja ni mashine, lazima aamue ni yupi yupi. Umahiri wa mpangilio huu ni asili yake ya kulinganisha. Ikiwa jaji kwa makosa atatambua kompyuta kama binadamu, inaashiria sio tu utendaji wa kushawishi wa mashine bali pia uwezekano wa kushindwa kwa shahidi wa kibinadamu kuashiria vya kutosha ubinadamu wake mwenyewe, au labda kutoweza kwa jaji kutambua ishara hizo kwa usahihi. Inakuwa uchunguzi wa kuvutia wa mtazamo wa kibinadamu, imani, na ishara fiche tunazohusisha na kuwa binadamu, kama vile ilivyo kipimo cha uwezo wa kikokotozi.

Wakijenga juu ya msingi huu, watafiti wa UC San Diego, Cameron Jones na Benjamin Bergen, walitekeleza toleo la kisasa la jaribio hilo, wakitumia nguvu ya LLMs za kisasa na kuwahusisha wanafunzi wa shahada ya kwanza. Muundo wao wa majaribio ulifuata kwa karibu muundo wa njia tatu wa Turing. Wanafunzi walipangiwa majukumu kwa nasibu: wengine walifanya kama majaji, wengine kama mashahidi wa kibinadamu. Kila jaji alishiriki katika mazungumzo ya maandishi ya dakika tano, huru na ya wakati mmoja na shahidi wa kibinadamu na shahidi wa AI. Changamoto kwa jaji ilibaki ile ile: tambua mashine.

Ili kuchunguza uwezo wa AI ya sasa, mifumo kadhaa ilitumika kama shahidi wa kompyuta:

  • GPT-4.5 (Minimal Prompt): Toleo hili lilipokea maagizo ya msingi tu.
  • GPT-4.5 (PERSONA Prompt): Tofauti hii ilipewa mwongozo wa kina zaidi. Maagizo yaliielekeza AI kuchukua nafsi maalum – ile ya ‘kijana ambaye ni mpweke, mwenye ujuzi kuhusu utamaduni wa mtandao, na anayetumia misimu.’ Hii ililenga kupima uwezo wa AI kubadilika na kuiga aina maalum za watu.
  • GPT-4o: Mfumo mwingine maarufu wa OpenAI ulitumika kama kigezo cha kulinganisha.
  • Llama 3.1 405b: LLM yenye nguvu ya Meta Platforms ilijumuishwa ili kupanua wigo.
  • ELIZA: Programu ya chatbot ya msingi kutoka miaka ya 1960 ilijumuishwa kama udhibiti. Urahisi wake wa kiasi ulikusudiwa kusaidia kuamua ikiwa mafanikio yoyote ya LLMs yalitokana na programu ya kisasa au bahati nasibu tu na majaji wanaodanganyika kwa urahisi.

Mbinu hii ya mifumo mingi, pamoja na mwingiliano uliopangwa, wa muda na ulinganisho kati ya AI iliyopewa maagizo machache na ile inayoendeshwa na nafsi, ilitoa seti tajiri ya data kwa ajili ya kuchambua jinsi mashine zinavyoweza kuiga mazungumzo ya kibinadamu kwa ufanisi na jinsi binadamu wanavyotambua majaribio haya.

Wakati Uigaji Unapong'aa Kuliko Ukweli

Matokeo kutoka kwa utafiti wa UC San Diego yalikuwa ya ajabu, hasa kuhusu utendaji wa GPT-4.5 ilipoongozwa na maagizo ya kina ya PERSONA. Mpangilio huu maalum ulifikia kiwango cha kushangaza cha 73% cha ‘ushindi’. Kimsingi, karibu robo tatu ya wakati huo, majaji wa kibinadamu waliokuwa wakiingiliana na AI hii walihitimisha kuwa walikuwa wakizungumza na binadamu mwingine. Takwimu hii ni muhimu sio tu kwa thamani yake kamili bali pia ikilinganishwa na washiriki wengine.

Fikiria vigezo:

  • Mashahidi wa Kibinadamu: Kwa kushangaza, binadamu halisi walioshiriki kama mashahidi walikuwa chini ya mafanikio katika kuwashawishi majaji juu ya ubinadamu wao kuliko GPT-4.5 inayoendeshwa na nafsi.
  • Mifumo Mingine ya AI: GPT-4.5 yenye maagizo machache, pamoja na GPT-4o na Llama 3.1 (hata zilipopewa maagizo sawa ya nafsi), zilipata alama za chini sana, na viwango vya ushindi vikiwa kati ya 21% na 56%. Hii inaangazia uwezo wa hali ya juu wa mfumo maalum wa GPT-4.5 uliojaribiwa na athari kubwa ya maagizo yaliyolengwa.
  • Utendaji wa Awali wa GPT-4: Katika toleo la awali la jaribio lililofanywa na watafiti hao hao mwaka mmoja tu uliopita, GPT-4 ilifikia kiwango cha ushindi cha 54% tu, ikizidi kidogo tu kizingiti cha bahati nasibu (50%). Kuruka hadi 73% na GPT-4.5 kunaonyesha maendeleo ya haraka katika uwezo wa mfumo kutoa maandishi yanayofanana na ya kibinadamu.
  • ELIZA: Chatbot ya zamani, kama ilivyotarajiwa, ilifanya vibaya, ikitimiza lengo lake kama msingi na kuthibitisha kuwa mafanikio ya LLMs hayakutokana tu na majaji kudanganywa kwa urahisi na programu yoyote.

Hitimisho la Jones na Bergen lilikuwa wazi: majaji hawakuwa tu wakihangaika kutofautisha binadamu na mashine; walikuwa wakielekea zaidi kuamini kuwa GPT-4.5 inayoendeshwa na nafsi ilikuwa binadamu kuliko walivyoamini washiriki halisi wa kibinadamu walikuwa. Hii inapendekeza kwamba AI, inapoelekezwa ipasavyo, inaweza kuiga nuances zinazoonekana za mwingiliano wa kibinadamu – labda hata kuchuja ukakasi au kutofautiana kuliko katika mazungumzo halisi ya kibinadamu – kwa ufanisi zaidi kuliko binadamu wenyewe katika mazingira haya maalum, yaliyodhibitiwa. Mafanikio hayakuwa tu kuhusu kufaulu; yalikuwa kuhusu kuzidi msingi wa kibinadamu katika ‘ubinadamu’ unaoonekana ndani ya mipaka ya jaribio.

Kikwazo cha Ubinadamu: Akili au Ubadilikaji?

Je, ushindi wa GPT-4.5 katika toleo hili la kisasa la Turing Test unaashiria kuwasili kwa AGI? Watafiti, pamoja na wataalam wengi katika uwanja huo, wanahimiza tahadhari. ‘Swali lenye utata zaidi’ linalozunguka jaribio hilo, kama Jones na Bergen wanavyokiri, daima limekuwa ikiwa kweli linapima akili au kitu kingine kabisa. Ingawa uwezo wa GPT-4.5 kuwadanganya binadamu kwa ufanisi mkubwa bila shaka ni mafanikio ya kiufundi, inaweza kuzungumza zaidi juu ya uigaji wa kisasa wa mfumo na uwezo wake wa kubadilika kuliko ufahamu halisi au ufahamu.

Mtazamo mmoja ni kwamba LLMs hizi za hali ya juu zimekuwa na ustadi wa kipekee katika kulinganisha mifumo na utabiri. Zikipewa kiasi kikubwa cha data ya maandishi ya kibinadamu, hujifunza uwezekano wa kitakwimu wa mfuatano wa maneno, zamu za mazungumzo, na vipengele vya kimtindo vinavyohusishwa na aina tofauti za mwingiliano wa kibinadamu. Maagizo ya PERSONA yaliipa GPT-4.5 muundo maalum wa kulenga – kijana mpweke, mwenye ujuzi wa mtandao. Mafanikio ya AI, kwa hivyo, yanaweza kuonekana kama onyesho la uwezo wake wa ‘kubadilisha tabia yake’ ili kuendana na nafsi iliyoombwa, ikitumia data yake ya mafunzo kutoa majibu yanayoendana na wasifu huo. Ni onyesho la ajabu la kubadilika na nguvu ya uzalishaji, kuruhusu mashine kuonekana kuwa ya kibinadamu kwa kushawishi ndani ya muktadha uliofafanuliwa na maagizo.

Hata hivyo, uwezo huu wa kubadilika ni tofauti na akili ya jumla ambayo binadamu wanayo, ambayo inahusisha hoja, kuelewa muktadha kwa kina, kujifunza kutokana na uzoefu mpya, na kuwa na ufahamu – sifa ambazo LLMs za sasa hazionyeshi kwa dhahiri. Kama mwanachuoni wa AI Melanie Mitchell alivyosema, ufasaha katika lugha asilia, kama vile umahiri wa chess, sio uthibitisho dhahiri wa akili ya jumla. Inathibitisha umahiri wa kikoa maalum cha ujuzi, ingawa ni tata. Kwa hivyo, ingawa utendaji wa GPT-4.5 ni hatua muhimu katika uzalishaji wa lugha asilia, kuielezea tu kama hatua kuelekea AGI inaweza kuwa ya kupotosha. Inaonekana sahihi zaidi kuielezea kama kufikia kiwango cha juu cha ‘ufanano wa kibinadamu’ katika mazungumzo ya maandishi, dhana tofauti kidogo lakini muhimu kutoka kwa akili ya kiwango cha binadamu.

Kioo cha Mwingiliano: Jaribio Linafunua Nini Kuhusu Sisi

Labda kipengele cha kuvutia zaidi cha utafiti wa UC San Diego hakiko katika kile kinachofunua kuhusu AI, bali katika kile kinachoonyesha kuhusu hukumu ya kibinadamu na dhana tunazoleta kwenye mwingiliano, hasa mtandaoni. Ukweli kwamba majaji wa kibinadamu walidanganywa mara kwa mara, na wakati mwingine hata walipendelea mtindo wa mwingiliano wa AI, unaelekeza kwenye usubjektivitet asilia na dosari zinazowezekana katika kutumia mtazamo wa kibinadamu kama mwamuzi mkuu wa akili ya mashine katika muundo huu.

Watafiti walibaini mifumo ya kuvutia katika hoja za majaji:

  • Tabia Isiyotarajiwa: Hata programu ya zamani ya ELIZA iliweza kuwadanganya majaji 23% ya wakati huo. Hii haikuwa kwa sababu ELIZA ilionyesha uzuri, lakini mara nyingi kwa sababu haikukidhi dhana za awali za majaji kuhusu jinsi AI inavyopaswa kuishi. Majaji walitoa sababu kama shahidi kuwa ‘mwenye kejeli’ au ‘mkorofi,’ sifa ambazo hawakutarajia kutoka kwa mashine, hivyo kuhitimisha lazima awe binadamu.
  • Kuzingatia Ujamaa Zaidi ya Akili: Kinyume na matarajio ya Alan Turing kwamba majaji wangechunguza maarifa na uwezo wa kiakili, washiriki katika utafiti huu mara nyingi walionekana kuzingatia zaidi mtindo wa mazungumzo, sauti ya kihisia, na ishara za kijamii.
  • Kitendawili cha Kutokamilika: Katika mabadiliko ya kushangaza, moja ya sababu ambazo majaji walitumia kutambua kwa usahihi shahidi kama binadamu ilikuwa ukosefu unaoonekana wa maarifa. Hii inapendekeza dhana ya msingi kwamba binadamu wana mapungufu na sio wakamilifu, wakati AI inaweza kutarajiwa kuwa na maarifa mengi au kuwa sahihi kupita kiasi.

Uchunguzi huu unawaongoza Jones na Bergen kudai kwamba maamuzi ya majaji yanajumuisha ‘dhana tata kuhusu jinsi binadamu na mifumo ya AI wanavyoweza kuwa na tabia,’ zikivuka tathmini rahisi ya akili. Vigezo vinakuwa vimeingiliana na matarajio ya kijamii, hukumu za utu, na hata upendeleo kuhusu uwezo wa kiteknolojia. Katika enzi ambapo mawasiliano ya maandishi yako kila mahali, tumeendeleza tabia na matarajio yaliyokita mizizi kwa mwingiliano wa mtandaoni. Turing Test, iliyoundwa awali kama uchunguzi mpya katika mwingiliano wa binadamu na kompyuta, sasa inafanya kazi zaidi kama jaribio la tabia hizi za kibinadamu za mtandaoni na upendeleo. Inapima uwezo wetu wa kuchanganua nafsi za kidijitali, zilizoathiriwa na uzoefu wetu wa kila siku na binadamu na roboti mtandaoni. Kimsingi, Turing Test ya kisasa, kama inavyoonyeshwa na utafiti huu, inaonekana kuwa chini ya tathmini ya moja kwa moja ya akili ya mashine na zaidi kipimo cha ufanano wa kibinadamu unaoonekana, uliochujwa kupitia lenzi ya matarajio ya kibinadamu.

Zaidi ya Mchezo wa Kuiga: Kupanga Mwelekeo Mpya wa Tathmini ya AI

Kwa kuzingatia utendaji wa kuvutia wa mifumo kama GPT-4.5 na mapungufu yaliyoangaziwa na upendeleo asilia katika muundo wa jadi wa Turing Test, swali linajitokeza: Je, kigezo hiki cha miongo kadhaa bado ni chombo sahihi cha kupima maendeleo kuelekea AGI? Watafiti wa UC San Diego, pamoja na sauti inayokua katika jamii ya AI, wanapendekeza labda sivyo – angalau, sio kama kipimo pekee au dhahiri.

Mafanikio yenyewe ya GPT-4.5, hasa utegemezi wake kwenye maagizo ya PERSONA, yanasisitiza kikomo muhimu: jaribio linatathmini utendaji ndani ya muktadha maalum, mara nyingi mwembamba, wa mazungumzo. Sio lazima lichunguze uwezo wa kina wa utambuzi kama hoja, kupanga, ubunifu, au uelewa wa kawaida katika hali mbalimbali. Kama Jones na Bergen wanavyosema, ‘akili ni ngumu na ina pande nyingi,’ ikimaanisha kuwa ‘hakuna jaribio moja la akili linaloweza kuwa la kuamua.’

Hii inaelekeza kwenye hitaji la seti kamili zaidi ya mbinu za tathmini. Njia kadhaa zinazowezekana zinajitokeza:

  1. Miundo Iliyobadilishwa ya Jaribio: Watafiti wenyewe wanapendekeza tofauti. Je, ikiwa majaji wangekuwa wataalam wa AI, wakiwa na matarajio tofauti na labda mbinu za kisasa zaidi za kuchunguza uwezo wa mashine? Je, ikiwa motisha kubwa za kifedha zingeanzishwa, zikiwahimiza majaji kuchunguza majibu kwa uangalifu zaidi na kwa kufikiria? Mabadiliko haya yanaweza kubadilisha mienendo na uwezekano wa kutoa matokeo tofauti, yakiangazia zaidi ushawishi wa muktadha na motisha kwenye matokeo ya jaribio.
  2. Upimaji Mpana wa Uwezo: Kuhamia zaidi ya ufasaha wa mazungumzo, tathmini zinaweza kuzingatia anuwai pana ya kazi zinazohitaji nyanja tofauti za akili – kutatua matatizo katika vikoa vipya, kupanga kwa muda mrefu, kuelewa uhusiano tata wa sababu, au kuonyesha ubunifu halisi badala ya uchanganyaji wa kisasa wa data ya mafunzo.
  3. Tathmini ya Binadamu-katika-Mzunguko (HITL): Kuna mwelekeo unaoongezeka wa kuunganisha hukumu ya kibinadamu kwa utaratibu zaidi katika tathmini ya AI, lakini labda kwa njia zilizopangwa zaidi kuliko Turing Test ya kawaida. Hii inaweza kuhusisha binadamu kutathmini matokeo ya AI kulingana na vigezo maalum (k.m., usahihi wa ukweli, mshikamano wa kimantiki, masuala ya kimaadili, manufaa) badala ya kufanya tu hukumu ya kibinadamu/mashine ya pande mbili. Binadamu wanaweza kusaidia kuboresha mifumo, kutambua udhaifu, na kuongoza maendeleo kulingana na maoni yenye nuances.

Wazo kuu ni kwamba kutathmini kitu kigumu kama akili kunahitaji kuangalia zaidi ya uigaji rahisi. Ingawa Turing Test ilitoa mfumo muhimu wa awali na inaendelea kuzua mijadala muhimu, kuitegemea pekee kuna hatari ya kuchanganya uigaji wa kisasa na ufahamu halisi. Njia kuelekea kuelewa na uwezekano wa kufikia AGI inahitaji mbinu tajiri zaidi, tofauti zaidi, na labda kali zaidi za tathmini.

Kitendawili cha AGI na Mustakabali wa Tathmini

Majaribio ya hivi karibuni yanasisitiza changamoto ya msingi ambayo inaenea zaidi ya Turing Test yenyewe: tunajitahidi kufafanua kwa usahihi kile kinachojumuisha Akili Bandia ya Jumla, achilia mbali kukubaliana jinsi tutakavyoitambua kwa uhakika ikiwa tutakutana nayo. Ikiwa binadamu, pamoja na upendeleo na dhana zao zote asilia, wanaweza kushawishiwa kwa urahisi na LLM iliyoelekezwa vizuri katika kiolesura rahisi cha mazungumzo, tunawezaje kuhukumu kwa uhakika uwezo wa kina wa utambuzi wa mifumo ya baadaye inayoweza kuwa ya hali ya juu zaidi?

Safari kuelekea AGI imefunikwa na utata. Utafiti wa UC San Diego unatumika kama ukumbusho wenye nguvu kwamba vigezo vyetu vya sasa vinaweza kuwa haitoshi kwa kazi iliyo mbele. Unaangazia ugumu mkubwa katika kutenganisha tabia iliyoigwa na ufahamu halisi, hasa wakati uigaji unakuwa wa kisasa zaidi. Hii inasababisha maswali ya kubahatisha, lakini yanayochochea fikra, kuhusu dhana za tathmini za baadaye. Je, tunaweza kufikia hatua, inayokumbusha hadithi za kisayansi za kubuni, ambapo hukumu ya kibinadamu inachukuliwa kuwa isiyoaminika sana kutofautisha AI ya hali ya juu na binadamu?

Labda, kwa kushangaza, tathmini ya akili ya mashine ya hali ya juu sana itahitaji usaidizi kutoka kwa mashine zingine. Mifumo iliyoundwa mahsusi kuchunguza kina cha utambuzi, uthabiti, na hoja halisi, ambayo inaweza kuwa chini ya kuathiriwa na ishara za kijamii na upendeleo unaowayumbisha majaji wa kibinadamu, inaweza kuwa sehemu muhimu za zana ya tathmini. Au, angalau, uelewa wa kina wa mwingiliano kati ya maagizo ya kibinadamu (prompts), ubadilikaji wa AI, na mtazamo unaotokana wa akili utakuwa muhimu. Tunaweza kuhitaji kuuliza mashine kile wanachotambua wanapoangalia mashine zingine zikijibu majaribio ya kibinadamu ya kuibua tabia maalum, zinazoweza kuwa za udanganyifu. Jitihada za kupima AI zinatulazimisha kukabiliana sio tu na asili ya akili ya mashine bali pia na asili ngumu, mara nyingi ya kushangaza, yetu wenyewe.