AI Ya Juu Yaiga Watu, Mara Nyingi Bora Zaidi

Kufikiria Upya Kigezo: Mtazamo wa Kisasa kwa Dira ya Turing

Juhudi za kubaini ikiwa mashine inaweza kweli ‘kufikiri’ zimewavutia wanasayansi wa kompyuta na wanafalsafa kwa miongo kadhaa. Katikati ya mjadala huu mara nyingi huwa dhana kuu iliyopendekezwa na Alan Turing, mwanahisabati mahiri wa Uingereza na mvunja msimbo ambaye kazi yake iliweka misingi ya kompyuta za kisasa. Turing aliona hali, ambayo sasa inajulikana kama Jaribio la Turing (Turing Test), ambapo mhoji wa kibinadamu anashiriki katika mazungumzo ya maandishi na vyombo viwili visivyoonekana - mmoja binadamu, mmoja mashine. Kipimo muhimu cha mafanikio ya mashine? Uwezo wake wa kumdanganya mhoji kuamini kuwa yeye ndiye mshiriki wa kibinadamu. Ikiwa mhoji hawezi kutofautisha kwa uhakika mashine na mtu, Turing alidokeza, mashine inaweza kuchukuliwa kuwa na uwezo wa tabia ya akili sawa na ya mwanadamu. Ingawa jaribio la awali limekabiliwa na ukosoaji kuhusu utoshelevu wake kama kipimo cha kweli cha ufahamu au uelewa, wazo lake kuu - kutathmini uwezo wa AI kuiga kwa kushawishi mwingiliano wa kibinadamu - linabaki kuwa kigezo chenye nguvu.

Sasa, watafiti kutoka Chuo Kikuu cha California, San Diego (University of California, San Diego), wameleta uhai mpya katika tathmini hii ya kawaida, wakianzisha mabadiliko ya kuvutia yaliyoundwa kwa ajili ya mazingira ya kisasa ya AI. Utafiti wao unaanzisha marudio ya njia tatu ya Jaribio la Turing, ukiongeza ugumu na labda mienendo halisi zaidi kwa tathmini. Hii haikuwa tu kuhusu kutofautisha AI moja kutoka kwa binadamu mmoja; ilihusisha mwingiliano na udanganyifu tata zaidi, ikisukuma mifumo ya kisasa ya akili bandia hadi kwenye mipaka yao katika sanaa ya kuiga. Matokeo yanaonyesha kuwa mifumo ya AI iliyoendelea zaidi haikaribii tu kizingiti cha mazungumzo kama ya kibinadamu; katika miktadha mingine, wanaweza kuwa wanaruka juu yake, wakati mwingine wakionekana binadamu zaidi kuliko wanadamu wenyewe.

Changamoto: Kuwakutanisha Wanadamu na AI za Kisasa

Muundo wa majaribio ulioundwa na timu ya UC San Diego ulikuwa maalum na mkali. Kila duru ya mwingiliano ilihusisha watatu: washiriki wawili wa kibinadamu na mfumo mmoja wa AI. Wanadamu walipewa jukumu moja, lenye changamoto: baada ya kipindi cha mazungumzo, kubaini ni yupi kati ya waingiliaji wao wawili wasioonekana alikuwa akili bandia na yupi alikuwa binadamu mwenzao. Mpangilio huu kwa asili huongeza dau ikilinganishwa na Jaribio la Turing la awali la mmoja-kwa-mmoja-kwa-mmoja.

Ili kuwezesha uamuzi huu, washiriki walishiriki katika majadiliano mawili ya maandishi yanayofanana, kwa wakati mmoja - moja na binadamu aliyefichwa, nyingine na AI iliyofichwa. Walipewa muda mfupi wa dakika tano kwa kila duru. Ndani ya muda huu, waamuzi wa kibinadamu walikuwa na uhuru kamili. Wangeweza kutumia mkakati wowote wa kuhoji, kuchunguza kwa mada yoyote, au kutumia mbinu yoyote ya mazungumzo waliyoona kuwa yenye ufanisi katika kufichua asili halisi ya washirika wao wa mazungumzo. Ufupi wa muda wa mwingiliano unaongeza safu nyingine ya changamoto, ikijaribu uwezo wa AI kuanzisha haraka utu wa kushawishi na kuudumisha chini ya uchunguzi, huku pia ikijaribu uwezo wa binadamu kufanya maamuzi ya haraka na sahihi kulingana na data ndogo ya mazungumzo. Baada ya kipindi cha mwingiliano cha dakika tano, wakati wa ukweli ulifika: washiriki wa kibinadamu walipiga kura zao, wakibainisha ni chombo gani waliamini kuwa AI.

Watafiti hawakutegemea mfumo mmoja wa AI. Badala yake, walikusanya safu mbalimbali zinazowakilisha enzi na uwezo tofauti katika maendeleo ya AI:

  • ELIZA: Chatbot waanzilishi aliyeundwa na Joseph Weizenbaum karibu miongo sita iliyopita (sio 80 kama ilivyotajwa kwenye chanzo, ELIZA ilianza katikati ya miaka ya 1960). Ingawa ni ya zamani kwa viwango vya leo, ikitegemea ulinganishaji wa muundo na hati rahisi, ELIZA ilitumika kama msingi wa kihistoria, ikiwakilisha majaribio ya mapema ya AI ya mazungumzo.
  • Meta’s Llama 3.1-405B: Mfumo mkuu wa lugha (LLM) wa kisasa wenye nguvu kutoka Meta AI, unaojulikana kwa uwezo wake wa hali ya juu wa kuzalisha maandishi na hoja. Kujumuishwa kwake kunawakilisha hali ya sasa ya sanaa kutoka kwa maabara moja kuu ya utafiti wa AI.
  • OpenAI’s GPT-4o: Mfumo wa hivi karibuni wa multimodal uliotolewa hadharani kutoka OpenAI wakati wa utafiti, unaotambuliwa kwa kasi yake, ufanisi, na uwezo ulioboreshwa wa mazungumzo ikilinganishwa na marudio ya awali ya GPT.
  • OpenAI’s GPT-4.5: Toleo linaloonekana kuwa la juu zaidi, labda ambalo halijatolewa au la ndani la mfululizo wa mfumo mkuu wa OpenAI. Kujumuishwa kwake kunaonyesha ufikiaji wa mifumo inayoweza kusukuma mipaka zaidi ya mifumo inayopatikana hadharani.

Uchaguzi huu uliwaruhusu watafiti kulinganisha sio tu AI ya kisasa dhidi ya wanadamu lakini pia dhidi ya kigezo cha kihistoria na dhidi ya viwango tofauti vya ustadi wa AI wa kisasa. Swali kuu lilibaki: je, mashine hizi, haswa LLM za hali ya juu, zinaweza kufanikiwa kupita katika kitendawili hiki cha mazungumzo cha njia tatu na kupita kama binadamu?

Mkakati wa Nafsi Bandia: Jinsi GPT-4.5 Ilivyopata Mafanikio ya Ajabu

Utafiti ulijumuisha hali mbili tofauti za uendeshaji kwa mifumo ya AI, ukiongeza mwelekeo mwingine kwenye uchunguzi. Watafiti walitaka kuelewa ikiwa lengo dhahiri la AI liliathiri uwezo wake wa kuwadanganya washiriki wa kibinadamu.

  • Hali ya 1: Kazi ya Udanganyifu Dhahiri: Katika mpangilio huu, AI ilipewa maagizo ya moja kwa moja na yasiyo na utata: mpotoshe mshiriki wa kibinadamu. Lengo lake lililopangwa lilikuwa kufanya kila kitu kiwezekanacho kimazungumzo ili kumshawishi jaji wa kibinadamu kwamba walikuwa wakiingiliana na mtu mwingine halisi. Hii ilijaribu uwezo wa AI kupanga mikakati na labda hata kuendesha mazungumzo kuelekea lengo la kuonekana kama binadamu ilipoambiwa wazi kufanya hivyo.

  • Hali ya 2: Kazi ya Kuiga Nafsi Bandia: Hapa, AI ilipokea aina tofauti ya kidokezo. Haikuambiwa wazi kudanganya. Badala yake, iliagizwa kuiga nafsi maalum - ile ya mtu kijana aliyezama sana katika utamaduni wa mtandao, kamili na matumizi ya misimu ya kisasa na mitindo ya mawasiliano ya kawaida ya idadi hiyo ya watu. AI iliombwa tu kuwa mhusika huyu, bila maagizo ya wazi ya kumdanganya mhoji.

Matokeo katika hali hizi mbili yalikuwa tofauti sana, haswa kwa mwigizaji bora, GPT-4.5. Ilipokuwa ikifanya kazi chini ya maagizo dhahiri ya kupotosha (Hali ya 1), GPT-4.5 ilipata kiwango cha mafanikio cha 36%. Ingawa sio kidogo, takwimu hii inaonyesha kuwa ilipojaribu kudanganya waziwazi, AI labda haikuwa ya kushawishi sana, au labda majaribio yake yaligunduliwa kwa urahisi zaidi na majaji wa kibinadamu ambao wanaweza kuwa walikuwa macho zaidi kwa ubandia.

Hata hivyo, simulizi ilibadilika sana katika kazi ya kuiga nafsi bandia (Hali ya 2). Ilipoombwa tu kuiga nafsi ya kijana, mwenye ujuzi wa mtandao, utendaji wa GPT-4.5 ulipaa. Ilifanikiwa kuwashawishi washiriki wa kibinadamu juu ya ubinadamu wake katika 73% ya mwingiliano. Hii inaonyesha kuwa kuiga tabia inayoonekana ya asili, hata iliyopambwa, ilikuwa mkakati mzuri zaidi wa kujichanganya kuliko kujaribu udanganyifu moja kwa moja. Inaashiria kuwa nguvu ya AI haipo sana katika ujanja uliokokotolewa na zaidi katika uwezo wake wa kuunganisha na kuiga kwa uhalisi mifumo ya mawasiliano ya kibinadamu inayohusishwa na idadi maalum ya watu au haiba, iliyojifunza kutoka kwa data yake kubwa ya mafunzo. AI haikuwa ikijaribu kuwa binadamu; ilikuwa ikiigiza kama aina maalum ya binadamu, na ilifanya hivyo kwa ufanisi wa kushangaza.

Utendaji Linganishi: Wigo wa Udanganyifu

Wakati GPT-4.5 ilivutia zaidi, utendaji wa mifumo mingine ya AI ulitoa muktadha muhimu na mshangao fulani wa kuvutia.

Meta’s Llama 3.1-405B pia ilionyesha uwezo mkubwa. Ilipata kiwango cha mafanikio cha 56% katika kuwashawishi wanadamu juu ya uhalisi wake. Matokeo haya ni bora zaidi kuliko nafasi ya bahati nasibu (ambayo ingekuwa 50% katika hali ya chaguo mbili, ingawa mienendo ya jaribio la njia tatu inachanganya kidogo uwezekano rahisi). Inaweka Llama 3.1 imara katika kategoria ya waigaji wa mazungumzo wenye uwezo mkubwa, wenye uwezo wa kuwadanganya mara kwa mara majaji wa kibinadamu, ingawa haifikii viwango vya ajabu vilivyoonyeshwa na GPT-4.5 katika hali yake bora. Utendaji huu thabiti unasisitiza maendeleo ya jumla ya mifumo mikuu ya lugha katika kuiga mazungumzo ya kibinadamu yenye nuances.

Labda ugunduzi usiotarajiwa zaidi ulijitokeza kutoka kwa ulinganisho kati ya GPT-4o na programu ya kihistoria ya ELIZA. Mfumo wa hali ya juu wa GPT-4o wa OpenAI uliweza tu kuwashawishi washiriki kuwa ni binadamu katika 21% ya kesi. Kinyume chake, programu rahisi zaidi ya ELIZA inayotegemea hati ilifanya vizuri kidogo, ikipata kiwango cha mafanikio cha 23%. Ingawa asilimia zote mbili ni za chini, zikionyesha kuwa hakuna iliyokuwa ya kushawishi sana katika usanidi huu maalum wa jaribio, makali ya ELIZA, hata kama ni madogo, yanastahili kuzingatiwa. Inaibua maswali kuhusu asili ya mtazamo na hukumu ya kibinadamu katika mwingiliano huu mfupi. Je, inaweza kuwa kwamba urahisi na utabiri wa ELIZA, labda unaochukuliwa kama wa kipekee au wa ajabu, wakati mwingine ulitafsiriwa vibaya kama mawasiliano yasiyo ya kawaida ya kibinadamu, wakati majibu ya GPT-4o yaliyokuwa magumu zaidi lakini yenye uwezekano wa kuwa tasa au rasmi kupita kiasi (kulingana na vidokezo vyake maalum na tabia katika jaribio) yaligunduliwa kwa urahisi zaidi kama bandia? Vinginevyo, inaweza kuakisi nuances katika mwingiliano maalum au matarajio ya washiriki ambayo yalipendelea mtindo wa ELIZA katika idadi ndogo ya kesi. Matokeo haya hakika yanahitaji uchunguzi zaidi kuhusu jinsi wanadamu wanavyoona aina tofauti za ubandia au mawasiliano yasiyo ya kawaida.

Matokeo bora zaidi, hata hivyo, yalibaki kuwa utendaji wa GPT-4.5, haswa yaliyoangaziwa na mwandishi mkuu wa utafiti huo, Cameron Jones, mtafiti katika Maabara ya Lugha na Utambuzi (Language and Cognition Laboratory) katika UC San Diego. Jones alisisitiza kipengele cha kushangaza zaidi: ‘Watu hawakuweza kutofautisha kati ya watu kutoka GPT-4.5 na LLaMa Na 4.5 hata ilikadiriwa kuwa binadamu mara nyingi zaidi kuliko watu halisi!’ Hii ni kauli nzito. Ni jambo moja kwa AI kupita kama binadamu; ni jambo lingine kabisa kwake kuchukuliwa kuwa binadamu zaidi kuliko wanadamu halisi wanaoshiriki katika jaribio lile lile. Hii inaonyesha kuwa GPT-4.5, angalau katika hali ya nafsi bandia, inaweza kuwa ilitoa majibu yaliyolingana zaidi na matarajio ya washiriki ya mwingiliano wa kawaida wa kibinadamu mtandaoni (labda ya kuvutia zaidi, thabiti, au ya ‘kibinadamu’ kwa mtindo wa kawaida) kuliko majibu halisi, yenye uwezekano wa kuwa tofauti zaidi au yasiyotabirika, ya wenzao halisi wa kibinadamu.

Zaidi ya Turing: Madhara ya Uigaji Halisi wa AI

Ingawa watafiti wanakiri kwamba Jaribio la Turing lenyewe, katika uundaji wake wa awali na bila shaka hata katika fomu hii iliyorekebishwa, linaweza kuwa kipimo kilichopitwa na wakati cha kutathmini akili ya kweli ya mashine au uelewa, matokeo ya utafiti huo yana uzito mkubwa. Yanatoa ushahidi dhahiri wa jinsi mifumo ya AI, haswa ile iliyojengwa kwenye mifumo mikuu ya lugha iliyofunzwa kwa hifadhidata kubwa za maandishi na mazungumzo ya kibinadamu, imeendelea katika uwezo wao wa kubobea sanaa ya kuiga.

Matokeo yanaonyesha kuwa mifumo hii inaweza kutoa matokeo ya mazungumzo ambayo sio tu sahihi kisarufi au yanafaa kimuktadha, lakini hayatofautishwi kimtazamo na matokeo ya kibinadamu, angalau ndani ya vikwazo vya mwingiliano mfupi wa maandishi. Hata kama AI ya msingi haina ufahamu wa kweli, fahamu, au uzoefu wa kibinafsi unaoarifu mawasiliano ya kibinadamu, uwezo wake wa kuunganisha majibu yanayowezekana, ya kuvutia, na yanayolingana na tabia unaboreka haraka. Inaweza kuunda kwa ufanisi sura ya uelewa ambayo inashawishi vya kutosha kuwadanganya majaji wa kibinadamu mara nyingi, haswa inapochukua nafsi bandia inayoeleweka.

Uwezo huu una athari kubwa, zinazoenea mbali zaidi ya udadisi wa kitaaluma wa Jaribio la Turing. Cameron Jones anaelekeza kwenye mabadiliko kadhaa yanayoweza kutokea katika jamii yanayosukumwa na uigaji huu wa hali ya juu:

  • Otomatiki ya Kazi: Uwezo wa AI kuchukua nafasi ya wanadamu bila mshono katika mwingiliano wa muda mfupi, pengine bila kugunduliwa, unafungua mlango zaidi kwa otomatiki katika majukumu yanayotegemea sana mawasiliano ya maandishi. Gumzo za huduma kwa wateja, uzalishaji wa maudhui, uingizaji data, upangaji ratiba, na aina mbalimbali zausaidizi wa kidijitali zinaweza kuona kuongezeka kwa matumizi ya AI, na kuwaondoa wafanyikazi wa kibinadamu ikiwa AI itathibitika kuwa ya kushawishi vya kutosha na yenye gharama nafuu. Utafiti unaonyesha kizingiti cha ‘kushawishi’ kinafikiwa au kuzidiwa.
  • Uhandisi wa Kijamii Ulioboreshwa: Uwezekano wa matumizi mabaya ni mkubwa. Wahalifu wanaweza kutumia chatbots za AI zenye uhalisia wa hali ya juu kwa ulaghai wa kisasa wa kuhadaa ili kupata taarifa (phishing), kueneza habari potofu, kuendesha maoni ya umma, au kuiga watu binafsi kwa madhumuni ya ulaghai. AI ambayo inaonekana kama binadamu mara nyingi zaidi kuliko wanadamu halisi inaweza kuwa chombo chenye nguvu sana cha udanganyifu, na kufanya iwe vigumu zaidi kwa watu binafsi kuamini mwingiliano wa mtandaoni. Ufanisi wa mkakati wa ‘nafsi bandia’ unatia wasiwasi hasa hapa, kwani AI inaweza kubinafsishwa kuiga aina maalum za watu wanaoaminika au watu wenye mamlaka.
  • Msukosuko Mkuu wa Kijamii: Zaidi ya matumizi maalum, usambazaji mpana wa AI yenye uwezo wa kuiga binadamu bila kugundulika unaweza kubadilisha kimsingi mienendo ya kijamii. Tunawezaje kuanzisha uaminifu katika mazingira ya mtandaoni? Nini kinatokea kwa asili ya uhusiano wa kibinadamu unapopitishwa kupitia waingiliaji wanaoweza kuwa bandia? Je, inaweza kusababisha kuongezeka kwa kutengwa, au kinyume chake, aina mpya za urafiki wa AI na binadamu? Mstari unaofifia kati ya mawasiliano ya kibinadamu na mashine unahitaji mjadala wa kijamii kuhusu maswali haya. Inapinga ufafanuzi wetu wa uhalisi na mwingiliano katika enzi ya kidijitali.

Utafiti huo, ambao kwa sasa unasubiri mapitio ya wenzao, unatumika kama sehemu muhimu ya data inayoonyesha maendeleo ya haraka ya uwezo wa AI kuiga tabia ya mazungumzo ya kibinadamu. Unasisitiza kwamba ingawa mjadala kuhusu akili bandia ya jumla ya kweli unaendelea, uwezo wa vitendo wa AI kutenda kama binadamu katika miktadha maalum umefikia hatua muhimu. Tunaingia katika enzi ambapo mzigo wa uthibitisho unaweza kubadilika - badala ya kuuliza ikiwa mashine inaweza kuonekana kama binadamu, tunaweza kuhitaji kuuliza zaidi ikiwa ‘binadamu’ tunayewasiliana naye mtandaoni ni wa kibayolojia kweli. Mchezo wa kuiga umefikia kiwango kipya, na matokeo yake yanaanza tu kujitokeza.