Je, AI ya OpenAI Imekariri Kazi za Hakimiliki?

Dhoruba Inayotengenezwa: Hakimiliki katika Enzi ya AI

Ulimwengu wa akili bandia (AI), hasa mifumo mikubwa ya lugha (LLMs) iliyoendelezwa na makampuni makubwa kama OpenAI, unakabiliwa na dhoruba inayokua ya kisheria na kimaadili. Kiini cha dhoruba hii ni swali la msingi: ni data gani inayotumika kuendesha mashine hizi zenye nguvu, na je, haki za wabunifu ziliheshimiwa katika mchakato huo? Shutuma zinaongezeka, zikidokeza kwamba kiasi kikubwa cha nyenzo zenye hakimiliki – riwaya, makala, msimbo wa kompyuta, na zaidi – huenda zilitumiwa na mifumo hii wakati wa mafunzo yao, bila ruhusa au fidia inayohitajika. Huu si mjadala wa kitaaluma tu; unakua kwa kasi na kuwa kesi za kisheria zenye umuhimu mkubwa.

OpenAI inajikuta ikizidi kunaswa katika mapambano ya kisheria yaliyoanzishwa na waandishi, watayarishaji programu, na wamiliki mbalimbali wa haki. Wadai hawa wanasema kuwa mali yao ya kiakili ilitumiwa isivyofaa kujenga mifumo ileile ya AI inayotawala vichwa vya habari na kubadilisha viwanda. Hoja yao inategemea madai kwamba sheria ya sasa ya hakimiliki hairuhusu wazi matumizi makubwa ya kazi zilizolindwa kama nyenzo za mafunzo kwa mifumo ya kibiashara ya AI. OpenAI, kwa kujibu, imeendelea kutumia hoja ya ‘matumizi halali’ (‘fair use’), kanuni tata ya kisheria inayoruhusu matumizi machache ya nyenzo zenye hakimiliki bila ruhusa chini ya hali maalum. Hata hivyo, uwezekano wa kutumia ‘fair use’ kwa kiwango na asili isiyo ya kawaida ya mafunzo ya AI bado ni eneo lenye utata mkubwa linalopiganiwa vikali, likiweka mazingira ya maamuzi ya kisheria yatakayoweka historia. Mvutano mkuu unahusu iwapo kubadilisha kazi zenye hakimiliki kuwa mifumo ya takwimu ndani ya modeli kunajumuisha ‘matumizi ya kubadilisha’ (‘transformative use’) – kipengele muhimu cha ‘fair use’ – au ni uzalishaji usioidhinishwa kwa kiwango kikubwa tu. Matokeo ya kesi hizi yanaweza kuathiri kwa kiasi kikubwa mwelekeo wa baadaye wa maendeleo ya AI, ikiwezekana kuweka vikwazo vikubwa au gharama kwa waundaji wa modeli.

Kutazama Ndani ya Kisanduku Cheusi: Mbinu Mpya ya Kugundua Kukariri

Kinachoongeza moto kwenye mjadala huu mkali ni utafiti wa hivi karibuni uliofanywa na timu ya ushirikiano ya watafiti kutoka taasisi mashuhuri ikiwa ni pamoja na University of Washington, University of Copenhagen, na Stanford University. Kazi yao inaleta mbinu bunifu iliyoundwa mahsusi kugundua matukio ambapo mifumo ya AI, hata ile inayopatikana tu kupitia violesura vya programu tumizi (APIs) vyenye vizuizi kama vya OpenAI, inaonekana ‘imekariri’ sehemu maalum za data zao za mafunzo. Hili ni jambo muhimu sana kwa sababu kupata ufikiaji wa utendaji kazi wa ndani au seti kamili za data za mafunzo za mifumo ya kibiashara kama GPT-4 kwa kawaida haiwezekani kwa wachunguzi wa nje.

Kuelewa jinsi mifumo hii inavyofanya kazi ni muhimu ili kufahamu umuhimu wa utafiti huo. Katika msingi wao, LLMs ni injini za utabiri zenye ustadi wa ajabu. Zinafundishwa kwa kiasi kikubwa mno cha maandishi na msimbo, zikijifunza uhusiano tata wa kitakwimu kati ya maneno, virai, na dhana. Mchakato huu wa kujifunza unaziwezesha kuzalisha maandishi yenye mtiririko mzuri, kutafsiri lugha, kuandika aina mbalimbali za maudhui ya ubunifu, na kujibu maswali kwa njia yenye taarifa. Ingawa lengo ni kwa mfumo kujumlisha mifumo badala ya kuhifadhi habari neno kwa neno tu, ukubwa mkubwa wa data ya mafunzo hufanya kiwango fulani cha kukariri kuwa karibu kuepukika. Fikiria kama mwanafunzi anayesoma vitabu vingi vya kiada; ingawa wanalenga kuelewa dhana, wanaweza kukariri bila kukusudia sentensi au ufafanuzi maalum, hasa zile za kipekee. Uchunguzi wa awali tayari umeonyesha mifumo ya kuzalisha picha ikizalisha upya vipengele vinavyotambulika kutoka kwenye filamu walizofundishwa nazo, na mifumo ya lugha ikizalisha maandishi yanayofanana sana na, au kunakiliwa moja kwa moja kutoka, vyanzo kama makala za habari. Jambo hili linazua wasiwasi mkubwa kuhusu wizi wa kazi za kitaaluma na uhalisi wa kweli wa maudhui yanayozalishwa na AI.

Mbinu iliyopendekezwa na watafiti ni ya werevu na inafichua. Inajikita katika kutambua na kutumia kile wanachokiita ‘maneno yenye mshangao mkubwa’ (‘high-surprisal’ words). Haya ni maneno yanayoonekana kuwa yasiyo ya kawaida kitakwimu au yasiyotarajiwa ndani ya muktadha maalum wa sentensi au kifungu. Fikiria kirai: ‘Baharia mzee aliongoza kwa mwanga hafifu wa sextant.’ Neno ‘sextant’ linaweza kuchukuliwa kuwa lenye mshangao mkubwa kwa sababu, katika mkusanyiko mkuu wa maandishi, maneno kama ‘nyota,’ ‘mwezi,’ au ‘dira’ yanaweza kuwa na uwezekano mkubwa zaidi kitakwimu katika muktadha huo. Watafiti walidhani kwamba ikiwa mfumo umekariri kweli kifungu maalum cha maandishi wakati wa mafunzo, ungekuwa na uwezo wa kipekee wa kutabiri maneno haya ya kipekee, yenye mshangao mkubwa ikiwa yangeondolewa kwenye kifungu.

Ili kupima dhana hii, timu ya utafiti ilichunguza kwa utaratibu mifumo kadhaa kuu ya OpenAI, ikiwa ni pamoja na GPT-4 yenye nguvu na mtangulizi wake, GPT-3.5. Walichukua vijisehemu vya maandishi kutoka vyanzo vinavyojulikana, kama vile riwaya maarufu za kubuni na makala kutoka The New York Times. Muhimu zaidi, walificha au kuondoa maneno yaliyotambuliwa kuwa na mshangao mkubwa kutoka kwenye vijisehemu hivi. Mifumo hiyo kisha iliulizwa kujaza mapengo – kimsingi, ‘kukisia’ maneno yaliyokosekana, yasiyowezekana kitakwimu. Mantiki kuu ya utafiti huo inavutia: ikiwa mfumo unatabiri kwa usahihi na mara kwa mara maneno haya yenye mshangao mkubwa, inaashiria kwa nguvu kwamba mfumo haukujifunza tu mifumo ya jumla ya lugha bali ulihifadhi kumbukumbu maalum ya mfuatano huo halisi wa maandishi kutoka kwenye data yake ya mafunzo. Bahati nasibu au uelewa wa jumla wa lugha pekee haungeweza kutoa makisio sahihi kama hayo kwa maneno yasiyo ya kawaida katika miktadha maalum.

Matokeo: Mwangwi wa Maandishi yenye Hakimiliki katika Matokeo ya AI

Matokeo yaliyopatikana kutokana na majaribio haya ya kina yanatoa ushahidi wa kuvutia, ingawa wa awali, unaounga mkono madai ya ukiukaji wa hakimiliki. Kulingana na matokeo yaliyochapishwa ya utafiti huo, GPT-4, mfumo wa hali ya juu zaidi wa OpenAI uliokuwa unapatikana kwa umma wakati wa utafiti, ulionyesha dalili kubwa za kuwa umekariri sehemu neno kwa neno za vitabu maarufu vya kubuni. Hii ilijumuisha maandishi yaliyopatikana ndani ya seti maalum ya data inayojulikana kama BookMIA, ambayo inajumuisha sampuli zilizotolewa kutoka vitabu vya kielektroniki vyenye hakimiliki – seti ya data ambayo mara nyingi huhusishwa katika majadiliano kuhusu vyanzo vya mafunzo vinavyoweza kukiuka sheria. Mfumo haukuwa unakumbuka tu mada au mitindo ya jumla; ulikuwa unajenga upya kwa usahihi mfuatano wa maandishi uliokuwa na maneno hayo ya kipekee, yenye mshangao mkubwa, ikionyesha kiwango cha kina cha uhifadhi kuliko ujumlishaji rahisi wa mifumo.

Zaidi ya hayo, uchunguzi ulifichua kuwa GPT-4 pia ilionyesha ushahidi wa kukariri sehemu kutoka makala za The New York Times. Hata hivyo, watafiti walibaini kuwa kiwango cha dhahiri cha kukariri kwa makala za habari kilikuwa cha chini ikilinganishwa na kile kilichoonekana kwa vitabu vya kubuni. Tofauti hii inaweza kuhusishwa na sababu mbalimbali, kama vile marudio au uwasilishaji wa aina hizi tofautiza maandishi ndani ya seti ya data ya mafunzo ya awali, au labda tofauti katika jinsi mfumo ulivyochakata nathari ya uandishi wa habari dhidi ya nathari ya hadithi. Bila kujali kiwango halisi, ukweli kwamba kukariri kulitokea katika aina tofauti za maudhui yenye hakimiliki – kazi za fasihi na vipande vya uandishi wa habari – kunaimarisha hoja kwamba jambo hili halitokei tu katika aina moja ya maandishi au chanzo kimoja.

Matokeo haya yana uzito mkubwa katika majadiliano yanayoendelea ya kisheria na kimaadili. Ikiwa mifumo kama GPT-4 ina uwezo wa kurudia vifungu maalum, vyenye hakimiliki ilivyofundishwa navyo, inatatiza utetezi wa ‘fair use’ wa OpenAI. ‘Fair use’ mara nyingi hupendelea matumizi yanayobadilisha kazi ya asili; uzalishaji neno kwa neno, hata kama si wa kukusudia au wa uwezekano, unaelemea mbali na mabadiliko na kuelekea kwenye kunakili rahisi. Ushahidi huu unaweza kutumiwa na wadai katika kesi za hakimiliki kubishana kuwa mazoea ya mafunzo ya OpenAI yalisababisha kuundwa kwa kazi zinazotokana na kazi nyingine zinazokiuka sheria au kuwezesha ukiukaji wa moja kwa moja kupitia matokeo ya mfumo. Inasisitiza uhusiano dhahiri kati ya data iliyotumiwa kwa mafunzo na matokeo maalum yanayozalishwa na AI, na kufanya dhana isiyo dhahiri ya ‘kujifunza mifumo’ kuhisiwa kuwa karibu zaidi na uzalishaji halisi.

Umuhimu wa Kuaminika na Uwazi katika Maendeleo ya AI

Abhilasha Ravichander, mwanafunzi wa udaktari katika University of Washington na mmoja wa waandishi wenza wa utafiti huo, alisisitiza athari pana za utafiti wao. Alieleza kuwa matokeo haya yanaangazia kwa kina ‘data yenye utata’ inayoweza kuwa msingi wa mifumo mingi ya kisasa ya AI. Uwezo wa kutambua maudhui yaliyokaririwa unatoa dirisha, hata kama ni dogo, katika seti za data za mafunzo ambazo kwa kawaida huwa siri zinazotumiwa na makampuni kama OpenAI.

Ravichander alielezea hisia inayokua ndani ya jamii ya utafiti wa AI na miongoni mwa umma: ‘Ili kuwa na mifumo mikubwa ya lugha inayoaminika, tunahitaji kuwa na mifumo tunayoweza kuichunguza na kuikagua na kuichunguza kisayansi.’ Kauli hii inasisitiza changamoto muhimu inayokabili sekta ya AI. Kadiri mifumo hii inavyozidi kuingizwa katika nyanja mbalimbali za jamii – kutoka kuzalisha makala za habari na kuandika msimbo hadi kusaidia katika utambuzi wa kimatibabu na uchambuzi wa kifedha – hitaji la kuaminika na uwajibikaji linakuwa muhimu sana. Watumiaji, wadhibiti, na umma wanahitaji uhakikisho kwamba mifumo hii inafanya kazi kwa haki, kwa uhakika, na kimaadili. Asili ya ‘kisanduku cheusi’ ya LLMs nyingi za sasa, ambapo hata waundaji wao wanaweza wasielewe kikamilifu kila undani wa utendaji wao wa ndani au asili halisi ya matokeo maalum, inazuia ujenzi wa imani hii.

Mbinu iliyopendekezwa na utafiti huo inawakilisha zaidi ya mbinu tu ya kugundua kukariri hakimiliki; inatumika kama zana inayowezekana kwa ukaguzi mpana wa AI. Uwezo wa kuchunguza mifumo, hata ile inayopatikana tu kupitia APIs, inaruhusu uthibitishaji na uchambuzi huru. Ravichander alisisitiza zaidi ‘hitaji la dharura la uwazi zaidi wa data katika mfumo mzima wa ikolojia.’ Bila kujua ni data gani mifumo hii inafundishwa nayo, inakuwa vigumu sana kutathmini upendeleo unaowezekana, kutambua udhaifu wa usalama, kuelewa chanzo cha matokeo mabaya au yasiyo sahihi, au, kama utafiti huu unavyoangazia, kuamua kiwango cha ukiukaji unaowezekana wa hakimiliki. Wito wa uwazi si wa kitaaluma tu; ni hitaji la msingi kwa ajili ya kujenga mustakabali wa AI wenye uwajibikaji na endelevu. Hii inahusisha mabadilishano magumu kati ya kulinda taarifa za umiliki na mali ya kiakili (ikiwa ni pamoja na mifumo yenyewe) na kuhakikisha uwajibikaji na usalama wa umma. Maendeleo ya zana na mifumo thabiti ya ukaguzi, pamoja na viwango vilivyo wazi zaidi vya ufichuaji wa data, yanazidi kuwa muhimu kadiri AI inavyoendelea na maendeleo yake ya haraka.

Msimamo wa OpenAI na Njia Isiyojulikana Iliyo Mbele

Ikikabiliwa na shinikizo linaloongezeka kutoka kwa wabunifu na watunga sheria, OpenAI imeendelea kutetea mazingira ya kisheria na udhibiti yanayoruhusu matumizi mapana ya nyenzo zenye hakimiliki kwa ajili ya kufundisha mifumo ya AI. Kampuni hiyo inasema kuwa unyumbufu huo ni muhimu kwa uvumbuzi na kwa US kudumisha ushindani katika mbio za kimataifa za AI. Juhudi zao za ushawishi zimejikita katika kushawishi serikali duniani kote kutafsiri au kuweka sheria zilizopo za hakimiliki, hasa dhana ya ‘fair use’ nchini Marekani, kwa namna inayowapendelea watengenezaji wa AI. Wanadai kuwa kufundisha mifumo kwenye seti mbalimbali za data, ikiwa ni pamoja na kazi zenye hakimiliki, ni matumizi ya kubadilisha yanayohitajika ili kuunda mifumo ya AI yenye nguvu na manufaa.

Hata hivyo, ikitambua wasiwasi unaokua, OpenAI pia imechukua hatua kadhaa kushughulikia suala hilo, ingawa ni hatua ambazo wakosoaji mara nyingi huziona kuwa hazitoshi. Kampuni imeingia katika makubaliano ya leseni ya maudhui na wachapishaji na waundaji fulani wa maudhui, ikipata ruhusa ya wazi ya kutumia nyenzo zao. Mikataba hii, ingawa ni muhimu, inawakilisha sehemu ndogo tu ya data ambayo huenda ilitumika kufundisha mifumo kama GPT-4. Zaidi ya hayo, OpenAI imetekeleza mifumo ya kujiondoa (‘opt-out mechanisms’). Hii inaruhusu wamiliki wa hakimiliki kuomba rasmi kwamba maudhui yao yasitumike kwa madhumuni ya mafunzo ya AI yajayo. Ingawa inaonekana kama hatua kuelekea kuheshimu haki za wabunifu, ufanisi na utekelezekaji wa mifumo hii ya kujiondoa una utata. Inaweka jukumu kwa wabunifu binafsi kugundua kuwa kazi yao inaweza kutumika na kisha kufuata taratibu maalum za OpenAI ili kujiondoa. Zaidi ya hayo, mifumo hii kwa kawaida haishughulikii matumizi ya maudhui katika mifumo ambayo tayari imefundishwa.

Hali ya sasa inaonyesha mvutano wa kimsingi: hamu ya makampuni ya AI kutumia ulimwengu mkubwa wa kidijitali wa habari kwa uvumbuzi dhidi ya haki ya wabunifu kudhibiti na kufaidika na kazi zao za asili. Utafiti unaoonyesha kukariri unaongeza safu nyingine ya utata, ukidokeza kwamba mstari kati ya ‘kujifunza kutoka’ na ‘kunakili’ data hauko wazi na labda unavukwa mara nyingi zaidi kuliko ilivyokubaliwa hapo awali na watengenezaji wa mifumo. Njia ya mbele bado haijulikani. Inaweza kuhusisha sheria mpya inayoshughulikia hasa data ya mafunzo ya AI, maamuzi ya kihistoria ya mahakama yanayotafsiri sheria iliyopo ya hakimiliki katika muktadha huu mpya, maendeleo ya mbinu bora za sekta nzima na mifumo ya leseni, au suluhisho za kiteknolojia kama ufuatiliaji bora wa asili ya data au mbinu za kupunguza kukariri kwa mifumo. Kinachoonekana wazi ni kwamba mjadala kuhusu AI na hakimiliki uko mbali na kumalizika; kwa kweli, unaweza kuwa ndio unaanza, ukiwa na athari kubwa kwa mustakabali wa akili bandia na uchumi wa ubunifu. Matokeo kuhusu kukariri yanatumika kama ukumbusho dhahiri kwamba data ya kidijitali inayochochea zana hizi zenye nguvu ina asili, wamiliki, na haki ambazo haziwezi kupuuzwa.