Maendeleo yasiyokoma ya akili bandia (AI), yakiongozwa na makampuni makubwa kama OpenAI, mara kwa mara hugongana na kanuni za muda mrefu za umiliki wa akili na umiliki wa data. Mgongano huu umeibua utata tena, huku madai mapya yakijitokeza kuwa modeli mpya kabisa ya OpenAI, GPT-4o, huenda ilifunzwa kwa kutumia nyenzo zenye hakimiliki zilizofichwa nyuma ya kuta za malipo, pengine bila kupata ruhusa zinazohitajika. Madai haya yanatoka kwa kikundi kipya cha uangalizi, AI Disclosures Project, na kuongeza safu nyingine ya utata kwenye mjadala tayari mgumu unaohusu upatikanaji wa kimaadili wa data kwa ajili ya kufunza mifumo ya kisasa ya AI.
Mlio wa Mbwa Mlinzi: Madai kutoka kwa AI Disclosures Project
Ilizinduliwa mwaka 2024, AI Disclosures Project inajiweka kama taasisi isiyo ya faida iliyojitolea kuchunguza mazoea ambayo mara nyingi huwa hayawekwi wazi ndani ya sekta ya AI. Waanzilishi wake wanajumuisha watu mashuhuri kama vile mjasiriamali wa vyombo vya habari Tim O’Reilly, mwanzilishi wa O’Reilly Media, mchapishaji maarufu wa vitabu vya kiufundi, na mwanauchumi Ilan Strauss. Uhusiano huu na O’Reilly Media ni muhimu hasa, kwani ripoti ya awali ya kushtua ya mradi huo inalenga hasa madai ya kuwepo kwa maudhui ya vitabu vya O’Reilly yaliyolipiwa ndani ya seti ya data ya mafunzo ya GPT-4o.
Dai kuu la utafiti wao linachochea mjadala: licha ya kutokuwepo kwa makubaliano yoyote ya leseni yanayojulikana kati ya OpenAI na O’Reilly Media, modeli ya GPT-4o inaonyesha kiwango cha juu cha ufahamu wa maudhui yaliyotokana moja kwa moja na vitabu vyenye hakimiliki vya O’Reilly. Ufahamu huu, ripoti inadai, unapendekeza kwa nguvu kuwa nyenzo hizi zilizolipiwa zilijumuishwa katika mkusanyiko mkubwa wa data uliotumiwa kujenga uwezo wa modeli hiyo. Utafiti unaangazia tofauti kubwa ikilinganishwa na modeli za zamani za OpenAI, hasa GPT-3.5 Turbo, ikidokeza mabadiliko yanayowezekana au upanuzi katika mazoea ya upatikanaji wa data kabla ya maendeleo ya GPT-4o.
Athari zake ni kubwa. Ikiwa maudhui ya umiliki, yaliyolipiwa yanaingizwa na modeli za AI bila idhini au fidia, inazua maswali ya msingi kuhusu sheria ya hakimiliki katika enzi ya AI generesheni. Wachapishaji na waandishi wanategemea mifumo ya usajili au ununuzi, inayotegemea upekee wa maudhui yao. Matumizi yanayodaiwa ya nyenzo hizi kwa mafunzo yanaweza kuonekana kama kudhoofisha mifumo hii ya biashara, na uwezekano wa kushusha thamani ya maudhui yenyewe ambayo yanahitaji uwekezaji mkubwa kuunda. Tuhuma hii mahususi inavuka mipaka ya ukusanyaji data kutoka kwa tovuti zinazopatikana hadharani, ikiingia katika eneo la kufikia maudhui yaliyokusudiwa wazi kwa wateja wanaolipa.
Kuchungulia Ndani ya Sanduku Jeusi: Shambulio la Uanachama wa Inference
Ili kuthibitisha madai yao, watafiti katika AI Disclosures Project walitumia mbinu ya kisasa inayojulikana kama ‘membership inference attack,’ hasa wakitumia njia wanayoiita DE-COP. Wazo kuu nyuma ya mbinu hii ni kupima ikiwa modeli ya AI ‘imekumbuka’ au angalau imeendeleza ufahamu mkubwa wa vipande maalum vya maandishi. Kimsingi, shambulio hilo linaichunguza modeli kuona ikiwa inaweza kutofautisha kwa uhakika kati ya vifungu vya maandishi asilia (katika kesi hii, kutoka kwa vitabu vya O’Reilly) na matoleo yaliyofafanuliwa kwa uangalifu ya vifungu hivyo hivyo, yaliyotengenezwa na AI nyingine.
Mantiki ya msingi ni kwamba ikiwa modeli inaonyesha mara kwa mara uwezo wa juu kuliko nasibu wa kutambua maandishi asilia yaliyoandikwa na binadamu ikilinganishwa na ufafanuzi wa karibu, inadokeza kuwa modeli imekutana na maandishi hayo asilia hapo awali - pengine wakati wa awamu yake ya mafunzo. Ni sawa na kupima ikiwa mtu anatambua picha maalum, isiyojulikana sana anayodai hajawahi kuiona; utambuzi thabiti unapendekeza kuiona hapo awali.
Ukubwa wa jaribio la AI Disclosures Project ulikuwa mkubwa. Walitumia vijisehemu 13,962 vya aya tofauti vilivyotolewa kutoka kwa vitabu 34 tofauti vya O’Reilly Media. Vijisehemu hivi viliwakilisha aina ya maudhui maalum, yenye thamani ya juu ambayo kwa kawaida hupatikana nyuma ya ukuta wa malipo wa mchapishaji. Utafiti huo kisha ulipima utendaji wa GPT-4o na mtangulizi wake, GPT-3.5 Turbo, kwenye kazi hii ya utofautishaji.
Matokeo, kama yalivyowasilishwa katika ripoti, yalikuwa ya kushangaza. GPT-4o ilionyesha uwezo ulioongezeka kwa kiasi kikubwa wa kutambua maudhui yaliyolipiwa ya O’Reilly. Utendaji wake ulipimwa kwa kutumia alama ya AUROC (Area Under the Receiver Operating Characteristic curve), kipimo cha kawaida cha kutathmini utendaji wa waainishaji wa binary. GPT-4o ilipata alama ya AUROC ya 82%. Kwa kulinganisha, GPT-3.5 Turbo ilipata alama zaidi kidogo ya 50%, ambayo kimsingi ni sawa na kubahatisha bila mpangilio - ikionyesha utambuzi mdogo au hakuna kabisa wa nyenzo zilizojaribiwa. Tofauti hii kubwa, ripoti inasema, inatoa ushahidi wa kushawishi, ingawa si wa moja kwa moja, kwamba maudhui yaliyolipiwa yalikuwa sehemu ya data ya mafunzo ya GPT-4o. Alama ya 82% inapendekeza ishara kali, zaidi ya kile kinachotarajiwa kwa bahati nasibu au maarifa ya jumla.
Tahadhari Muhimu na Maswali Yasiyojibiwa
Wakati matokeo yanawasilisha simulizi ya kushawishi, waandishi wenza wa utafiti huo, akiwemo mtafiti wa AI Sruly Rosenblat, wanakiri kwa kupongezwa mapungufu yanayoweza kuwepo katika mbinu zao na asili tata ya mafunzo ya AI. Tahadhari moja muhimu wanayoibua ni uwezekano wa uingizaji wa data usio wa moja kwa moja. Inawezekana, wanabainisha, kwamba watumiaji wa ChatGPT (kiolesura maarufu cha OpenAI) wanaweza kuwa walinakili na kubandika vijisehemu kutoka kwa vitabu vya O’Reilly vilivyolipiwa moja kwa moja kwenye kiolesura cha gumzo kwa madhumuni mbalimbali, kama vile kuuliza maswali kuhusu maandishi au kuomba muhtasari. Ikiwa hili lilitokea mara kwa mara vya kutosha, modeli ingeweza kujifunza maudhui hayo kwa njia isiyo ya moja kwa moja kupitia mwingiliano wa watumiaji, badala ya kujumuishwa moja kwa moja katika seti ya data ya mafunzo ya awali. Kutenganisha mfiduo wa mafunzo ya moja kwa moja kutoka kwa ujifunzaji usio wa moja kwa moja kupitia maagizo ya watumiaji bado ni changamoto kubwa katika uchunguzi wa AI.
Zaidi ya hayo, wigo wa utafiti haukupanuka hadi kwenye matoleo mapya kabisa ya OpenAI au matoleo maalum ya modeli ambayo yanaweza kuwa yameundwa au kutolewa wakati huo huo au baada ya mzunguko mkuu wa mafunzo wa GPT-4o. Modeli zinazoweza kujumuisha GPT-4.5 (ikiwa ipo chini ya jina hilo maalum au kiwango cha uwezo) na modeli zinazolenga hoja kama o3-mini na o1 hazikufanyiwa mashambulizi sawa ya ‘membership inference’. Hii inaacha wazi swali la ikiwa mazoea ya upatikanaji wa data yanaweza kuwa yamebadilika zaidi, au ikiwa modeli hizi mpya zinaonyesha mifumo sawa ya ufahamu wa maudhui yaliyolipiwa. Mizunguko ya haraka ya maendeleo katika AI inamaanisha kuwa uchambuzi wowote wa wakati mmoja una hatari ya kuwa umechelewa karibu mara moja.
Mapungufu haya si lazima yabatilishe matokeo makuu ya utafiti, lakini yanaongeza tabaka muhimu za ugumu. Kuthibitisha kwa uhakika kile kilicho ndani ya terabytes za data zilizotumiwa kufunza modeli ya msingi ni ngumu sana. Mashambulizi ya ‘membership inference’ hutoa ushahidi wa uwezekano, yakipendekeza uwezekano badala ya kutoa uhakika kamili. OpenAI, kama maabara zingine za AI, hulinda kwa karibu muundo wa data yake ya mafunzo, ikitaja wasiwasi wa umiliki na ushindani.
Mgogoro Mkubwa Zaidi: Vita vya Hakimiliki katika Uwanja wa AI
Madai yaliyotolewa na AI Disclosures Project hayapo katika ombwe. Yanawakilisha mapigano ya hivi karibuni katika mzozo mpana zaidi, unaoendelea kati ya watengenezaji wa AI na waundaji juu ya matumizi ya nyenzo zenye hakimiliki kwa madhumuni ya mafunzo. OpenAI, pamoja na wachezaji wengine mashuhuri kama Google, Meta, na Microsoft, inajikuta imekwama katika kesi nyingi za hadhi ya juu. Changamoto hizi za kisheria, zilizoletwa na waandishi, wasanii, mashirika ya habari, na wamiliki wengine wa haki, kwa ujumla zinadai ukiukaji mkubwa wa hakimiliki unaotokana na ukusanyaji na uingizaji usioidhinishwa wa kiasi kikubwa cha maandishi na picha kutoka kwenye mtandao ili kufunza modeli za AI generesheni.
Utetezi mkuu ambao mara nyingi hutolewa na kampuni za AI unategemea fundisho la matumizi ya haki (nchini Marekani) au vighairi sawa katika mamlaka zingine. Wanadai kuwa kutumia kazi zenye hakimiliki kwa mafunzo kunajumuisha matumizi ya ‘mabadiliko’ - modeli za AI hazinakili tu kazi za asili lakini zinatumia data kujifunza mifumo, mitindo, na habari ili kutoa matokeo mapya kabisa. Chini ya tafsiri hii, mchakato wa mafunzo wenyewe, unaolenga kuunda zana mpya yenye nguvu, unapaswa kuruhusiwa bila kuhitaji leseni kwa kila kipande cha data kilichoingizwa.
Hata hivyo, wamiliki wa haki wanapinga vikali mtazamo huu. Wanadai kuwa ukubwa wa kunakili unaohusika, asili ya kibiashara ya bidhaa za AI zinazojengwa, na uwezekano wa matokeo ya AI kushindana moja kwa moja na kuchukua nafasi ya kazi za asili vinapima uzito dhidi ya kupatikana kwa matumizi ya haki. Hoja ni kwamba kampuni za AI zinajenga biashara za mabilioni ya dola kwa kutumia kazi za ubunifu bila kuwalipa waundaji.
Kutokana na hali hii ya kisheria, OpenAI imejaribu kwa bidii kupunguza baadhi ya hatari kwa kufanya mikataba ya leseni na watoa huduma mbalimbali wa maudhui. Makubaliano yametangazwa na wachapishaji wakuu wa habari (kama Associated Press na Axel Springer), majukwaa ya mitandao ya kijamii (kama Reddit), na maktaba za vyombo vya habari vya hisa (kama Shutterstock). Mikataba hii inatoa OpenAI ufikiaji halali wa seti maalum za data kwa malipo, na uwezekano wa kupunguza utegemezi wake kwa data iliyokusanywa kwenye wavuti ambayo inaweza kukiuka sheria. Kampuni hiyo pia imeripotiwa kuajiri waandishi wa habari, ikiwapa jukumu la kusaidia kuboresha na kuongeza ubora na uaminifu wa matokeo ya modeli zake, ikionyesha ufahamu wa hitaji la pembejeo za hali ya juu, zinazoweza kuchaguliwa kwa uangalifu.
Athari za Mtetemeko: Wasiwasi wa Mfumo wa Ikolojia wa Maudhui
Ripoti ya AI Disclosures Project inapanua wasiwasi wake zaidi ya athari za kisheria za haraka kwa OpenAI. Inaweka suala hilo kama tishio la kimfumo ambalo linaweza kuathiri vibaya afya na utofauti wa mfumo mzima wa ikolojia wa maudhui ya kidijitali. Utafiti unapendekeza mzunguko mbaya unaoweza kutokea: ikiwa kampuni za AI zinaweza kutumia kwa uhuru maudhui ya hali ya juu, yaliyoundwa kitaalamu (pamoja na nyenzo zilizolipiwa) bila kuwalipa waundaji, inadhoofisha uwezekano wa kifedha wa kuzalisha maudhui kama hayo hapo kwanza.
Uundaji wa maudhui ya kitaalamu - iwe ni uandishi wa habari za uchunguzi, miongozo ya kina ya kiufundi, uandishi wa hadithi za kubuni, au utafiti wa kitaaluma - mara nyingi huhitaji muda mwingi, utaalamu, na uwekezaji wa kifedha. Kuta za malipo na mifumo ya usajili mara nyingi ni mifumo muhimu ya kufadhili kazi hii. Ikiwa mito ya mapato inayosaidia juhudi hizi itapungua kwa sababu maudhui yanatumiwa kwa ufanisi kufunza mifumo shindani ya AI bila malipo, motisha ya kuunda maudhui ya hali ya juu, yenye utofauti inaweza kupungua. Hii inaweza kusababisha umma usiokuwa na taarifa za kutosha, kupungua kwa rasilimali za maarifa maalum, na uwezekano wa mtandao kutawaliwa na maudhui ya ubora wa chini au yaliyotengenezwa na AI yasiyo na utaalamu na uthibitisho wa kibinadamu.
Kwa hivyo, AI Disclosures Project inatetea kwa nguvu uwazi zaidi na uwajibikaji kutoka kwa kampuni za AI kuhusu mazoea yao ya data ya mafunzo. Wanatoa wito wa utekelezaji wa sera thabiti na uwezekano wa mifumo ya udhibiti inayohakikisha waundaji wa maudhui wanalipwa fidia ipasavyo wakati kazi yao inachangia maendeleo ya modeli za kibiashara za AI. Hii inaunga mkono wito mpana kutoka kwa vikundi vya waundaji ulimwenguni kote wanaotafuta mifumo - iwe kupitia makubaliano ya leseni, mifumo ya mrabaha, au majadiliano ya pamoja - ili kuhakikisha wanapokea sehemu ya thamani inayotokana na mifumo ya AI iliyofunzwa kwenye mali yao ya kiakili. Mjadala unazingatia kutafuta usawa endelevu ambapo uvumbuzi wa AI unaweza kustawi pamoja na mfumo ikolojia unaostawi wa ubunifu wa kibinadamu na uzalishaji wa maarifa. Utatuzi wa vita vya kisheria vinavyoendelea na uwezekano wa sheria mpya au viwango vya sekta vitakuwa muhimu katika kuunda usawa huu wa baadaye. Swali la jinsi ya kufuatilia asili ya data na kuhusisha thamani katika modeli kubwa, tata za AI bado ni kikwazo kikubwa cha kiufundi na kimaadili.