Udanganyifu Mkubwa wa AI 'Chanzo Huria': Wito wa Uadilifu

Kushusha Thamani Dhana ya Msingi: Mmomonyoko wa 'Chanzo Huria'

Neno ‘chanzo huria’ hapo awali lilikuwa kama mwanga katika nyanja za teknolojia na sayansi. Liliwakilisha maadili yenye nguvu yaliyojikita katika uwazi, upatikanaji usio na vikwazo, uboreshaji shirikishi, na kanuni ya msingi ya uwezo wa kurudiwa. Kwa vizazi vya watafiti na watengenezaji programu, liliashiria kujitolea kwa maarifa ya pamoja na maendeleo ya pamoja. Kuanzia zana za msingi za takwimu zinazopatikana katika mazingira kama R Studio, ambazo huwezesha uchambuzi mwingi katika taaluma mbalimbali, hadi majukwaa ya kisasa ya uigaji kama OpenFOAM, yanayotumika kufumbua utata wa mienendo ya vimiminika, programu za chanzo huria zimekuwa kichocheo muhimu kwa uvumbuzi. Zilichochea ugunduzi kwa kuruhusu wanasayansi duniani kote kukagua, kuthibitisha, kurekebisha, na kujenga juu ya kazi za wengine, kuhakikisha kuwa matokeo yanaweza kurudiwa na kuthibitishwa – msingi hasa wa mbinu ya kisayansi.

Hata hivyo, kivuli sasa kinatanda juu ya jina hili linaloaminika, kikitupwa na uwanja unaokua kwa kasi wa akili bandia (AI). Kama ilivyoangaziwa katika mijadala ya hivi karibuni ya ukosoaji, ikiwa ni pamoja na ile iliyotajwa na machapisho kama Nature, mwenendo wa kutia wasiwasi umeibuka ambapo watengenezaji mashuhuri wa AI wanatumia lebo ya ‘chanzo huria’ kwa mifumo yao huku wakizuia kwa wakati mmoja vipengele muhimu vinavyohitajika kwa uwazi halisi. Kitendo hiki kina hatari ya kupunguza maana ya neno hilo, kulibadilisha kutoka ishara ya uwazi hadi kauli mbiu ya uuzaji inayoweza kupotosha. Suala kuu mara nyingi liko katika asili ya kipekee ya mifumo ya kisasa ya AI. Tofauti na programu za jadi ambapo msimbo chanzo ndio muhimu zaidi, nguvu na tabia ya mifumo mikubwa ya AI imeunganishwa bila kutenganishwa na hifadhidata kubwa zilizotumika kwa mafunzo yao na miundo tata inayowafafanua. Wakati upatikanaji wa data hii ya mafunzo au taarifa za kina kuhusu ujenzi wa mfumo na uzito wake unapozuiliwa, madai ya kuwa ‘chanzo huria’ hayana msingi, bila kujali kama sehemu fulani ya msimbo wa mfumo inapatikana. Tofauti hii inagonga kiini cha falsafa ya chanzo huria, ikijenga udanganyifu wa upatikanaji huku ikificha vipengele muhimu zaidi kwa uchunguzi huru na urudiaji.

Umuhimu wa Uwazi wa Kweli katika AI ya Kisayansi

Viwango vinavyohusiana na kudumisha uwazi halisi katika AI, hasa ndani ya uwanja wa kisayansi, haviwezi kuwa juu zaidi. Sayansi hustawi kutokana na uwezo wa kuthibitisha matokeo kwa uhuru, kuelewa mbinu, na kujenga juu ya kazi za awali. Wakati zana zenyewe – mifumo ya AI inayozidi kuwa ya kisasa – zinapokuwa masanduku meusi, mchakato huu wa msingi unahatarishwa. Kutegemea mifumo ya AI ambayo utendaji wake wa ndani, upendeleo wa data ya mafunzo, au njia zinazowezekana za kushindwa hazijulikani huleta kiwango kisichokubalika cha kutokuwa na uhakika katika utafiti. Mwanasayansi anawezaje kwa ujasiri kujenga hitimisho juu ya matokeo ya AI ikiwa mambo yanayounda matokeo hayo hayajulikani au hayawezi kuthibitishwa? Jamii inawezaje kuamini matokeo yaliyotolewa na mifumo ya umiliki ambayo haiwezi kukaguliwa au kurudiwa kwa uhuru?

Mafanikio ya kihistoria ya programu za chanzo huria katika sayansi yanatoa tofauti kubwa na kigezo wazi. Uwazi uliomo katika miradi ya jadi ya chanzo huria ulijenga uaminifu na kuwezesha mapitio thabiti ya rika. Watafiti wangeweza kuchunguza algoriti, kuelewa mapungufu yao, na kuzibadilisha kwa mahitaji maalum. Mfumo huu wa ikolojia shirikishi uliharakisha maendeleo katika nyanja kuanzia bioinformatiki hadi astrofizikia. Uwezo wa AI kubadilisha ugunduzi wa kisayansi ni mkubwa, ukiahidi kuchambua hifadhidata tata, kutoa nadharia tete, na kuiga michakato tata kwa viwango visivyo na kifani. Hata hivyo, kutambua uwezo huu kunategemea kudumisha kanuni zile zile za uwazi na uwezo wa kurudiwa ambazo zimekuwa zikiimarisha maendeleo ya kisayansi daima. Mabadiliko kuelekea mifumo ya AI iliyofungwa, ya umiliki, hata ile inayojifanya kuwa ‘wazi’, inatishia kugawanya jamii ya watafiti, kuzuia ushirikiano, na hatimaye kupunguza kasi ya ugunduzi kwa kuweka vizuizi vya uelewa na uthibitisho. Juhudi za kisayansi zinahitaji zana ambazo sio tu zenye nguvu, bali pia zilizo wazi na zinazoaminika.

Kitendawili cha Data: Changamoto ya Uwazi ya AI

Kiini cha mjadala wa ‘chanzo huria’ katika AI kipo katika suala muhimu la data ya mafunzo. Tofauti na programu za kawaida zinazofafanuliwa hasa na msimbo wake, mifumo mikubwa ya lugha (LLMs) na mifumo mingine ya msingi ya AI huundwa kimsingi na hifadhidata kubwa wanazotumia wakati wa maendeleo yao. Sifa, upendeleo, na asili ya data hii huathiri kwa kiasi kikubwa tabia ya mfumo, uwezo wake, na mapungufu yake yanayoweza kutokea. Uwazi wa kweli katika AI, kwa hivyo, unahitaji kiwango cha uwazi kuhusu data hii ambacho kinapita zaidi ya kutoa tu uzito wa mfumo au msimbo wa utabiri.

Mifumo mingi inayouzwa sasa chini ya mwavuli wa ‘chanzo huria’ inapungukiwa sana katika eneo hili. Fikiria mifano mashuhuri kama mfululizo wa Llama wa Meta, Phi-2 ya Microsoft, au Mixtral ya Mistral AI. Ingawa kampuni hizi hutoa vipengele fulani, kuruhusu watengenezaji kuendesha au kuboresha mifumo, mara nyingi huweka vikwazo vikubwa au kutoa maelezo machache kuhusu data ya msingi ya mafunzo. Hifadhidata zinazohusika zinaweza kuwa kubwa sana, za umiliki, zilizokusanywa kutoka kwa wavuti bila uangalizi mwingi, au chini ya vikwazo vya leseni, na kufanya utoaji kamili kwa umma kuwa changamoto au kutowezekana. Hata hivyo, bila taarifa kamili kuhusu:

  • Vyanzo vya Data: Taarifa ilitoka wapi? Ilikuwa hasa maandishi, picha, msimbo? Kutoka kwa tovuti zipi, vitabu, au hifadhidata?
  • Usimamizi wa Data: Data ilichujwaje, kusafishwa, na kuchakatwa? Vigezo gani vilitumika kujumuisha au kuondoa taarifa?
  • Sifa za Data: Ni upendeleo gani unaojulikana ndani ya data (k.m., idadi ya watu, utamaduni, lugha)? Inashughulikia kipindi gani cha wakati?
  • Hatua za Uchakataji Awali: Ni mabadiliko gani yaliyotumika kwa data kabla ya mafunzo?

…inakuwa vigumu sana kwa watafiti huru kuelewa kikamilifu tabia ya mfumo, kurudia maendeleo yake, au kutathmini kwa kina upendeleo wake unaowezekana na sehemu za kushindwa. Ukosefu huu wa uwazi wa data ndio sababu kuu kwa nini matoleo mengi ya sasa ya AI ya ‘chanzo huria’ yanashindwa kufikia roho, ikiwa sio herufi, ya uwazi halisi ulioanzishwa katika ulimwengu wa programu. Kwa kulinganisha, mipango kama mfumo wa OLMo wa Allen Institute for AI au juhudi zinazoendeshwa na jamii kama vile CrystalCoder ya LLM360 zimefanya juhudi zaidi kutoa uwazi mkubwa kuhusu data zao na mbinu za mafunzo, kuweka kiwango cha juu zaidi kinacholingana na maadili ya jadi ya chanzo huria.

'Kujisafisha kwa Uwazi': Uwekaji Lebo wa Kimkakati au Kukwepa Udhibiti?

Utwaaji wa lebo ya ‘chanzo huria’ na vyombo ambavyo havikubali kikamilifu kanuni zake kumezua wasiwasi kuhusu ‘kujisafisha kwa uwazi’ (openwashing). Neno hili linaelezea kitendo cha kutumia maana chanya ya uwazi kwa manufaa ya mahusiano ya umma au faida ya kimkakati, bila kujitolea kwa kiwango kinachohusiana cha uwazi na upatikanaji. Kwa nini kampuni zinaweza kujihusisha na hili? Sababu kadhaa zinaweza kuwa zinahusika. Chapa ya ‘chanzo huria’ hubeba nia njema kubwa, ikipendekeza kujitolea kwa jamii na maendeleo ya pamoja, ambayo inaweza kuvutia watengenezaji na wateja.

Zaidi ya hayo, kama ilivyobainishwa na Nature na waangalizi wengine, mazingira ya udhibiti yanaweza bila kukusudia kuhamasisha tabia kama hiyo. Sheria muhimu ya AI ya Umoja wa Ulaya (EU AI Act), iliyokamilishwa mwaka 2024, inajumuisha masharti yanayoweka mahitaji magumu zaidi kwa mifumo ya AI yenye hatari kubwa na ya matumizi ya jumla. Hata hivyo, pia ina misamaha inayowezekana au mahitaji mepesi kwa mifumo ya AI iliyotolewa chini ya leseni za chanzo huria. Hii inaunda mwanya unaowezekana ambapo kampuni zinaweza kimkakati kuweka lebo mifumo yao kama ‘chanzo huria’ – hata kama vipengele muhimu kama data ya mafunzo vinabaki vimezuiliwa – hasa ili kukwepa vikwazo vya udhibiti na kuepuka majukumu magumu zaidi ya kufuata sheria.

Uwezekano huu wa usuluhishi wa udhibiti unatia wasiwasi mkubwa. Ikiwa ‘kujisafisha kwa uwazi’ kunaruhusu mifumo yenye nguvu ya AI kukwepa uchunguzi uliokusudiwa kuhakikisha usalama, haki, na uwajibikaji, inadhoofisha madhumuni hasa ya udhibiti huo. Pia inaweka jamii ya kisayansi katika hali tete. Watafiti wanaweza kuvutiwa na mifumo hii inayoitwa ‘wazi’ kwa sababu ya upatikanaji wake ikilinganishwa na matoleo ya kibiashara yaliyofungwa kabisa, na kujikuta wakitegemea zana ambazo mbinu zake zinabaki zisizoeleweka na zisizoweza kuthibitishwa. Utegemezi huu una hatari ya kuathiri uadilifu wa kisayansi, na kufanya iwe vigumu kuhakikisha utafiti unaweza kurudiwa, hauna upendeleo, na umejengwa juu ya msingi imara, unaoeleweka. Mvuto wa lebo inayojulikana unaweza kuficha vikwazo vya msingi vinavyozuia uchunguzi halisi wa kisayansi.

Kufafanua Upya Uwazi kwa Enzi ya AI: Mfumo wa OSAID

Kutambua kutotosheleza kwa ufafanuzi wa jadi wa chanzo huria kwa changamoto za kipekee zinazoletwa na AI, Open Source Initiative (OSI) – msimamizi wa muda mrefu wa kanuni za chanzo huria – ameanzisha juhudi muhimu za kimataifa. Lengo lao ni kuanzisha ufafanuzi wazi, thabiti uliobuniwa mahsusi kwa akili bandia: Ufafanuzi wa AI Chanzo Huria (OSAID 1.0). Mpango huu unawakilisha hatua muhimu kuelekea kurejesha maana ya ‘wazi’ katika muktadha wa AI na kuweka viwango visivyo na utata vya uwazi na uwajibikaji.

Ubunifu muhimu ndani ya mfumo uliopendekezwa wa OSAID ni dhana ya ‘taarifa za data’. Kwa kutambua kuwa utoaji kamili wa hifadhidata kubwa za mafunzo mara nyingi unaweza kuwa hauwezekani au kuzuiwa kisheria kutokana na wasiwasi wa faragha, vikwazo vya hakimiliki, au ukubwa tu, OSAID inazingatia kuamuru ufichuzi kamili kuhusu data. Hii inajumuisha mahitaji kwa watengenezaji kutoa taarifa za kina kuhusu:

  1. Vyanzo na Muundo: Kutambua wazi asili ya data ya mafunzo.
  2. Sifa: Kuandika sifa zinazojulikana, mapungufu, na upendeleo unaowezekana ndani ya data.
  3. Mbinu za Maandalizi: Kuelezea michakato iliyotumika kusafisha, kuchuja, na kuandaa data kwa ajili ya mafunzo.

Hata kama data ghafi haiwezi kushirikiwa, kutoa metadata hii kunaruhusu watafiti na wakaguzi kupata ufahamu muhimu kuhusu mambo yaliyounda mfumo wa AI. Inawezesha uelewa bora wa upendeleo unaowezekana, inaruhusu tathmini za hatari zenye taarifa zaidi, na inatoa msingi wa kujaribu kurudia au kufanya tafiti linganishi.

Zaidi ya taarifa za data, juhudi za OSI, pamoja na utetezi kutoka kwa mashirika kama Open Future, zinakuza mabadiliko mapana kuelekea mfumo wa ‘data-commons’. Hii inaona mustakabali ambapo hifadhidata muhimu kwa mafunzo ya AI zinatunzwa na kupatikana kwa uwazi zaidi na kwa usawa, kukuza mfumo wa ikolojia wa uwazi zaidi na shirikishi kwa maendeleo ya AI, hasa ndani ya jamii ya watafiti. Ufafanuzi wa OSAID unalenga kutoa kigezo wazi ambacho mifumo ya AI inaweza kutathminiwa, kwenda zaidi ya lebo za juu juu ili kutathmini kujitolea halisi kwa uwazi.

Wajibu wa Pamoja: Kuendesha Uwazi Halisi wa AI

Changamoto ya kuhakikisha uwazi halisi katika AI haiwezi kutatuliwa kwa ufafanuzi pekee; inahitaji hatua za pamoja kutoka kwa wadau mbalimbali. Jamii ya kisayansi, kama watengenezaji na watumiaji wakuu wa zana za kisasa za AI, ina jukumu kubwa. Watafiti lazima washiriki kikamilifu na mipango kama OSAID 1.0, wakielewa kanuni zake na kutetea kupitishwa kwake. Wanahitaji kutathmini kwa kina madai ya ‘uwazi’ ya mifumo ya AI wanayofikiria kutumia, wakipa kipaumbele yale yanayotoa uwazi zaidi kuhusu data ya mafunzo na mbinu, hata kama inahitaji kupinga mvuto wa mifumo inayoonekana rahisi lakini isiyo wazi. Kuelezea hitaji la zana za AI zinazoweza kuthibitishwa, kurudiwa katika machapisho, mikutano, na mijadala ya kitaasisi ni muhimu sana.

Mashirika ya ufadhili wa umma na vyombo vya serikali pia vina jukumu muhimu la kutekeleza. Wana ushawishi mkubwa kupitia mahitaji ya ruzuku na sera za ununuzi. Taasisi kama Taasisi za Kitaifa za Afya za Marekani (NIH), ambazo tayari zinaamuru leseni huria kwa data ya utafiti inayotokana na ufadhili wake, zinatoa mfano muhimu. Vile vile, mifano kama hitaji la Italia kwa vyombo vya utawala wa umma kutoa kipaumbele kwa programu za chanzo huria inaonyesha jinsi sera inaweza kuendesha upitishwaji. Kanuni hizi zinaweza na zinapaswa kupanuliwa hadi kwenye uwanja wa AI. Serikali na mashirika ya ufadhili yanapaswa kuzingatia:

  • Kuamuru uzingatiaji wa viwango thabiti vya AI Chanzo Huria (kama OSAID) kwa utafiti na maendeleo ya AI yanayofadhiliwa na umma.
  • Kuwekeza katika uundaji wa hifadhidata za kweli zilizo wazi, zenye ubora wa juu – ‘data commons’ – zinazofaa kwa mafunzo ya mifumo ya AI inayolenga utafiti.
  • Kuhakikisha kuwa kanuni, kama Sheria ya AI ya EU, zinatekelezwa kwa njia inayozuia ‘kujisafisha kwa uwazi’ na inawajibisha mifumo yote yenye nguvu ya AI, bila kujali madai yao ya leseni.

Hatimaye, kulinda mustakabali wa AI katika utafiti kunahitaji msimamo wa pamoja. Wanasayansi lazima wadai uwazi, taasisi lazima zitekeleze sera zinazotanguliza uwazi halisi, na wadhibiti lazima wahakikishe kuwa lebo ya ‘chanzo huria’ inaashiria kujitolea kwa maana kwa uwajibikaji, sio njia rahisi ya kukwepa. Bila juhudi hizi za pamoja, uwezo mkubwa wa AI kwa ugunduzi wa kisayansi uko hatarini kuathiriwa na mazingira yanayotawaliwa na mifumo iliyofungwa, ya umiliki, na kudhoofisha kimsingi asili ya ushirikiano na uthibitisho wa maendeleo ya kisayansi yenyewe. Uadilifu wa utafiti wa baadaye uko hatarini.