AI Kwenye Kifaa: Matumizi Katika Uandishi wa Habari

Wimbo wa kuvutia wa akili bandia (artificial intelligence) unazidi kuwa juu, ukiahidi ufanisi na mabadiliko katika sekta mbalimbali. Matarajio yanayovutia hasa ni kuendesha miundo yenye nguvu ya AI moja kwa moja kwenye kompyuta binafsi, kuepuka utegemezi wa wingu, ada za usajili, na wasiwasi kuhusu faragha ya data. Makampuni makubwa kama Google, Meta, na Mistral AI yametoa Miundo Mikubwa ya Lugha (Large Language Models - LLMs) ya kisasa bila malipo kwa ajili ya kupakuliwa. Lakini je, upatikanaji huu unatafsirika kuwa manufaa ya kivitendo? Je, akili hizi za kidijitali, zilizofungiwa ndani ya silicon ya kompyuta ya mezani au laptop, zinaweza kweli kuongeza ufanisi katika michakato migumu kama uandishi wa habari? Maelezo haya yanatoa ripoti ya jaribio kubwa lililoundwa kujibu swali hilo hasa.

Kuweka Mazingira: Jaribio la AI ya Ndani

Kwa miezi kadhaa, juhudi za kujitolea zilifanywa kutathmini utendaji halisi wa LLMs mbalimbali zinazoweza kupakuliwa bila malipo na zinazofanya kazi kikamilifu kwenye vifaa vya ndani. Orodha ya miundo iliyochunguzwa ilikuwa tofauti, ikionyesha mazingira yanayobadilika kwa kasi ya AI ya chanzo huria:

  • Google Gemma (hasa toleo la 3)
  • Meta Llama (toleo la 3.3)
  • Anthropic Claude (toleo la 3.7 Sonnet – ingawa kwa kawaida hutegemea wingu, ujumuishaji wake unapendekeza upimaji mpana)
  • Matoleo mengi kutoka Mistral AI (ikiwa ni pamoja na Mistral, Mistral Small 3.1, Mistral Nemo, na Mixtral)
  • IBM Granite (toleo la 3.2)
  • Alibaba Qwen (toleo la 2.5)
  • DeepSeek R1 (safu ya hoja ambayo mara nyingi hutumika juu ya matoleo yaliyochujwa ya Qwen au Llama)

Lengo kuu lilikuwa kubwa lakini la kivitendo: kuamua ikiwa AI hizi zinazoendeshwa ndani ya nchi zinaweza kubadilisha manukuu ghafi ya mahojiano kuwa makala zilizoboreshwa na tayari kuchapishwa. Hii ilihusisha kutathmini sio tu uwezekano wa kiufundi – je, vifaa vinaweza kuhimili mzigo? – lakini pia matokeo ya ubora – je, maandishi yaliyotokana yalikuwa yanatumika? Ni muhimu kusema mapema kwamba kufikia makala iliyo tayari kuchapishwa kikamilifu na kiotomatiki kulithibitika kuwa gumu. Lengo kuu lilibadilika kuelekea kuelewa uwezo halisi na mapungufu ya AI ya sasa kwenye kifaa kupitia kisa hiki maalum na chenye changamoto.

Mbinu iliyochaguliwa ilijikita kwenye maagizo (prompt) makubwa. Hii ilijumuisha takriban tokeni 1,500 (kama herufi 6,000 au kurasa mbili kamili za maandishi) zilizoelezea kwa kina muundo wa makala unaohitajika, mtindo, na sauti. Kwenye seti hii ya maagizo kuliongezwa nakala ya mahojiano yenyewe, wastani wa tokeni 11,000 kwa mazungumzo ya kawaida ya dakika 45. Ukubwa mkubwa wa pembejeo hii iliyojumuishwa (mara nyingi kuzidi tokeni 12,500) kwa kawaida huzidi mipaka ya matumizi ya bure ya majukwaa mengi ya AI mtandaoni. Kizuizi hiki kilisisitiza mantiki ya kuchunguza uendeshaji wa ndani, ambapo uchakataji unabaki bure bila kujali ukubwa wa pembejeo, ukizuiliwa tu na uwezo wa mashine.

Utekelezaji wa majaribio haya ulihusisha kutumia LM Studio, programu maarufu ya jamii inayotoa kiolesura rahisi kama cha chatbot kwa kuingiliana na LLMs zinazoendeshwa ndani ya nchi. LM Studio inaunganisha kwa urahisi kazi za kupakua matoleo mbalimbali ya miundo, ingawa chanzo kikuu cha miundo hii inayopatikana bure kinabaki kuwa hazina ya Hugging Face, kitovu kikuu kwa jamii ya AI.

Kupitia Mzingile wa Kiufundi: Vifaa, Kumbukumbu, na Ukubwa wa Mfumo

Safari ya kuingia katika uchakataji wa AI wa ndani ilifunua haraka mwingiliano mgumu kati ya programu na vifaa. Ubora na kasi ya matokeo ya AI yalikuwa yamefungamana kwa karibu na rasilimali zilizopatikana kwenye mashine ya majaribio – Mac iliyo na mfumo wa Apple Silicon M1 Max kwenye chip (SoC) na RAM kubwa ya GB 64. Muhimu zaidi, usanifu huu una Unified Memory Architecture (UMA), inayoruhusu GB 48 za RAM kugawanywa kwa nguvu kati ya cores za processor (CPU), cores za graphics (GPU – zinazotumika kwa kuongeza kasi ya vekta), na cores za kitengo cha usindikaji wa neural (NPU – zinazotumika kwa kuongeza kasi ya matrix).

Mambo kadhaa muhimu ya kiufundi yaliibuka kama maamuzi:

  1. Vigezo vya Mfumo (Model Parameters): LLMs mara nyingi hupimwa kwa idadi ya vigezo vyao (mabilioni, kwa kawaida). Miundo mikubwa kwa ujumla ina maarifa zaidi na ugumu. Hata hivyo, zinahitaji kumbukumbu kubwa zaidi.
  2. Ukadiriaji (Quantization): Hii inahusu usahihi unaotumika kuhifadhi vigezo vya mfumo (k.m., 8-bit, 4-bit, 3-bit). Usahihi wa chini wa biti hupunguza kwa kiasi kikubwa matumizi ya kumbukumbu na huongeza kasi ya uchakataji, lakini mara nyingi kwa gharama ya usahihi na ubora wa matokeo (kuanzisha makosa, kurudia, au lugha isiyo na maana).
  3. Dirisha la Muktadha (Context Window): Hii inafafanua kiwango cha juu cha habari (maagizo + data ya pembejeo) ambacho AI inaweza kuzingatia kwa wakati mmoja, ikipimwa kwa tokeni. Ukubwa wa dirisha unaohitajika unaamuliwa na kazi; katika kesi hii, maagizo makubwa na nakala ya mahojiano vilihitaji dirisha kubwa.
  4. RAM Inayopatikana: Kiasi cha kumbukumbu kinaweka kikomo moja kwa moja ni miundo ipi (na kwa kiwango gani cha ukadiriaji) inaweza kupakiwa na kuendeshwa kwa ufanisi.

Mahali pazuri zaidi, palipotoa uwiano bora wa ubora na uwezekano kwenye mashine ya majaribio wakati wa tathmini, ilifikiwa kwa kutumia mfumo wa Gemma wa Google wenye vigezo bilioni 27, uliokadiriwa kwa biti 8 (toleo la ‘27B Q8_0’). Usanidi huu ulifanya kazi ndani ya dirisha la muktadha la tokeni 32,000, ukishughulikia kwa urahisi pembejeo ya takriban tokeni 15,000 (maagizo + nakala). Iliendeshwa kwenye vifaa maalum vya Mac, ikitumia GB 48 za kumbukumbu iliyoshirikiwa.

Chini ya hali hizi bora, kasi ya uchakataji ilipimwa kuwa tokeni 6.82 kwa sekunde. Ingawa inafanya kazi, hii ni mbali na kuwa ya papo hapo. Maboresho ya kasi bila kuathiri ubora wa matokeo yanategemea hasa vifaa vya haraka – haswa, SoCs zenye kasi kubwa za saa (GHz) au idadi kubwa ya cores za uchakataji (CPU, GPU, NPU).

Kujaribu kupakia miundo yenye vigezo vingi zaidi (k.m., bilioni 32, bilioni 70) kuligonga haraka kikomo cha kumbukumbu. Miundo hii mikubwa aidha ilishindwa kupakia kabisa au ilitoa matokeo yaliyokatwa sana, yasiyotumika (kama aya moja badala ya makala kamili). Kinyume chake, kutumia miundo yenye vigezo vichache, ingawa kuliokoa kumbukumbu, kulisababisha kushuka kwa dhahiri kwa ubora wa uandishi, uliodhihirishwa na kurudia na mawazo yaliyoelezewa vibaya. Vile vile, kutumia ukadiriaji mkali zaidi (kupunguza vigezo hadi biti 3, 4, 5, au 6) kuliongeza kasi lakini kuliharibu sana matokeo, kuanzisha makosa ya kisarufi na hata maneno yaliyobuniwa.

Ukubwa wa dirisha la muktadha unaohitajika, unaoamuliwa na data ya pembejeo, kimsingi hauwezi kujadiliwa kwa kazi hiyo. Ikiwa data ya pembejeo inahitaji dirisha ambalo, likijumuishwa na ukubwa wa mfumo uliochaguliwa na ukadiriaji, linazidi RAM inayopatikana, njia pekee ni kuchagua mfumo mdogo zaidi, bila shaka kuathiri ubora unaowezekana wa matokeo ya mwisho ili kubaki ndani ya mipaka ya kumbukumbu.

Kutafuta Ubora: Wakati Muundo Unakutana na Maudhui (au Ukosefu Wake)

Je, AI iliyoendeshwa ndani ya nchi ilifanikiwa kutoa makala zinazotumika? Ndiyo na hapana. Maandishi yaliyotolewa mara nyingi yalionyesha muundo mzuri wa kushangaza. Kwa ujumla yalifuata muundo ulioombwa, yakijumuisha:

  • Mtazamo au lengo linalotambulika.
  • Mtiririko thabiti kupitia sehemu za mada.
  • Nukuu zilizowekwa ipasavyo kutoka kwa nakala.
  • Vichwa vya habari vinavyovutia na sentensi za kumalizia.

Hata hivyo, kasoro kubwa iliibuka mara kwa mara katika LLMs zote zilizojaribiwa, ikiwa ni pamoja na zile kama DeepSeek R1, zilizoundwa mahsusi kwa hoja zilizoimarishwa: kutokuwa na uwezo wa kimsingi wa kutambua kwa usahihi na kuweka kipaumbele umuhimu wa habari ndani ya mahojiano. Miundo ya AI mara kwa mara ilikosa kiini cha mazungumzo, ikizingatia hoja za pili au maelezo ya pembeni.

Matokeo mara nyingi yalikuwa makala ambazo zilikuwa sahihi kisarufi na zilizopangwa vizuri lakini hatimaye za juu juu na zisizovutia. Katika baadhi ya matukio, AI ingejitolea vifungu virefu, vilivyojengwa hoja vizuri kuelezea mambo dhahiri – kwa mfano, kufafanua kwa urefu kwamba kampuni iliyohojiwa inafanya kazi katika soko lenye washindani. Hii ilionyesha pengo kati ya uwezo wa lugha (kuunda sentensi zenye mantiki) na ufahamu halisi (kuelewa umuhimu na muktadha).

Zaidi ya hayo, matokeo ya kimtindo yalitofautiana sana kati ya miundo:

  • Meta’s Llama 3.x: Wakati wa majaribio, ilitoa sentensi ambazo mara nyingi zilikuwa ngumu na ngumu kuchanganua.
  • Mistral Models & Gemma: Ilionyesha tabia ya mtindo wa ‘lugha ya masoko’, ikitumia vivumishi vya kusifu na mtazamo chanya lakini ikikosa maudhui thabiti na maelezo maalum.
  • Alibaba’s Qwen: Kwa kushangaza, ndani ya vikwazo vya usanidi wa jaribio, mfumo huu wa Kichina ulitoa baadhi ya nathari nzuri zaidi kwa Kifaransa (lugha ya timu ya tathmini ya awali).
  • Mixtral 8x7B: Awali, mfumo huu wa ‘mchanganyiko wa wataalam’ (unaounganisha miundo midogo nane maalum ya vigezo bilioni 7) ulionyesha matumaini. Hata hivyo, kuutoshea ndani ya kikomo cha kumbukumbu cha GB 48 kulihitaji ukadiriaji mkali wa biti 3, ambao ulisababisha makosa makubwa ya sintaksia. Toleo lililokadiriwa kwa biti 4 (‘Q4_K_M’) lilitoa maelewano bora mwanzoni, lakini masasisho yaliyofuata ya programu ya LM Studio yaliongeza matumizi yake ya kumbukumbu, na kusababisha usanidi huu pia kutoa matokeo yaliyokatwa.
  • Mistral Small 3.1: Mfumo wa hivi karibuni zaidi wenye vigezo bilioni 24 katika ukadiriaji wa biti 8 uliibuka kama mshindani hodari. Ubora wake wa matokeo ulikaribia ule wa mfumo wa Gemma wa 27B, na ulitoa faida kidogo ya kasi, ukichakata kwa tokeni 8.65 kwa sekunde.

Tofauti hii inasisitiza kwamba kuchagua LLM sio tu kuhusu ukubwa au kasi; data ya msingi ya mafunzo na usanifu huathiri kwa kiasi kikubwa mtindo wake wa uandishi na upendeleo unaowezekana.

Usanifu wa Vifaa: Shujaa Asiyeimbwa wa AI ya Ndani

Majaribio yaliangazia jambo muhimu, ambalo mara nyingi hupuuzwa: usanifu wa msingi wa vifaa, haswa jinsi kumbukumbu inavyofikiwa. Utendaji bora ulioonekana kwenye Mac ya Apple Silicon haukutokana tu na kiasi cha RAM lakini ulijikita kwa umuhimu kwenye Unified Memory Architecture (UMA) yake.

Katika mfumo wa UMA, cores za CPU, GPU, na NPU zote zinashiriki dimbwi moja la RAM halisi na zinaweza kufikia data kwenye anwani sawa za kumbukumbu kwa wakati mmoja. Hii huondoa hitaji la kunakili data kati ya madimbwi tofauti ya kumbukumbu yaliyotengwa kwa wasindikaji tofauti (k.m., RAM ya mfumo kwa CPU na VRAM maalum kwa kadi ya picha tofauti).

Kwa nini hii ni muhimu sana kwa LLMs?

  • Ufanisi: Uchakataji wa LLM unahusisha hesabu kali kwenye aina tofauti za cores. UMA inaruhusu ugawaji wa data bila mshono, kupunguza muda wa kusubiri na gharama zinazohusiana na urudufishaji na uhamishaji wa data.
  • Matumizi ya Kumbukumbu: Katika mifumo bila UMA (kama PC ya kawaida iliyo na GPU tofauti), data hiyo hiyo inaweza kuhitaji kupakiwa kwenye RAM kuu ya mfumo (kwa CPU) na VRAM ya GPU. Hii kwa ufanisi inapunguza kumbukumbu inayoweza kutumika kwa LLM yenyewe.

Athari ya kivitendo ni kubwa. Wakati Mac ya majaribio iliweza kuendesha kwa raha mfumo wa vigezo bilioni 27, uliokadiriwa kwa biti 8 kwa kutumia GB 48 za RAM iliyoshirikiwa ya UMA, kufikia utendaji sawa kwenye PC bila UMA kunaweza kuhitaji RAM jumla kubwa zaidi. Kwa mfano, PC yenye jumla ya RAM ya GB 48 iliyogawanywa katika GB 24 kwa CPU na GB 24 kwa GPU inaweza tu kuwa na uwezo wa kuendesha mfumo mdogo zaidi wa vigezo bilioni 13 kwa ufanisi, kutokana na ugawaji wa kumbukumbu na gharama za urudufishaji wa data.

Faida hii ya usanifu inaelezea uongozi wa mapema ambao Mac zilizo na chip za Apple Silicon zilipata katika nafasi ya AI ya ndani. Kwa kutambua hili, washindani kama AMD walitangaza safu yao ya Ryzen AI Max SoC (inayotarajiwa mapema 2025) iliyoundwa kujumuisha mbinu sawa ya kumbukumbu iliyounganishwa. Wakati wa majaribio haya, SoCs za Intel Core Ultra, ingawa ziliunganisha CPU, GPU, na NPU, hazikuwa na kiwango sawa cha ufikiaji kamili wa kumbukumbu iliyounganishwa kwenye aina zote za cores. Tofauti hii ya vifaa ni jambo muhimu la kuzingatia kwa mtu yeyote anayezingatia kwa uzito kuendesha LLMs kubwa zaidi, zenye uwezo zaidi ndani ya nchi.

Ngoma Ngumu ya Uhandisi wa Maagizo (Prompt Engineering)

Kufanya AI itekeleze kazi ngumu kama kubadilisha mahojiano kuwa makala kunahitaji zaidi ya vifaa vyenye nguvu na mfumo wenye uwezo; kunahitaji maagizo ya kisasa – sanaa na sayansi ya uhandisi wa maagizo (prompt engineering). Kuunda maagizo ya awali ya tokeni 1,500 yaliyoongoza AI ilikuwa kazi kubwa.

Hatua muhimu ya kuanzia ilihusisha uhandisi wa kinyume (reverse engineering): kuipa AI makala iliyokamilika, iliyoandikwa na binadamu pamoja na nakala yake inayolingana na kuuliza ni maagizo gani yalipaswa kutolewa ili kufikia matokeo hayo. Kuchambua mapendekezo ya AI katika mifano kadhaa tofauti kulisaidia kutambua vipengele muhimu kwa seti ya maagizo.

Hata hivyo, mapendekezo ya maagizo yaliyotolewa na AI yalikuwa mafupi mno mara kwa mara na yalikosa maelezo muhimu ya kuongoza uundaji wa makala kamili. Kazi halisi ilikuwa katika kuchukua vidokezo hivi vya awali vilivyotolewa na AI na kuvifafanua, kuingiza maarifa ya kina ya kikoa kuhusu muundo wa uandishi wa habari, sauti, mtindo, na masuala ya kimaadili.

Masomo kadhaa yasiyo ya kawaida yaliibuka:

  • Uwazi Zaidi ya Urembo: Kwa kushangaza, kuandika maagizo kwa mtindo wa asili zaidi, unaotiririka mara nyingi kulipunguza ufahamu wa AI. Miundo ilitatizika na utata, haswa viwakilishi (‘yeye,’ ‘hilo,’ ‘hii’). Mbinu yenye ufanisi zaidi ilihusisha kuacha usomaji rahisi kwa binadamu kwa ajili ya usahihi wa mashine, kurudia kwa uwazi mada (‘makala inapaswa…’, ‘sauti ya makala lazima…’, ‘utangulizi wa makala unahitaji…’) ili kuepuka tafsiri yoyote potofu inayowezekana.
  • Asili Isiyoeleweka ya Ubunifu: Licha ya muundo makini wa maagizo unaolenga kuruhusu kubadilika, makala zilizotolewa na AI zilishiriki ‘ufanano wa kifamilia’ mara kwa mara. Kukamata upana wa ubunifu wa binadamu na tofauti za kimtindo ndani ya maagizo moja, au hata maagizo mengi yanayoshindana, kulithibitika kuwa ngumu sana. Tofauti ya kweli ilionekana kuhitaji mabadiliko ya kimsingi zaidi kuliko yale ambayo urekebishaji wa maagizo pekee ungeweza kutoa.

Uhandisi wa maagizo sio kazi ya mara moja bali ni mchakato unaorudiwa wa uboreshaji, upimaji, na kuingiza mantiki maalum ya biashara na nuances za kimtindo. Inahitaji mchanganyiko wa uelewa wa kiufundi na utaalamu wa kina wa somo.

Mabadiliko ya Mzigo wa Kazi: Kufungua Kitendawili cha AI

Majaribio hatimaye yalisababisha utambuzi muhimu, ulioitwa kitendawili cha AI (AI paradox): katika hali yake ya sasa, ili AI iweze kupunguza baadhi ya mzigo wa kazi wa mtumiaji (kuandika rasimu ya makala), mtumiaji mara nyingi anapaswa kuwekeza kazi zaidi ya awali.

Suala kuu lilibaki kuwa kutokuwa na uwezo wa AI kupima kwa uhakika umuhimu ndani ya nakala ghafi ya mahojiano. Ili kutoa makala inayofaa, kulisha tu nakala nzima hakukutosha. Hatua ya kati muhimu iliibuka: kuchakata awali nakala kwa mikono. Hii ilihusisha:

  1. Kuondoa mazungumzo yasiyo muhimu, michepuko, na urudiaji.
  2. Kuwezekana kuongeza maelezo ya muktadha (hata kama hayakukusudiwa kwa makala ya mwisho) ili kuongoza uelewa wa AI.
  3. Kuchagua kwa uangalifu na labda kupanga upya sehemu muhimu.

‘Utunzaji’ huu wa nakala unahitaji muda mwingi wa binadamu na uamuzi. Wakati uliohifadhiwa kwa kuwa na AI ikitoa rasimu ya kwanza ulifidiwa kwa ufanisi, au hata kuzidiwa, na kazi mpya ya kuandaa kwa uangalifu data yake ya pembejeo. Mzigo wa kazi haukutoweka; ulibadilika tu kutoka kwa uandishi wa moja kwa moja kwenda kwenye maandalizi ya data na uboreshaji wa maagizo.

Zaidi ya hayo, maagizo ya kina ya tokeni 1,500 yalikuwa maalum sana kwa aina moja ya makala (k.m., mahojiano kuhusu uzinduzi wa bidhaa). Kufunika anuwai ya miundo ya makala ambayo mwandishi wa habari hutoa kila siku – wasifu wa kampuni zinazoanza, uchambuzi wa kimkakati, utangazaji wa matukio, uchunguzi wa vyanzo vingi – kungehitaji kuendeleza, kupima, na kudumisha maagizo tofauti, yenye maelezo sawa kwa kila kisa cha matumizi. Hii inawakilisha uwekezaji mkubwa wa awali na unaoendelea wa uhandisi.

Mbaya zaidi, majaribio haya mapana, yaliyodumu zaidi ya miezi sita, yaligusa tu juu juu. Yalilenga hali rahisi zaidi: kutoa makala kutoka kwa mahojiano moja, mara nyingi yaliyofanywa katika mazingira yaliyodhibitiwa kama mikutano ya waandishi wa habari ambapo hoja za mhojiwa tayari zimepangwa kwa kiasi fulani. Kazi ngumu zaidi, lakini za kawaida, za kuunganisha habari kutoka kwa mahojiano mengi, kuingiza utafiti wa usuli, au kushughulikia mazungumzo yasiyo na muundo mzuri zilibaki bila kuchunguzwa kutokana na uwekezaji wa muda uliohitajika hata kwa kisa cha msingi.

Kwa hivyo, ingawa kuendesha LLMs ndani ya nchi kunawezekana kiufundi na kunatoa faida kwa gharama na faragha ya data, dhana kwamba inaokoa muda au juhudi kwa urahisi kwa kazi ngumu ya maarifa kama uandishi wa habari ni, kulingana na uchunguzi huu, ndoto kwa sasa. Juhudi zinazohitajika hubadilika tu, zikihamia kwenye maandalizi ya data na uhandisi maalum sana wa maagizo. Kwenye changamoto hizi maalum – kutambua umuhimu, kuhitaji uchakataji wa awali wa kina – AI iliyoendeshwa ndani ya nchi ilifanya kazi kwa kulinganishwa na huduma za mtandaoni zinazolipiwa, ikipendekeza kuwa hizi ni mapungufu ya kimsingi ya kizazi cha sasa cha LLMs, bila kujali njia ya uendeshaji. Njia ya kuelekea usaidizi wa AI usio na mshono katika nyanja kama hizo inabaki kuwa ngumu na inahitaji mageuzi zaidi katika uwezo wa AI na njia zetu za kuingiliana nazo.