Mabadiliko makubwa yanaweza kutokea katika uwanja maalum wa akili bandia iliyoundwa kwa ajili ya kazi za uandishi wa msimbo. Kwa muda mrefu, mifumo iliyotengenezwa na Anthropic, hasa mfululizo wake wa Claude, mara nyingi imetajwa kuwa vinara katika kusaidia wasanidi programu kuandika, kurekebisha kasoro, na kuelewa msimbo. Hata hivyo, maendeleo ya hivi karibuni yanaonyesha kuwa mshindani mpya mwenye nguvu ameingia uwanjani: Gemini 2.5 ya Google. Dalili za awali, ikiwa ni pamoja na utendaji katika vigezo na maoni ya kwanza kutoka kwa wasanidi programu, zinaelekeza kuwa toleo hili jipya linaweza kufafanua upya viwango vya usaidizi wa uandishi wa msimbo unaoendeshwa na AI, na kuzua maswali kuhusu iwapo mpangilio uliopo unakaribia kubadilishwa. Kujitokeza kwa Gemini 2.5 Pro Experimental, haswa, kunachochea mjadala mkali na ulinganisho ndani ya jumuiya ya wasanidi programu.
Umahiri katika Vigezo: Faida ya Kiasi?
Vipimo lengwa mara nyingi hutoa mtazamo wa kwanza katika uwezo wa mfumo mpya, na katika suala hili, Gemini 2.5 imefanya ingizo kubwa. Tathmini moja muhimu hasa ni ubao wa viongozi wa Aider Polyglot, kigezo kilichoundwa kwa uangalifu kutathmini umahiri wa mifumo mikubwa ya lugha (LLMs) katika kazi za kivitendo za kuzalisha msimbo mpya na kurekebisha misingi ya msimbo iliyopo katika lugha nyingi za programu. Ndani ya tathmini hii ngumu, toleo la majaribio la Gemini 2.5 Pro lilipata alama ya ajabu ya 72.9%. Takwimu hii inaiweka mbele kwa kiasi kikubwa dhidi ya washindani hodari, ikiwa ni pamoja na Claude 3.7 Sonnet ya Anthropic, ambayo ilisajili 64.9%. Pia ilizipita ofa kutoka OpenAI, kama vile mfumo wa o1 (61.7%) na lahaja ya juu ya o3-mini (60.4%). Uongozi kama huo katika kigezo maalum cha uandishi wa msimbo ni hoja thabiti ya kiasi kwa uwezo wa Gemini 2.5 katika uwanja huu.
Zaidi ya tathmini zinazozingatia uandishi wa msimbo, Gemini 2.5 imeonyesha utendaji wa kipekee katika majaribio mapana ya hoja na matumizi ya maarifa. Ilipata nafasi ya juu katika kigezo cha GPQA (Graduate-Level Google-Proof Q&A), jaribio kali linalotoa changamoto kwa mifumo ya AI kwa maswali magumu yanayohusu taaluma mbalimbali za kisayansi ambazo kwa kawaida hukutana nazo katika ngazi ya masomo ya uzamili. Gemini 2.5 ilipata alama ya 83% kwenye kigezo hiki. Utendaji huu ulizidi ule wa mfumo wa o1-Pro wa OpenAI, ambao ulipata 79%, na Claude 3.7 Sonnet ya Anthropic, iliyopata 77% hata ilipotumia mbinu za muda mrefu wa kufikiri. Nafasi za juu thabiti katika vigezo mbalimbali, ikiwa ni pamoja na zile zinazojaribu hoja za jumla pamoja na ujuzi maalum kama uandishi wa msimbo, zinaonyesha usanifu msingi imara na wenye matumizi mengi. Mchanganyiko huu wa uwezo maalum wa uandishi wa msimbo na uwezo mpana wa kiakili unaweza kuwa tofauti muhimu kwa wasanidi programu wanaotafuta msaidizi kamili wa AI.
Sifa kutoka kwa Wasanidi Programu na Uthibitisho wa Ulimwengu Halisi
Ingawa vigezo vinatoa maarifa muhimu ya kiasi, jaribio la kweli la msaidizi wa uandishi wa msimbo wa AI liko katika matumizi yake ya kivitendo na wasanidi programu wanaoshughulikia miradi ya ulimwengu halisi. Ripoti za awali na shuhuda zinaonyesha kuwa Gemini 2.5 haifanyi vizuri tu katika majaribio yaliyodhibitiwa lakini pia inawavutia watumiaji katika mtiririko wao wa kazi wa kila siku. Mckay Wrigley, msanidi programu anayejaribu kikamilifu mfumo mpya, alitoa uthibitisho thabiti, akisema bila shaka, ‘Gemini 2.5 Pro sasa ndio mfumo bora zaidi kwa msimbo kwa urahisi.’ Uchunguzi wake ulikwenda zaidi ya uzalishaji wa msimbo tu; alionyesha matukio ambapo mfumo ulionyesha kile alichokiita ‘miale ya uzuri halisi.’ Zaidi ya hayo, Wrigley alielezea tabia inayoweza kuwa muhimu: mfumo haukubaliani tu na maagizo ya mtumiaji lakini unashiriki kwa umakini zaidi, ikipendekeza kiwango cha juu cha uelewa au hoja iliyoigwa. Hitimisho lake lilikuwa la kusisitiza: ‘Google imetoa mshindi halisi hapa.’
Hisia hii chanya inaonekana kushirikiwa na wengine, hasa wakati wa kufanya ulinganisho wa moja kwa moja na Claude 3.7 Sonnet ya Anthropic inayozingatiwa sana. Wasanidi programu wengi wanagundua kuwa uzoefu wao wa kivitendo unalingana na matokeo ya vigezo yanayopendelea Gemini 2.5. Simulizi moja ya kielelezo ilitoka kwa mtumiaji kwenye Reddit ambaye alielezea kwa kina mapambano yake ya kujenga programu kwa saa kadhaa akitumia Claude 3.7 Sonnet. Matokeo, kulingana na mtumiaji, yalikuwa msimbo ambao kwa kiasi kikubwa haukufanya kazi uliokumbwa na mazoea mabaya ya usalama, kama vile kupachika funguo za API moja kwa moja ndani ya msimbo (hardcoding). Akiwa amechanganyikiwa, msanidi programu alihamia kwa Gemini 2.5. Alitoa msimbo mzima wenye kasoro uliozalishwa na Claude kama ingizo. Gemini 2.5 inaripotiwa sio tu ilitambua kasoro muhimu na kuzielezea kwa uwazi lakini pia iliendelea kuandika upya programu nzima, na kusababisha toleo linalofanya kazi na salama zaidi. Hadithi hii inasisitiza uwezo wa Gemini 2.5 kushughulikia kazi ngumu za kurekebisha kasoro na urekebishaji upya kwa ufanisi.
Majaribio zaidi ya kulinganisha yamezingatia nyanja tofauti za maendeleo. Katika tukio moja lililoandikwa kwenye jukwaa la kijamii X, mtumiaji aliweka Gemini 2.5 dhidi ya Claude 3.7 Sonnet katika kazi ya kuona: kuunda upya kiolesura cha mtumiaji (UI) cha ChatGPT. Kulingana na tathmini ya mtumiaji, Gemini 2.5 ilitoa uwakilishi sahihi zaidi wa kuona wa UI lengwa ikilinganishwa na mwenzake wa Anthropic. Ingawa uigaji wa UI ni kipengele kimoja tu cha maendeleo, usahihi katika kazi kama hizo unaweza kuonyesha umakini wa kina wa mfumo kwa undani na uwezo wake wa kutafsiri maelezo magumu au mifano kuwa matokeo yanayoonekana.
Maboresho sio tu yanahusiana na washindani lakini pia yanawakilisha maendeleo makubwa juu ya mifumo ya awali ya Google yenyewe. Msanidi programu Alex Mizrahi alishiriki uzoefu unaoangazia maendeleo haya ya ndani. Alitumia Gemini 2.5 na akagundua inaweza kukumbuka takriban 80-90% ya sintaksia ya Rell (lugha maalum ya programu) kutoka kwa msingi wake wa maarifa wa ndani. Hii ilikuwa hatua kubwa mbele kutoka kwa matoleo ya awali ya Gemini, ambayo, kulingana na Mizrahi, yalipata shida sana na sintaksia ya Rell hata ilipopewa mifano wazi ndani ya kidokezo. Hii inapendekeza maboresho katika data ya msingi ya mafunzo ya mfumo na uwezo wa kukumbuka kwa lugha au sintaksia zisizo za kawaida.
Uandishi wa Msimbo Shirikishi na Faida za Kimuktadha
Zaidi ya uzalishaji ghafi wa msimbo na usahihi, mtindo wa mwingiliano na uwezo wa kimuktadha wa mfumo wa AI huathiri kwa kiasi kikubwa manufaa yake kama mshirika wa uandishi wa msimbo. Watumiaji wanaripoti hisia shirikishi zaidi wanapofanya kazi na Gemini 2.5. Msanidi programu Matthew Berman alibainisha tabia tofauti kwenye X: ‘Ina (Gemini 2.5 Pro) niuliza maswali ya ufafanuzi njiani, jambo ambalo hakuna mfumo mwingine umefanya.‘ Alitafsiri hili kama kufanya mwingiliano kuwa ‘shirikishi zaidi.’ Ushiriki huu makini—kutafuta ufafanuzi badala ya kufanya mawazo—unaweza kusababisha matokeo sahihi zaidi, kupunguza marudio, na uwezekano wa kuzuia kutoelewana, hasa katika kazi ngumu au zilizofafanuliwa kwa utata ambazo mara nyingi hukutana nazo katika ‘uandishi wa msimbo wa hisia’ ambapo msanidi programu ana wazo la jumla lakini si vipimo sahihi.
Sababu kuu ya kiufundi inayochangia uwezekano wa ubora wa Gemini 2.5 katika hali ngumu za uandishi wa msimbo ni dirisha lake kubwa la muktadha. Mfumo unajivunia usaidizi wa hadi tokeni milioni 1 za ingizo. Hii inawakilisha faida kubwa juu ya washindani wa sasa. Mifumo inayoongoza ya OpenAI, o1 na o3-mini, kwa sasa inasaidia dirisha la muktadha la tokeni 250,000. Ingawa Anthropic inaripotiwa kufanya kazi kuelekea kupanua dirisha lake la muktadha, uwezekano wa kufikia tokeni 500,000, uwezo wa sasa wa Gemini 2.5 unapita kwa kiasi kikubwa takwimu hizi.
Kwa nini dirisha kubwa la muktadha ni muhimu sana kwa uandishi wa msimbo? Maendeleo ya kisasa ya programu mara nyingi huhusisha kufanya kazi na misingi mikubwa ya msimbo, faili nyingi, utegemezi tata, na historia ndefu ya mabadiliko. Mfumo wenye dirisha kubwa la muktadha unaweza kumeza na kuchakata habari nyingi zaidi zinazozunguka kwa wakati mmoja. Hii inaruhusu kudumisha uthabiti bora katika miradi mikubwa, kuelewa uhusiano tata kati ya moduli tofauti za msimbo, kufuatilia matumizi ya vigeu na ufafanuzi wa kazi katika faili zote, na uwezekano wa kuzalisha msimbo unaounganishwa kwa urahisi zaidi katika muundo uliopo bila kuhitaji msanidi programu kulisha kwa mikono vijisehemu vya muktadha muhimu kila wakati. Kwa kazi kama vile urekebishaji upya kwa kiwango kikubwa, kuelewa mifumo ya zamani, au kuendeleza vipengele vinavyogusa sehemu nyingi za programu, dirisha la muktadha la tokeni milioni moja linaweza kuwa kibadilisha mchezo, kupunguza makosa na kuboresha ubora na umuhimu wa michango ya AI.
Kasoro Zinazoendelea na Haja ya Usimamizi
Licha ya maendeleo ya kuvutia na maoni chanya, ni muhimu kudumisha mtazamo: Gemini 2.5, hasa katika uteuzi wake wa sasa wa ‘Pro Experimental’, si mtabiri asiye na kasoro wa uandishi wa msimbo. Bado inaonyesha baadhi ya changamoto za kawaida na mitego inayoweza kuhusishwa na kutumia mifumo mikubwa ya lugha kwa maendeleo ya programu. Mahitaji ya msingi ya hukumu ya kibinadamu na usimamizi makini bado ni muhimu kabisa.
Eneo moja kubwa la wasiwasi linaendelea kuwa usalama. Msanidi programu Kaden Bilyeu alishiriki tukio kwenye X ambapo Gemini 2.5 ilijaribu kuzalisha msimbo ambao ungeunda API ya upande wa mteja kwa ajili ya kushughulikia majibu ya gumzo. Mbinu hii kwa asili si salama kwani ingesababisha kuepukika kwa kufichuliwa au kuvuja kwa ufunguo wa API ndani ya msimbo wa upande wa mteja, na kuifanya ipatikane kwa watumiaji wa mwisho. Hii inaangazia kwamba hata mifumo ya hali ya juu inaweza kukosa uelewa wa kimsingi wa mazoea bora ya usalama, na uwezekano wa kuanzisha udhaifu muhimu ikiwa matokeo yake yataaminiwa bila kufikiri. Wasanidi programu lazima wakague kwa ukali msimbo unaozalishwa na AI, hasa kuhusu uthibitishaji, uidhinishaji, na utunzaji wa data.
Zaidi ya hayo, uwezo wa mfumo wa kusimamia kwa ufanisi misingi mikubwa sana ya msimbo umepokea maoni mchanganyiko, ikipendekeza dirisha lake la muktadha la kuvutia huenda lisitafsiriwe kikamilifu kila wakati kuwa utendaji wa kivitendo chini ya mzigo mzito. Msanidi programu Louie Bacaj aliripoti mapambano makubwa alipoipa Gemini 2.5 kazi ya kufanya operesheni kwenye msingi wa msimbo unaojumuisha takriban mistari 3,500 ya msimbo. Bacaj alibainisha kuwa licha ya maboresho yanayodaiwa ya mfumo katika utunzaji wa muktadha na simu za API zilizofanikiwa kuonyesha muktadha ulipokelewa, mara kwa mara ilishindwa kutekeleza kazi zilizoombwa kwa usahihi au kikamilifu ndani ya wigo huu mkubwa wa mradi. Hii inapendekeza mapungufu yanayoweza kutokea katika kutumia kwa ufanisi dirisha zima la muktadha kwa hoja ngumu au kazi za upotoshaji ndani ya msimbo mkubwa uliopo, au labda kutofautiana kwa utendaji kulingana na asili maalum ya msimbo na kazi.
Lebo ya ‘Experimental’ iliyoambatanishwa na toleo la Gemini 2.5 Pro linalopatikana kwa sasa pia ni muhimu. Inaashiria kuwa Google bado inaboresha mfumo kikamilifu. Watumiaji wanapaswa kutarajia uwezekano wa kutokuwa na utulivu, tofauti katika utendaji, na mabadiliko yanayoendelea wakati Google inakusanya maoni na kurudia teknolojia. Ingawa awamu hii inaruhusu ufikiaji wa mapema kwa uwezo wa kisasa, pia inamaanisha kuwa mfumo huenda bado hauna uaminifu kamili au ung’avu unaotarajiwa wa toleo la mwisho la uzalishaji. Uboreshaji unaoendelea unawezekana, lakini watumiaji wa sasa wanashiriki kikamilifu katika jaribio kubwa la beta. Kasoro hizi zinasisitiza jukumu lisiloweza kubadilishwa la msanidi programu wa kibinadamu katika mzunguko - sio tu kwa kugundua makosa, lakini kwa maamuzi ya usanifu, upangaji mkakati, na kuhakikisha bidhaa ya mwisho inalingana na mahitaji na viwango vya ubora.
Changamoto Kubwa Zaidi: Kufunga Nguvu Kwenye Uzoefu
Ingawa Google DeepMind inaonekana kufikia hatua muhimu za kiufundi na mifumo kama Gemini 2.5, mada inayojirudia inajitokeza: changamoto ya kutafsiri nguvu ghafi ya kiteknolojia kuwa uzoefu wa mtumiaji unaovutia, unaopatikana, na unaohusisha ambao unavutia umakini wa soko. Kuna mtazamo kwamba hata wakati Google inakuza uwezo wa AI unaoweza kuongoza ulimwengu, wakati mwingine inashindwa katika kufunga na kuwasilisha uwezo huu kwa njia inayovuma kwa watumiaji, hasa ikilinganishwa na washindani kama OpenAI.
Suala hili liliangaziwa na mwekezaji malaika Nikunj Kothari, ambaye alionyesha kiwango cha huruma kwa timu ya Google DeepMind. ‘Ninahisi kidogo kwa timu ya Google DeepMind,’ alibainisha, akiona tofauti kati ya uzinduzi wa mifumo yenye nguvu na matukio ya virusi ambayo mara nyingi huzalishwa na washindani. ‘Unaunda mfumo unaobadilisha ulimwengu na kila mtu anachapisha picha zilizobadilishwa kuwa Ghibli badala yake,’ aliongeza, akirejelea gumzo kuhusu uwezo wa uzalishaji wa picha wa GPT-4o wa OpenAI, ambao ulivutia haraka maslahi ya umma. Kothari alitambua hili kama changamoto inayoendelea kwa Google: kuwa na talanta kubwa ya kiufundi yenye uwezo wa kujenga AI bora darasani, lakini uwezekano wa kuwekeza kidogo katika safu muhimu ya muundo wa bidhaa na uzoefu unaomlenga mtumiaji. ‘Ninawaomba wachukue 20% ya watu wao wenye talanta bora na kuwapa uhuru wa kujenga uzoefu wa watumiaji wa kiwango cha kimataifa,’ alihimiza.
Hisia hii inaenea hadi kwenye ‘utu’ unaoonekana wa mifumo. Kothari alibainisha kuwa mtindo wa mwingiliano wa Gemini 2.5 ulihisi ‘wa msingi kabisa‘ ikilinganishwa na mifumo mingine inayoongoza. Kipengele hiki cha kibinafsi, ingawa ni kigumu kupima, huathiri ushiriki wa mtumiaji na hisia ya kushirikiana na AI. Watumiaji wengine kadhaa walirudia uchunguzi huu, wakipendekeza kwamba ingawa ina ustadi wa kiufundi, mfumo unaweza kukosa mtindo wa mwingiliano unaohusisha zaidi au wenye nuances uliokuzwa na washindani.
Masuala ya utumiaji wa kivitendo pia yamejitokeza. Uzinduzi wa uzalishaji wa picha asilia ndani ya mfumo wa Gemini 2.0 Flash, kwa mfano, ulisifiwa kitaalam kwa uwezo wake. Hata hivyo, watumiaji wengi waliripoti ugumu wa kupata na kutumia kipengele hicho. Kiolesura cha mtumiaji kilielezewa kuwa kisicho na angavu, na chaguo zikiwa zimefichwa bila sababu ndani ya menyu. Msuguano huu katika kupata kipengele chenye nguvu unaweza kupunguza kwa kiasi kikubwa shauku na upokeaji wa mtumiaji, bila kujali ubora wa teknolojia ya msingi. Ikiwa mtumiaji anatatizika hata kuanzisha kazi, nguvu ya mfumo inakuwa haina maana kwake.
Kutafakari juu ya ‘wazimu wa Ghibli’ unaozunguka uzalishaji wa picha wa GPT-4o, hali inaweza kuwa si kuhusu Google kushindwa kabisa katika uuzaji na zaidi kuhusu ustadi wa OpenAI katika kuelewa na kutumia saikolojia ya mtumiaji. Kama mtumiaji mmoja kwenye X alivyoelezea kuhusu onyesho la OpenAI, ‘Unachapisha picha mbili na kila mtu anaelewa.‘ Asili ya kuona, inayoweza kushirikiwa kwa urahisi, na ya ubunifu ya onyesho iligusa maslahi ya haraka ya mtumiaji. Kinyume chake, kutathmini maboresho yenye nuances katika mfumo wa lugha kama Gemini 2.5 kunahitaji juhudi zaidi. ‘Unawauliza watu wale wale wasome ripoti iliyozalishwa na 2.0 na kuilinganisha [na] 2.5, na hiyo inahitaji muda mwingi zaidi kuliko kusogeza na kupenda,’ mtumiaji alifafanua zaidi.
Matukio haya yanasisitiza somo muhimu katika mazingira ya sasa ya AI: ubora wa kiteknolojia pekee hauhakikishi uongozi wa soko au upendeleo wa mtumiaji. Mambo kama urahisi wa matumizi, muundo angavu, mawasiliano madhubuti ya uwezo, na hata utu unaoonekana au kipengele cha ushiriki cha AI vina majukumu muhimu. Mtumiaji wa kawaida, ikiwa ni pamoja na wasanidi programu wengi wanaozingatia tija, mara nyingi huelekea kwenye zana ambazo si tu zenye nguvu bali pia za kufurahisha, zinazohusiana, na zilizounganishwa bila mshono katika mtiririko wao wa kazi. Ili Google itumie kikamilifu uwezo wa mifumo kama Gemini 2.5, hasa katika nyanja za ushindani kama usaidizi wa uandishi wa msimbo, kuziba pengo kati ya utafiti wa kisasa na uzoefu wa kipekee wa mtumiaji bado ni jukumu muhimu.