Enzi Mpya ya Uhariri wa Picha
Tofauti na zana nyingi za AI zilizopo ambazo huzingatia kuzalisha picha mpya kabisa, Gemini 2.0 Flash inajitofautisha kupitia uwezo wake wa kuelewa na kurekebisha picha zilizopo. Mfumo huu unaelewa maudhui ya picha vizuri sana hivi kwamba unaweza kufanya mabadiliko maalum kulingana na maagizo ya mazungumzo, huku ukihifadhi kiini cha picha asili.
Mafanikio haya ya ajabu yanapatikana kupitia asili ya Gemini 2.0 ya multimodal. Inachakata maandishi na picha kwa wakati mmoja. Modeli hubadilisha picha kuwa ‘tokens’ - vitengo vya msingi ambavyo hutumia kwa usindikaji wa maandishi. Hii inaruhusu kuendesha maudhui ya kuona kwa kutumia njia zile zile za neva ambazo hutumia kuelewa lugha. Njia hii ya umoja huondoa hitaji la modeli tofauti, maalum za kushughulikia aina tofauti za media, ikirahisisha mchakato mzima.
‘Gemini 2.0 Flash hutumia pembejeo ya multimodal, hoja iliyoimarishwa, na uelewa wa lugha asilia kuunda picha,’ Google ilisema katika tangazo lake rasmi. ‘Fikiria kutumia Gemini 2.0 Flash kusimulia hadithi, na inaonyesha kwa picha, ikidumisha uthabiti katika wahusika na mipangilio. Toa maoni, na modeli itabadilisha hadithi au kurekebisha mtindo wa michoro yake.’
Njia hii inaitofautisha Google na washindani kama OpenAI. Wakati ChatGPT inaweza kutoa picha kwa kutumia Dall-E 3 na kurudia ubunifu wake ikielewa lugha asilia, inategemea modeli tofauti ya AI kufanikisha hili. Kimsingi, ChatGPT huendesha mwingiliano mgumu kati ya GPT-V kwa maono, GPT-4o kwa lugha, na Dall-E 3 kwa uzalishaji wa picha. OpenAI, hata hivyo, inatarajia kufikia modeli moja, inayojumuisha yote na GPT-5 ya baadaye.
Dhana inayofanana ipo katika ulimwengu wa open-source na OmniGen, iliyoandaliwa na watafiti katika Chuo cha Beijing cha Akili Bandia. Waumbaji wake wanaona ‘kuzalisha aina mbalimbali za picha moja kwa moja kupitia maagizo ya kiholela ya multimodal, bila hitaji la programu-jalizi za ziada au shughuli, sawa na jinsi GPT inavyofanya kazi katika uzalishaji wa lugha.’
OmniGen inajivunia uwezo kama vile ubadilishaji wa vitu, uunganishaji wa mandhari, na marekebisho ya urembo. Hata hivyo, si rafiki kwa mtumiaji kuliko Gemini mpya, inafanya kazi na maazimio ya chini, inahitaji amri ngumu zaidi, na hatimaye haina nguvu kubwa ya toleo la Google. Hata hivyo, inatoa mbadala wa kuvutia wa open-source kwa watumiaji fulani.
Kujaribu Gemini 2.0 Flash
Ili kuelewa kikamilifu uwezo na mapungufu ya Gemini 2.0 Flash, mfululizo wa majaribio ya vitendo ulifanyika, ukichunguza matukio mbalimbali ya uhariri. Matokeo yanaonyesha nguvu za kuvutia na baadhi ya maeneo ya uboreshaji unaowezekana.
Kurekebisha Masomo Halisi kwa Usahihi
Modeli huonyesha mshikamano wa ajabu inapoagizwa kurekebisha masomo halisi. Kwa mfano, katika jaribio la picha ya kibinafsi, ombi la kuongeza ufafanuzi wa misuli lilitoa matokeo yaliyohitajika. Wakati mabadiliko madogo ya uso yalitokea, utambuzi wa jumla ulihifadhiwa.
Muhimu zaidi, vipengele vingine ndani ya picha vilibaki bila kuguswa, ikionyesha uwezo wa AI kuzingatia tu marekebisho yaliyotajwa. Uwezo huu wa uhariri unaolengwa unatofautiana sana na mbinu za kawaida za uzalishaji ambazo mara nyingi huunda upya picha nzima, na hivyo kuleta mabadiliko yasiyotakikana.
Ni muhimu pia kutambua ulinzi uliojengwa ndani ya modeli. Inakataa mara kwa mara kuhariri picha za watoto na huepuka kushughulikia maudhui yoyote yanayohusiana na uchi, ikionyesha kujitolea kwa Google kwa ukuzaji wa AI unaowajibika. Kwa watumiaji wanaotaka kuchunguza udukuzi wa picha hatari zaidi, OmniGen inaweza kuwa chaguo linalofaa zaidi.
Kumiliki Mabadiliko ya Mtindo
Gemini 2.0 Flash inaonyesha uwezo wa ajabu wa ubadilishaji wa mtindo. Ombi la kubadilisha picha ya Donald Trump kuwa mtindo wa manga ya Kijapani lilitoa taswira mpya iliyofanikiwa baada ya majaribio machache.
Modeli hushughulikia kwa ustadi wigo mpana wa uhamishaji wa mitindo, ikibadilisha picha kuwa michoro, michoro ya mafuta, au karibu mtindo wowote wa kisanii unaoweza kufikirika. Watumiaji wanaweza kurekebisha matokeo kwa kurekebisha mipangilio ya joto na kugeuza vichungi mbalimbali. Hata hivyo, ni muhimu kutambua kwamba mipangilio ya juu ya joto huelekea kutoa mabadiliko ambayo hayana uaminifu kwa picha asili.
Upungufu unaojulikana huibuka wakati wa kuomba mitindo inayohusishwa na wasanii maalum. Majaribio yanayohusisha mitindo ya Leonardo Da Vinci, Michelangelo, Botticelli, au Van Gogh yalisababisha AI kutoa tena picha halisi za wasanii hawa, badala ya kutumia mbinu zao tofauti kwa picha chanzo.
Kwa uboreshaji fulani wa haraka na marudio machache, matokeo yanayoweza kutumika, ingawa ya wastani, yanaweza kupatikana. Kwa ujumla, ni bora zaidi kuhamasisha mtindo wa sanaa unaohitajika badala ya msanii maalum.
Sanaa ya Udukuzi wa Vipengele
Kwa kazi za vitendo za uhariri, Gemini 2.0 Flash inafanya vizuri sana. Inashughulikia kwa ustadi uchoraji na udukuzi wa vitu, ikiondoa vitu maalum kwa ombi au kuongeza vipengele vipya kwenye utunzi. Katika jaribio moja, AI iliombwa kuchukua nafasi ya mpira wa kikapu na kuku mkubwa wa mpira, ikitoa matokeo ya kuchekesha lakini yanayofaa kimuktadha.
Wakati mabadiliko madogo ya mara kwa mara kwa masomo yanaweza kutokea, haya kwa kawaida yanaweza kurekebishwa kwa urahisi na zana za kawaida za uhariri wa dijiti katika suala la sekunde.
Labda kwa utata zaidi, modeli inaonyesha ustadi katika kuondoa ulinzi wa hakimiliki - kipengele ambacho kimezua mjadala mkubwa kwenye majukwaa kama X. Ilipowasilishwa na picha iliyo na alama za maji na kuagizwa kuondoa herufi, nembo na alama zote za maji, Gemini ilitoa picha safi isiyoweza kutofautishwa na ile asili isiyo na alama ya maji.
Kupitia Mabadiliko ya Mtazamo
Moja ya vipengele vya kuvutia zaidi vya kiufundi vya Gemini ni uwezo wake wa kubadilisha mtazamo - kazi ambayo modeli za kawaida za usambazaji kwa kawaida hupambana nayo. AI inaweza kufikiria upya tukio kutoka pembe tofauti, ingawa matokeo kimsingi ni ubunifu mpya badala ya mabadiliko sahihi ya asili.
Wakati mabadiliko ya mtazamo hayatoi matokeo yasiyo na dosari - modeli, baada ya yote, inafikiria picha nzima kutoka kwa mtazamo mpya - yanawakilisha maendeleo makubwa katika ufahamu wa AI wa nafasi ya pande tatu kulingana na pembejeo za pande mbili.
Maneno sahihi ni muhimu wakati wa kuagiza modeli kudhibiti mandharinyuma. Mara nyingi huelekea kurekebisha picha nzima, na kusababisha utunzi tofauti kabisa.
Kwa mfano, katika jaribio moja, Gemini iliombwa kubadilisha mandharinyuma ya picha, ikiweka roboti iliyoketi nchini Misri badala ya eneo lake la asili. Maagizo yalisema waziwazi kutobadilisha somo. Hata hivyo, modeli ilijitahidi kushughulikia kazi hii maalum kwa usahihi, badala yake ikitoa utunzi mpya kabisa ulio na piramidi, na roboti iliyosimama, lakini sio kama lengo kuu.
Upungufu mwingine ulioonekana ni kwamba wakati modeli inaweza kurudia mara nyingi kwenye picha moja, ubora wa maelezo huelekea kuharibika kwa kila marudio mfululizo. Kwa hivyo, ni muhimu kuzingatia uharibifu unaowezekana wa ubora wakati wa kufanya uhariri wa kina.
Modeli hii ya majaribio inapatikana kwa sasa kwa wasanidi programu kupitia Google AI Studio na Gemini API katika maeneo yote yanayotumika. Inapatikana pia kwenye Hugging Face kwa watumiaji ambao hawapendi kushiriki habari zao na Google.
Kwa kumalizia, toleo hili jipya kutoka Google linaonekana kuwa gem iliyofichwa, kama vile NotebookLM. Inafanikisha kitu ambacho modeli zingine haziwezi, na inafanya hivyo kwa kiwango kizuri cha ustadi, lakini bado haijulikani sana. Bila shaka inafaa kuchunguzwa kwa watumiaji wanaotaka kujaribu uwezo wa AI ya uzalishaji katika uhariri wa picha na kuwa na furaha ya ubunifu njiani. Uwezo wa kuelezea tu mabadiliko yanayohitajika kwa lugha rahisi hufungua ulimwengu wa uwezekano kwa watumiaji wa kawaida na wataalamu, ikionyesha hatua kubwa mbele katika demokrasia ya udukuzi wa picha. Teknolojia hii ina uwezo wa kuunda upya jinsi tunavyoingiliana na maudhui ya kuona, ikifanya mbinu za juu za uhariri zipatikane kwa kila mtu, bila kujali ujuzi wao wa kiufundi. Athari zake ni kubwa, kuanzia uboreshaji wa picha za kibinafsi hadi mtiririko wa kazi wa kitaalamu, na hata kuunda aina mpya kabisa za sanaa ya kuona. Kadiri teknolojia inavyoendelea kubadilika, itavutia kushuhudia athari zake kwenye mandhari ya ubunifu.