Gemini: Kizazi Kipya cha AI cha Google
Gemini ni mradi kabambe wa Google katika kizazi kijacho cha mifumo ya AI. Ikiendelezwa kupitia juhudi za ushirikiano za DeepMind na Google Research, maabara zinazoongoza za utafiti wa AI za Google, Gemini si huluki moja bali ni familia ya mifumo, kila moja ikilenga kazi maalum na viwango vya utendaji. Familia hii inajumuisha:
- Gemini Ultra: Mfumo mkuu wa familia, iliyoundwa kwa ajili ya kazi ngumu sana zinazohitaji nguvu kubwa ya kompyuta. (Haipatikani kwa sasa)
- Gemini Pro: Mfumo thabiti, mdogo kuliko Ultra, lakini wenye uwezo wa kushughulikia kazi mbalimbali. Gemini 2.0 Pro, toleo la hivi karibuni, kwa sasa ndio mfumo mkuu wa Google.
- Gemini Flash: Toleo lililorahisishwa, ‘lililochujwa’ la Pro, likizingatia kasi na ufanisi.
- Gemini Flash-Lite: Toleo lililopunguzwa kidogo na la haraka zaidi la Gemini Flash.
- Gemini Flash Thinking: Mfumo unaoonyesha uwezo wa ‘kufikiri’.
- Gemini Nano: Inajumuisha mifumo miwili midogo, Nano-1 na Nano-2 yenye nguvu kidogo zaidi, iliyoundwa kwa ajili ya kufanya kazi nje ya mtandao kwenye vifaa.
Tabia bainifu ya mifumo yote ya Gemini ni uwezo wake wa asili wa kushughulikia aina mbalimbali za data (multimodality). Tofauti na mifumo iliyozoezwa tu kwenye data ya maandishi, kama vile LaMDA ya Google, mifumo ya Gemini ina uwezo wa kuchakata na kuchambua aina mbalimbali za data. Imefunzwa kwenye hifadhidata kubwa inayojumuisha sauti, picha, video, misimbo, na maandishi ya umma, ya kibinafsi, na yenye leseni katika lugha nyingi.
Uwezo huu wa kushughulikia aina mbalimbali za data unaruhusu Gemini kuvuka mipaka ya mifumo ya maandishi pekee. Wakati LaMDA imepunguzwa kwa ingizo na towe la maandishi, mifumo ya Gemini, haswa matoleo mapya ya Flash na Pro, inaweza kutoa picha na sauti pamoja na maandishi.
Hata hivyo, athari za kimaadili na kisheria za kufunza mifumo ya AI kwenye data inayopatikana hadharani, mara nyingi bila idhini ya wazi ya wamiliki wa data, bado ni suala tata. Ingawa Google inatoa sera ya fidia ya AI ili kuwalinda wateja fulani wa Google Cloud dhidi ya mashtaka yanayoweza kutokea, sera hii ina mapungufu. Watumiaji, haswa wale wanaokusudia kutumia Gemini kwa madhumuni ya kibiashara, wanapaswa kuwa waangalifu.
Programu za Gemini dhidi ya Mifumo ya Gemini: Kuelewa Tofauti
Ni muhimu kutofautisha kati ya mifumo ya Gemini na programu za Gemini zinazopatikana kwenye wavuti na majukwaa ya simu (zamani ikijulikana kama Bard).
Programu za Gemini hufanya kazi kama wateja, zikiunganisha na mifumo mbalimbali ya Gemini na kuwasilisha kiolesura kinachofaa mtumiaji, kama chatbot. Zinatumiaka kama sehemu ya mbele ya kuingiliana na uwezo wa AI wa Google.
Kwenye vifaa vya Android, programu ya Gemini inachukua nafasi ya programu ya Google Assistant. Kwenye iOS, programu za Google na Google Search hufanya kazi kama wateja wa Gemini.
Watumiaji wa Android wanaweza kuomba kiweko cha Gemini kuuliza maswali kuhusu maudhui yanayoonyeshwa kwenye skrini zao, kama vile video ya YouTube. Kiweko hiki huwashwa kwa kubonyeza na kushikilia kitufe cha kuwasha/kuzima cha simu mahiri inayotumika au kwa kutumia amri ya sauti ‘Hey Google.’
Programu za Gemini zinaweza kutumia picha, amri za sauti, na maandishi kama ingizo. Zinaweza kuchakata faili kama PDF, ama zilizopakiwa moja kwa moja au zilizoingizwa kutoka Hifadhi ya Google, na kutoa picha. Mazungumzo yaliyoanzishwa na programu za Gemini kwenye simu husawazishwa bila mshono na Gemini kwenye wavuti, mradi mtumiaji ameingia kwenye Akaunti ile ile ya Google.
Gemini Advanced: Kufungua Vipengele vya Kulipia vya AI
Programu za Gemini si lango pekee la kutumia nguvu ya mifumo ya Gemini. Google inaendelea kuunganisha vipengele vinavyotumia Gemini katika programu na huduma zake kuu, ikiwa ni pamoja na Gmail na Hati za Google.
Ili kutumia kikamilifu uwezo huu, watumiaji kwa kawaida huhitaji Mpango wa Kulipia wa Google One AI. Mpango huu, kitaalam sehemu ya Google One, hugharimu $20 kwa mwezi na hutoa ufikiaji wa Gemini ndani ya programu za Google Workspace kama vile Docs, Maps, Slides, Sheets, Drive, na Meet. Pia hufungua ‘Gemini Advanced,’ ikitoa ufikiaji wa mifumo ya kisasa zaidi ya Gemini ya Google ndani ya programu za Gemini.
Watumiaji wa Gemini Advanced wanafurahia manufaa ya ziada, kama vile ufikiaji wa kipaumbele kwa vipengele na mifumo mipya, uwezo wa kutekeleza na kurekebisha msimbo wa Python moja kwa moja ndani ya Gemini, na mipaka iliyopanuliwa ya NotebookLM, zana ya Google ya kubadilisha PDF kuwa podikasti zinazozalishwa na AI. Nyongeza ya hivi karibuni kwa Gemini Advanced ni kipengele cha kumbukumbu ambacho huhifadhi mapendeleo ya mtumiaji na kuwezesha Gemini kurejelea mazungumzo ya awali, ikitoa muktadha kwa mwingiliano wa sasa.
Moja ya vipengele vya kuvutia zaidi vya kipekee kwa Gemini Advanced ni ‘Utafiti wa Kina’ (‘Deep Research’). Kipengele hiki hutumia mifumo ya Gemini yenye uwezo ulioboreshwa wa kufikiri ili kutoa muhtasari wa kina. Kwa kujibu swali, kama vile ‘Ninapaswa kubuni upya jikoni langu vipi?’, Utafiti wa Kina huunda mpango wa utafiti wa hatua nyingi, huchunguza wavuti, na kukusanya jibu la kina.
Ndani ya Gmail, Gemini hukaa kwenye paneli ya pembeni, yenye uwezo wa kutunga barua pepe na kufupisha nyuzi za ujumbe. Paneli sawa inaonekana katika Docs, ikisaidia na uandishi wa maudhui, uboreshaji, na mawazo. Katika Slides, Gemini hutoa slaidi na picha maalum. Katika Laha za Google, husaidia katika ufuatiliaji wa data, upangaji, na uundaji wa fomula.
Uwepo wa Gemini unaenea hadi Ramani za Google, ambapo hukusanya hakiki kuhusu biashara za ndani na kutoa mapendekezo, kama vile mapendekezo ya ratiba ya kutembelea jiji la kigeni. Uwezo wa chatbot pia unajumuisha Hifadhi, ambapo inaweza kufupisha faili na folda na kutoa taarifa fupi kuhusu miradi.
Gemini hivi karibuni imeunganishwa katika kivinjari cha Google Chrome kama zana ya uandishi ya AI. Zana hii inaweza kutumika kuunda maudhui mapya kabisa au kuandika upya maandishi yaliyopo, ikizingatia muktadha wa ukurasa wa sasa wa wavuti ili kutoa mapendekezo yaliyolengwa.
Zaidi ya programu hizi za msingi, athari za Gemini zinaweza kupatikana katika bidhaa za hifadhidata za Google, zana za usalama wa wingu, na majukwaa ya ukuzaji wa programu (ikiwa ni pamoja na Firebase na Project IDX). Pia huwezesha vipengele katika programu kama vile Picha za Google (maswali ya utafutaji wa lugha asilia), YouTube (mawazo ya video), na Meet (tafsiri ya manukuu).
Code Assist (zamani Duet AI for Developers), zana za Google zinazotumia AI kwa ukamilishaji na uzalishaji wa msimbo, hutegemea Gemini kwa kazi zinazohitaji nguvu kubwa ya kompyuta. Vile vile, bidhaa za usalama za Google, kama vile Gemini in Threat Intelligence, hutumia Gemini kuchambua msimbo unaoweza kuwa mbaya na kuwezesha utafutaji wa lugha asilia kwa vitisho na viashiria vya udukuzi.
Viendelezi vya Gemini na Gems: Kubinafsisha Uzoefu wa AI
Watumiaji wa Gemini Advanced wana uwezo wa kuunda ‘Gems,’ chatbots maalum zinazotumia mifumo ya Gemini, zinazoweza kufikiwa kwenye kompyuta ya mezani na majukwaa ya simu. Gems zinaweza kuzalishwa kutoka kwa maelezo ya lugha asilia, kama vile ‘Wewe ni kocha wangu wa kukimbia. Nipe mpango wa kila siku wa kukimbia,’ na zinaweza kushirikiwa na watumiaji wengine au kuwekwa faragha.
Programu za Gemini zinaweza kuunganishwa na huduma mbalimbali za Google kupitia ‘viendelezi vya Gemini.’ Viendelezi hivi huwezesha Gemini kuingiliana na Hifadhi, Gmail, YouTube, na huduma zingine, ikiruhusu kujibu maswali kama ‘Unaweza kufupisha barua pepe zangu tatu za mwisho?’
Gemini Live: Kushiriki katika Mazungumzo ya Kina ya Sauti
‘Gemini Live’ inatoa uzoefu wa kina, ikiruhusu watumiaji kushiriki katika mazungumzo ya kina ya sauti na Gemini. Kipengele hiki kinapatikana ndani ya programu za Gemini kwenye vifaa vya rununu na kwenye Pixel Buds Pro 2, ambapo kinaweza kufikiwa hata wakati simu imefungwa.
Na Gemini Live, watumiaji wanaweza kumkatiza Gemini wakati inazungumza ili kuuliza maswali ya ufafanuzi, na chatbot hubadilika kulingana na mifumo ya usemi kwa wakati halisi. Live pia imeundwa kufanya kazi kama kocha pepe, ikisaidia na maandalizi ya hafla, mawazo, na kazi zingine. Kwa mfano, Live inaweza kupendekeza ujuzi wa kuangazia wakati wa mahojiano ya kazi na kutoa vidokezo vya kuzungumza hadharani.
Gemini kwa Vijana: Uzoefu wa AI Uliolengwa kwa Wanafunzi
Google inatoa uzoefu maalum wa Gemini uliolengwa kwa wanafunzi wa ujana.
Toleo hili la Gemini linalolenga vijana linajumuisha ‘sera na ulinzi wa ziada,’ ikiwa ni pamoja na mchakato uliobinafsishwa wa kuingia na mwongozo wa elimu ya AI. Kando na marekebisho haya, inafanana kwa karibu na uzoefu wa kawaida wa Gemini, ikiwa ni pamoja na kipengele cha ‘kuangalia mara mbili’ ambacho huthibitisha usahihi wa majibu ya Gemini kwa kurejelea habari kwenye wavuti.
Kuchunguza Uwezo wa Mifumo ya Gemini
Asili ya mifumo ya Gemini ya kushughulikia aina mbalimbali za data inaiwezesha kufanya kazi mbalimbali, kuanzia unukuzi wa hotuba hadi uwekaji manukuu wa picha na video kwa wakati halisi. Nyingi za uwezo huu tayari zimejumuishwa katika bidhaa za Google, na maendeleo zaidi yameahidiwa katika siku za usoni.
Hata hivyo, ni muhimu kutambua kwamba Google, kama washindani wake, haijashughulikia kikamilifu baadhi ya changamoto za asili zinazohusiana na teknolojia ya AI, kama vile upendeleo uliowekwa na tabia ya kutunga habari (hallucinations). Mapungufu haya yanapaswa kuzingatiwa wakati wa kutathmini matumizi ya Gemini, haswa kwa matumizi muhimu.
Uwezo wa Gemini Pro
Google inadai kuwa mfumo wake wa hivi karibuni wa Pro, Gemini 2.0 Pro, unawakilisha toleo lake la juu zaidi kwa uandishi wa msimbo na kushughulikia maswali magumu. 2.0 Pro inazidi mtangulizi wake, Gemini 1.5 Pro, katika vipimo vinavyotathmini upangaji programu, kufikiri, hisabati, na usahihi wa ukweli.
Ndani ya jukwaa la Vertex AI la Google, watengenezaji wanaweza kubinafsisha Gemini Pro kwa miktadha na matumizi maalum kupitia uboreshaji au ‘grounding.’ Kwa mfano, Pro (pamoja na mifumo mingine ya Gemini) inaweza kuagizwa kutumia data kutoka kwa watoa huduma wengine kama vile Moody’s, Thomson Reuters, ZoomInfo, na MSCI, au kupata habari kutoka kwa hifadhidata za shirika au Utafutaji wa Google badala ya msingi wake mpana wa maarifa. Gemini Pro pia inaweza kuunganishwa na API za nje, za wahusika wengine ili kufanya vitendo maalum, kama vile kuendesha kiotomatiki utiririshaji wa kazi wa ofisi ya nyuma.
Jukwaa la AI Studio la Google hutoa violezo vya kuunda vidokezo vya gumzo vilivyopangwa na Pro. Watengenezaji wanaweza kudhibiti safu ya ubunifu ya mfumo, kutoa mifano ya kuongoza sauti na mtindo, na kurekebisha mipangilio ya usalama ya Pro.
Gemini Flash: Ufanisi Mwepesi na Uwezo wa Kufikiri wa Gemini Flash Thinking
Gemini 2.0 Flash, ina uwezo wa kutumia utafutaji wa Google na API zingine za nje. Ingawa ni ndogo, inazidi baadhi ya mifumo mikubwa ya 1.5 kwenye vipimo vinavyopima uandishi wa msimbo na uchambuzi wa picha. Kama toleo la Gemini Pro, Flash imeundwa kwa ajili ya ufanisi, ikilenga kazi nyembamba, za mara kwa mara za AI.
Google inaangazia ufaafu wa Flash kwa matumizi kama vile muhtasari, programu za gumzo, uwekaji manukuu wa picha na video, na uchimbaji wa data kutoka kwa hati na majedwali marefu. Wakati huo huo, Gemini 2.0 Flash-Lite, toleo dogo zaidi la Flash, linazidi Gemini 1.5 Flash katika utendaji huku ikidumisha bei na kasi sawa, kulingana na Google.
Mnamo Desemba mwaka uliopita, Google ilianzisha toleo la ‘kufikiri’ la Gemini 2.0 Flash, lililopewa uwezo wa ‘kufikiri’. Mfumo huu wa AI huchukua sekunde chache kufanya kazi nyuma kupitia tatizo kabla ya kutoa jibu, ikiwezekana kuongeza uaminifu wake.
Gemini Nano: Nguvu ya AI Kwenye Kifaa
Gemini Nano ni toleo dogo sana la Gemini, iliyoundwa kufanya kazi moja kwa moja kwenye vifaa vinavyotumika, ikiondoa hitaji la kutuma kazi kwa seva ya mbali. Hivi sasa, Nano huwezesha vipengele kadhaa kwenye Pixel 8 Pro, Pixel 8, Pixel 9 Pro, Pixel 9, na Samsung Galaxy S24, ikiwa ni pamoja na Summarize in Recorder na Smart Reply in Gboard.
Programu ya Rekoda, ambayo inaruhusu watumiaji kurekodi na kunukuu sauti, inajumuisha kipengele cha muhtasari kinachotumia Gemini kwa mazungumzo yaliyorekodiwa, mahojiano, mawasilisho, na vijisehemu vingine vya sauti. Muhtasari huu hutolewa hata bila muunganisho wa mtandao, na kwa maslahi ya faragha, hakuna data inayoondoka kwenye kifaa cha mtumiaji wakati wa mchakato.
Nano pia hupata nafasi yake katika Gboard, kibodi mbadala ya Google, ambapo huwezesha Smart Reply. Kipengele hiki kinapendekeza majibu katika programu za kutuma ujumbe kama vile WhatsApp, ikirahisisha mazungumzo.
Toleo la baadaye la Android limepangwa kutumia Nano kuwatahadharisha watumiaji kuhusu ulaghai unaowezekana wakati wa simu. Programu mpya ya hali ya hewa kwenye simu za Pixel hutumia Gemini Nano kutoa ripoti za hali ya hewa zilizobinafsishwa. Zaidi ya hayo, TalkBack, huduma ya ufikivu ya Google, hutumia Nano kuunda maelezo ya sauti ya vitu kwa watumiaji wenye ulemavu wa kuona.
Gemini Ultra: Inasubiri Kurejea Kwake
Gemini Ultra imekuwa haionekani sana katika miezi ya hivi karibuni. Mfumo huu haupatikani kwa sasa ndani ya programu za Gemini, wala haujaorodheshwa kwenye ukurasa wa bei wa Gemini API wa Google. Hata hivyo, hii haizuii uwezekano wa Google kuleta tena Ultra katika siku zijazo.
Muundo wa Bei kwa Mifumo ya Gemini
Gemini 1.5 Pro, 1.5 Flash, 2.0 Flash, na 2.0 Flash-Lite zinapatikana kupitia Gemini API ya Google kwa ajili ya kutengeneza programu na huduma. Zinafanya kazi kwa msingi wa kulipa unapotumia. Bei ya msingi, bila kujumuisha nyongeza, kuanzia Februari 225, ni kama ifuatavyo:
- Gemini 1.5 Pro: $1.25 kwa kila tokeni milioni 1 za ingizo (kwa vidokezo hadi tokeni 128K) au $2.50 kwa kila tokeni milioni 1 za ingizo (kwa vidokezo virefu zaidi ya tokeni 128K); $5 kwa kila tokeni milioni 1 za towe (kwa vidokezo hadi tokeni 128K) au $10 kwa kila tokeni milioni 1 za towe (kwa vidokezo virefu zaidi ya tokeni 128K)
- Gemini 1.5 Flash: senti 7.5 kwa kila tokeni milioni 1 za ingizo (kwa vidokezo hadi tokeni 128K), senti 15 kwa kila tokeni milioni 1 za ingizo (kwa vidokezo virefu zaidi ya tokeni 128K), senti 30 kwa kila tokeni milioni 1 za towe (kwa vidokezo hadi tokeni 128K), senti 60 kwa kila tokeni milioni 1 za towe (kwa vidokezo virefu zaidi ya tokeni 128K)
- Gemini 2.0 Flash: senti 10 kwa kila tokeni milioni 1 za ingizo, senti 40 kwa kila tokeni milioni 1 za towe. Kwa sauti, senti 70 kwa kila tokeni milioni 1 za ingizo.
- Gemini 2.0 Flash-Lite: senti 7.5 kwa kila tokeni milioni 1 za ingizo, senti 30 kwa kila tokeni milioni 1 za towe.
Tokeni zinawakilisha vitengo vilivyogawanywa vya data ghafi, kama vile silabi ‘fan,’ ‘tas,’ na ‘tic’ katika neno ‘fantastic.’ Tokeni milioni moja ni sawa na maneno 750,000. ‘Ingizo’ inarejelea tokeni zinazolishwa kwenye mfumo, wakati ‘towe’ inaashiria tokeni zinazozalishwa na mfumo.
Bei ya 2.0 Pro bado haijatangazwa, na Nano inabaki katika ufikiaji wa mapema.
Uwezekano wa Gemini Kufika kwenye iPhone
Uwezekano wa kuunganishwa kwa Gemini na iPhones ni dhahiri.
Apple imeonyesha kuwa inajadiliana ili kutumia Gemini na mifumo mingine ya wahusika wengine kwa vipengele mbalimbali ndani ya kifurushi chake cha Apple Intelligence. Kufuatia uwasilishaji mkuu katika WWDC 2024, SVP wa Apple Craig Federighi alithibitisha mipango ya kushirikiana na mifumo, ikiwa ni pamoja na Gemini, lakini alikataa kutoa maelezo zaidi.