Google DeepMind Yazindua Gemma 3n

Changamoto ya AI Multimodal Kwenye Vifaa

Moja ya vizuizi vikubwa katika juhudi hii ni kutoa AI ya hali ya juu, ya multimodal ndani ya mazingira yenye rasilimali ndogo ya vifaa vya rununu. Tofauti na mifumo inayotegemea wingu, ambayo inanufaika na nguvu kubwa ya kompyuta, mifumo ya ndani ya kifaa lazima ifanye kazi na mapungufu madhubuti ya RAM na uwezo wa usindikaji. AI ya Multimodal, ambayo inajumuisha uwezo wa kutafsiri maandishi, picha, sauti na video, kawaida inahitaji mifumo mikubwa ambayo inaweza kuzidi vifaa vingi vya rununu. Zaidi ya hayo, utegemezi wa wingu huleta latency na maswala ya faragha, ikisisitiza hitaji la mifumo inayoweza kufanya kazi ndani ya nchi bila kuathiri utendaji.

Gemma 3n: Hatua Kubwa Mbele Katika AI ya Simu

Ili kukabiliana na changamoto hizi, Google na Google DeepMind wameanzisha Gemma 3n, mfumo wa AI wa msingi uliobuniwa mahsusi kwa upelekaji wa kwanza wa simu. Gemma 3n imeundwa kwa utendaji mzuri katika majukwaa ya Android na Chrome na hutumika kama msingi wa marudio yanayofuata ya Gemini Nano. Ubunifu huu unawakilisha maendeleo makubwa, ukileta uwezo wa multimodal AI kwa vifaa vyenye alama ndogo za kumbukumbu huku ikidumisha nyakati za majibu ya wakati halisi. Pia ni mfumo wazi wa kwanza uliojengwa kwenye miundombinu hii iliyoshirikiwa, kuwapa wasanidi programu ufikiaji wa haraka wa majaribio.

Uwekaji wa Tabaka-kwa-Tabaka (PLE): Ubunifu Muhimu

Katika moyo wa Gemma 3n kuna matumizi ya Uwekaji wa Tabaka-kwa-Tabaka (PLE), mbinu ambayo hupunguza sana matumizi ya RAM. Ingawa ukubwa wa mfumo mbichi ni bilioni 5 na vigezo bilioni 8, mtawalia, hufanya kazi na alama za kumbukumbu sawa na mifumo ya vigezo bilioni 2 na bilioni 4. Matumizi ya kumbukumbu yanayobadilika ni 2GB tu kwa mfumo wa 5B na 3GB kwa toleo la 8B. Hii inafanikiwa kupitia usanidi wa mfumo uliowekwa ambapo mfumo wa kumbukumbu unaofanya kazi wa 4B ni pamoja na mfumo mdogo wa 2B uliofunzwa kwa kutumia njia inayoitwa MatFormer. Hii inaruhusu wasanidi kubadili modi za utendaji kwa nguvu bila kuhitaji kupakia mifumo tofauti. Maboresho zaidi, kama vile kushiriki KVC na upimaji wa uanzishaji, hupunguza zaidi latency na kuharakisha kasi ya majibu. Kwa mfano, wakati wa majibu kwenye simu umeboreshwa na 1.5x ikilinganishwa na Gemma 3 4B, yote huku ikidumisha ubora bora wa pato.

Vipimo vya Utendaji

Vipimo vya utendaji vilivyopatikana na Gemma 3n vinaangazia kufaa kwake kwa upelekaji wa simu. Inafanya vizuri katika kazi kama vile utambuzi wa hotuba otomatiki na tafsiri, kuwezesha ubadilishaji usio na mshono wa hotuba kuwa maandishi yaliyotafsiriwa. Kwenye alama za kimataifa kama vile WMT24++ (ChrF), inafikia alama ya 50.1%, ikionyesha nguvu zake katika lugha kama Kijapani, Kijerumani, Kikorea, Kihispania na Kifaransa. Uwezo wake wa “changanya na linganisha” unawezesha uundaji wa mifumo ndogo iliyoboreshwa kwa mchanganyiko mbalimbali wa ubora na latency, na kuwapa wasanidi programu ubinafsishaji mkubwa zaidi.

Uwezo wa Multimodal na Matumizi

Usanifu wa Gemma 3n unasaidia ingizo zilizounganishwa kutoka kwa mitindo tofauti, pamoja na maandishi, sauti, picha na video, kuruhusu mwingiliano wa asili zaidi na wenye utajiri wa muktadha. Inaweza pia kufanya kazi nje ya mtandao, kuhakikisha faragha na kuegemea hata bila muunganisho wa mtandao. Matumizi yanayoweza kutumika ni mengi, ikijumuisha:

  • Majibu ya moja kwa moja ya kuona na kusikia: Kutoa majibu ya wakati halisi kwa ingizo la mtumiaji kupitia njia za kuona na kusikia.
  • Utoaji wa maudhui unaozingatia muktadha: Kuunda maudhui yaliyolengwa kulingana na muktadha wa sasa wa mtumiaji, kama inavyoamuliwa na ingizo tofauti za kihisi.
  • Programu za hali ya juu zinazotegemea sauti: Kuwezesha mwingiliano na udhibiti wa sauti wa hali ya juu zaidi.

Vipengele Muhimu vya Gemma 3n

Gemma 3n inajumuisha aina mbalimbali za vipengele, ikiwa ni pamoja na:

  • Usanifu wa kwanza wa simu: Iliyotengenezwa kupitia ushirikiano kati ya Google, DeepMind, Qualcomm, MediaTek na Samsung System LSI kwa utendaji bora wa simu.
  • Alama ndogo ya kumbukumbu: Inafikia alama za utendaji wa 2GB na 3GB kwa mifumo ya parameta ya 5B na 8B, mtawalia, kwa kutumia Uwekaji wa Tabaka-kwa-Tabaka (PLE).
  • Wakati wa majibu ulioboreshwa: Hutoa jibu la haraka la 1.5x kwenye simu ikilinganishwa na Gemma 3 4B.
  • Ustadi wa lugha nyingi: Inafikia alama ya lugha nyingi ya 50.1% kwenye WMT24++ (ChrF).
  • Ingizo la Multimodal: Inakubali na kuelewa sauti, maandishi, picha na video, kuwezesha usindikaji changamano wa multimodal na ingizo zilizounganishwa.
  • Mifumo Ndogo Inayobadilika: Inasaidia ushindanaji unaobadilika kwa kutumia mafunzo ya MatFormer yenye mifumo ndogo iliyowekwa na uwezo wa kuchanganya na kulinganisha.
  • Uendeshaji Nje ya Mtandao: Inafanya kazi bila muunganisho wa intaneti, kuhakikisha faragha na kuegemea.
  • Ufikiaji Rahisi Unapatikana kupitia Google AI Studio na Google AI Edge, yenye uwezo wa usindikaji wa maandishi na picha.

Athari na Mielekeo ya Baadaye

Gemma 3n inatoa njia iliyo wazi ya kufanya AI ya utendaji wa juu iweze kubebeka na ya faragha. Kwa kushughulikia mapungufu ya RAM kupitia usanifu bunifu na kuimarisha uwezo wa lugha nyingi na wa multimodal, watafiti wameunda suluhisho linalowezekana la kuleta AI ya hali ya juu moja kwa moja kwenye vifaa vya kila siku. Kubadilisha mfumo mdogo unaobadilika, utayari wa nje ya mtandao na nyakati za majibu ya haraka zinawakilisha mbinu kamili ya AI ya kwanza ya simu. Utafiti wa baadaye pengine utazingatia kuimarisha uwezo wa mfumo, kupanua uoanifu wake na aina mbalimbali za vifaa, na kuchunguza matumizi mapya katika maeneo kama vile uhalisia uliodhabitiwa, roboti na IoT.