Alfajiri ya Mageuzi ya AI: Safari ya Miaka 25 kutoka PageRank hadi AGI
Viongozi wawili wa safari ya kiteknolojia ya Google, Jeff Dean, Mwanasayansi Mkuu wa sasa, na Noam Shazeer, mtu muhimu nyuma ya modeli ya Transformer ambaye alijiunga tena, hivi karibuni walishiriki katika mazungumzo ya kuelimisha. Iliyoandaliwa na mtangazaji maarufu Dwarkesh Patel, mazungumzo yao yalitoa mtazamo wa mageuzi ya AI, kuanzia siku za msingi za MapReduce hadi enzi ya mabadiliko ya usanifu wa Transformer na MoE.
Waveterani hawa waliobobea, wakiwa na uzoefu wa miongo kadhaa huko Google, hawajashuhudia tu bali pia wameunda kikamilifu teknolojia zinazofafanua za mtandao na akili bandia. Kwa kushangaza, Shazeer alikiri kwamba motisha yake ya awali ya kujiunga na Google ilikuwa harakati fupi ya kifedha, mpango ambao ulipingwa sana na michango yake iliyofuata katika uwanja huo.
Hali ya Sasa na Mwelekeo wa Baadaye wa Kompyuta ya AI
Katika mahojiano ya saa mbili, Dean na Shazeer walifunua maarifa juu ya hali ya sasa ya kompyuta ya AI, wakifunua kwamba:
- Kiwango cha shughuli kimezidi vituo vya data vya mtu binafsi; Mafunzo ya Gemini sasa yanajumuisha vituo vingi vya data katika maeneo tofauti ya miji mikuu, ikifanya kazi asynchronously.
- Kuna nafasi kubwa ya ukuaji katika kuongeza kompyuta ya inference, kwani kuingiliana na AI kunabaki kuwa na gharama nafuu zaidi kuliko usomaji wa jadi.
- Usanifu wa modeli za siku zijazo umeonekana kuzidi kubadilika kwa MoE, kuwezesha ukuzaji huru wa vifaa anuwai vya modeli na timu tofauti.
Maarifa kutoka kwenye Mifereji: Zawadi za Mdudu na Usanifu wa Baadaye
Mazungumzo pia yalizua hamu kwenye media ya kijamii, na watumiaji wakiangazia dhana za kuvutia, kama vile:
- Uwezo wa kuhifadhi modeli kubwa za MoE kwenye kumbukumbu.
- Faida zisizotarajiwa za mende kwenye msimbo, ambayo, kadiri kiwango kinavyoongezeka, inaweza kusababisha ugunduzi wa msingi.
Dean alipinga dhana kwamba kompyuta ya AI ni ghali sana. Kwa kulinganisha gharama ya kushirikiana na kitabu dhidi ya kuingiliana na AI kuhusu kitabu hicho hicho, alionyesha hoja ya kulazimisha:
Moduli za lugha za hali ya juu zaidi hufanya kazi kwa gharama ya chini ya kushangaza ya takriban $10^{-18}$ kwa kila operesheni, ambayo hutafsiri kuwa tokeni milioni zilizochakatwa kwa dola moja. Kinyume chake, kununua kitabu cha karatasi hutoa tokeni 10,000 tu kwa kila dola.
Tofauti hii kubwa - faida ya gharama mara mia kwa mwingiliano wa AI - inaangazia uwezo usiotumiwa wa kuongeza akili ya AI kupitia kuongezeka kwa kompyuta ya inference.
Kutoka kwa mtazamo wa miundombinu, umuhimu unaoongezeka wa hesabu ya wakati wa inference unaweza kuunda upya upangaji wa kituo cha data. Hii inaweza kuhitaji vifaa vilivyoundwa mahsusi kwa kazi za inference, sawa na TPU za kizazi cha kwanza cha Google, ambazo hapo awali ziliundwa kwa inference na baadaye zilibadilishwa kwa mafunzo.
Usambazaji na Hesabu ya Asynchronous: Paradigm Mpya
Msisitizo unaoongezeka juu ya inference unaonyesha kuwa mawasiliano endelevu kati ya vituo vya data inaweza kuwa sio lazima, na inaweza kusababisha mfumo uliosambazwa zaidi na usio na usawa wa hesabu.
Gemini 1.5 tayari imeanza njia hii, ikitumia rasilimali za kompyuta katika miji kadhaa mikuu. Mitandao ya kasi ya juu husawazisha hesabu kutoka vituo tofauti vya data, kufikia mizani isiyo na kifani ya mafunzo. Kwa modeli kubwa, ambapo kila hatua ya mafunzo inaweza kuchukua sekunde kadhaa, hata latency ya mtandao ya milisekunde 50 haina athari ndogo.
Katika uwanja wa inference, usikivu wa latency unakuwa jambo muhimu. Wakati majibu ya haraka yanahitaji utendaji bora wa latency ya chini, kazi zisizo za haraka, kama vile uchambuzi tata wa muktadha, zinaweza kuvumilia nyakati ndefu za usindikaji.
Mfumo unaoweza kubadilika zaidi na wenye ufanisi unaweza kudhibiti kazi nyingi asynchronously, kuongeza utendaji wa jumla huku ukipunguza nyakati za kusubiri za watumiaji. Zaidi ya hayo, maendeleo ya algorithmic, kama vile kutumia modeli ndogo za rasimu, yanaweza kupunguza vikwazo katika mchakato wa inference. Njia hii inahusisha modeli ndogo zinazozalisha tokeni zinazowezekana, ambazo huangaliwa na modeli kubwa, na kuharakisha sana mchakato wa inference kupitia ulinganifu.
Shazeer aliongeza kuwa wakati wa mafunzo ya asynchronous, kila marudio ya modeli hufanya kazi kwa kujitegemea, ikituma sasisho za gradient kwa mfumo mkuu kwa matumizi ya asynchronous. Licha ya athari za kinadharia za kushuka kwa thamani kidogo, njia hii imethibitisha kuwa na mafanikio ya kushangaza.
Kinyume chake, mafunzo ya synchronous hutoa utulivu na uzalishaji, upendeleo kwa watafiti wengi. Ili kuhakikisha uwezo wa kuiga katika mafunzo, Dean alisisitiza mazoezi ya kuingia shughuli, hasa sasisho za gradient na usawazishaji wa kundi la data. Kwa kucheza tena kumbukumbu hizi, hata mafunzo ya asynchronous yanaweza kutoa matokeo yanayoweza kuzalishwa, na kufanya utatuzi kuwa rahisi na kupunguza utofauti unaosababishwa na mambo ya mazingira.
Jukumu la Bahati Nasibu la Mende
Akipanua juu ya hili, Shazeer alianzisha mtazamo wa kuvutia:
Wakati modeli za mafunzo zinakumbana na mende mbalimbali, uvumilivu wa asili wa kelele wa modeli hizi huruhusu kujirekebisha, na kusababisha matokeo yasiyotarajiwa. Mende zingine hata huleta athari chanya, zikitoa fursa za uboreshaji kadri kiwango kinavyoongezeka upanuzi wa majaribio.
Alipoulizwa kuhusu mazoea ya utatuzi, Shazeer alielezea mbinu yao ya kufanya majaribio mengi madogo ya uthibitishaji wa haraka. Njia hii hurahisisha msimbo na hupunguza mizunguko ya majaribio hadi saa badala ya wiki, kuwezesha maoni ya haraka na marekebisho.
Dean alikubali, akibainisha kuwa majaribio mengi yenye matokeo yasiyopendeza mwanzoni yanaweza kutoa maarifa muhimu baadaye. Hata hivyo, watafiti wanakabiliwa na changamoto ya utata wa msimbo; wakati uboreshaji unaoongezeka ni muhimu, pia huleta changamoto za utendaji na matengenezo, zinazohitaji usawa kati ya usafi wa mfumo na uvumbuzi.
Muundo wa Kikaboni wa Modeli za Baadaye
Dean na Shazeer wanaona mabadiliko makubwa katika modeli za AI kutoka miundo ya monolithic hadi usanifu wa msimu.
Moduli kama vile Gemini 1.5 Pro tayari zinatumia usanifu wa Mchanganyiko wa Wataalamu (MoE), kuwezesha vipengele tofauti kulingana na kazi. Kwa mfano, matatizo ya hisabati hushirikisha sehemu yenye uzoefu wa hesabu, huku usindikaji wa picha ukiwezesha moduli maalum inayolingana.
Hata hivyo, miundo ya sasa ya modeli inabaki kuwa ngumu, na moduli za wataalamu zikiwa sawa kwa ukubwa na hazina kubadilika. Dean alipendekeza maono ya mbele zaidi: modeli za siku zijazo zinapaswa kupitisha muundo wa kikaboni, kuruhusu timu tofauti kuendeleza au kuboresha sehemu tofauti za modeli kwa kujitegemea.
Kwa mfano, timu iliyo utaalam katika lugha za Kusini-mashariki mwa Asia inaweza kuboresha moduli inayofaa, huku nyingine ikizingatia kuboresha uelewa wa msimbo. Njia hii ya msimu haiongezi tu ufanisi wa maendeleo lakini pia inawezesha timu za kimataifa kuchangia katika maendeleo ya modeli.
Kitaalam, modeli zinaweza kuendelea kuboresha moduli za mtu binafsi kupitia uchujaji. Hii inahusisha kufupisha moduli kubwa, za utendaji wa juu katika matoleo madogo, yenye ufanisi, ambayo kisha yanaendelea kujifunza maarifa mapya.
Router inaweza kuchagua toleo sahihi la moduli kulingana na utata wa kazi, kusawazisha utendaji na ufanisi - dhana muhimu kwa usanifu wa Pathway wa Google.
Usanifu huu mpya unahitaji miundombinu thabiti, ikiwa ni pamoja na makundi yenye nguvu ya TPU na kumbukumbu pana ya bandwidth ya juu (HBM). Ingawa kila simu inaweza kutumia sehemu ndogo tu ya vigezo vya modeli, mfumo mzima unahitaji kuweka modeli kamili kwenye kumbukumbu ili kuhudumia maombi ya wakati mmoja.
Moduli za sasa zinaweza kuvunja kazi katika kazi ndogo 10 na kiwango cha mafanikio cha 80%. Moduli za siku zijazo zinaweza kuvunja kazi katika kazi ndogo 100 au 1,000, kufikia viwango vya mafanikio vya 90% au zaidi.
Wakati wa “Takatifu”: Utambuzi Sahihi wa Paka
Tukirudi nyuma, 2007 iliashiria hatua muhimu kwa modeli kubwa za lugha (LLMs).
Wakati huo, Google ilifundisha modeli ya N-gram kwa kutumia tokeni trilioni 2 kwa tafsiri ya mashine. Hata hivyo, kutegemea hifadhi ya diski kwa data ya N-gram kulisababisha latency ya juu kutokana na I/O pana ya diski (kwa mfano, utafutaji 100,000/neno), kuchukua saa 12 kutafsiri sentensi moja.
Ili kushughulikia hili, walibuni mikakati kadhaa, ikiwa ni pamoja na compression ya kumbukumbu, usanifu uliosambazwa, na uboreshaji wa API ya usindikaji wa kundi:
- Compression ya Kumbukumbu: Kupakia data ya N-gram kabisa kwenye kumbukumbu ili kuepuka I/O ya diski.
- Usanifu Uliosambazwa: Kusambaza data katika mashine nyingi (kwa mfano, 200) kwa maswali sambamba.
- Uboreshaji wa API ya Usindikaji wa Kundi: Kupunguza gharama ya ziada kwa kila ombi ili kuboresha upitishaji.
Katika kipindi hiki, nguvu ya hesabu ilianza kufuata Sheria ya Moore, na kusababisha ukuaji wa kielelezo.
“Kuanzia mwishoni mwa 2008, shukrani kwa Sheria ya Moore, mitandao ya neva ilianza kufanya kazi.”
Alipoulizwa kuhusu wakati wa “Takatifu” - wakati wa kutoamini kwamba juhudi fulani za utafiti zilifanya kazi kweli - Jeff alisimulia mradi wa mapema wa timu ya Google ambapo walifundisha modeli kujifunza vipengele vya kiwango cha juu (kama vile kutambua paka na watembea kwa miguu) kutoka kwa fremu za video za YouTube. Kupitia mafunzo yaliyosambazwa (mashine 2,000, cores 16,000), walifanikiwa kujifunza kwa kiwango kikubwa bila kusimamiwa.
Baada ya mafunzo ya awali yasiyosimamiwa, utendaji wa modeli katika kazi zilizosimamiwa (ImageNet) uliongezeka kwa 60%, kuonyesha uwezo wa mafunzo ya kiwango kikubwa na kujifunza bila kusimamiwa.
Akizungumzia kama Google inabaki kuwa kampuni ya kurejesha habari, Jeff alisisitiza:
“AI inatimiza dhamira ya asili ya Google.”
Kimsingi, AI hairejeshi tu habari bali pia inaelewa na kutoa maudhui changamano, yenye uwezo mkubwa wa siku zijazo. Kwa upande wa mwelekeo wa baadaye wa Google, “Sijui.”
Hata hivyo, mtu anaweza kutarajia kuunganisha Google na msimbo fulani wa chanzo huria katika muktadha wa kila msanidi programu. Kwa maneno mengine, kwa kuwezesha modeli kushughulikia tokeni nyingi zaidi, kutafuta ndani ya utafutaji kutaongeza zaidi uwezo na matumizi ya modeli.
Dhana hii tayari inafanyiwa majaribio ndani ya Google.
“Kwa kweli, tayari tumefanya mafunzo zaidi kwenye modeli ya Gemini kwa wasanidi programu wa ndani kwenye msimbo wetu wa ndani.”
Kwa usahihi zaidi, Google imefanikiwa ndani ya lengo la 25% ya msimbo wake kuandikwa na AI.
Nyakati za Furaha Zaidi huko Google
Kwa kupendeza, wawili hao pia walishiriki uzoefu wa kuvutia zaidi unaohusiana na Google.
Kwa Noam mnamo 1999, kujiunga na kampuni kubwa kama Google hapo awali hakuvutia, kwani alihisi ujuzi wake unaweza kutumiwa vibaya. Hata hivyo, baada ya kuona chati ya index ya kiasi cha utafutaji cha kila siku cha Google, alibadilisha akili yake haraka:
“Watu hawa watafanikiwa, na inaonekana wana matatizo mengi ya kuvutia ya kutatua.”
Alijiunga na nia maalum “ndogo”:
“Tengeneza pesa na kisha nifuate kwa furaha maslahi yangu ya utafiti wa AI.”
Baada ya kujiunga na Google, alikutana na mshauri wake, Jeff (wafanyakazi wapya walipewa washauri), na walishirikiana katika miradi kadhaa.
Katika hatua hii, Jeff alikatiza kwa shukrani yake mwenyewe kwa Google:
“Ninapenda mamlaka pana ya Google kwa maono ya RM (Inayojibu na Multimodal), hata kama ni mwelekeo mmoja, tunaweza kufanya miradi mingi midogo.”
Hii pia ilimpa Noam uhuru ambao ulimfanya mtu ambaye hapo awali alipanga “kupiga na kukimbia” kukaa kwa muda mrefu.
Wakati huo huo, mada ilipogeuka kwa Jeff, tasnifu yake ya shahada ya kwanza kuhusu kurudi nyuma sambamba ilirejeshwa.
Karatasi hii ya kurasa 8 ilikuwa tasnifu ya juu ya shahada ya kwanza ya 1990 na imehifadhiwa katika maktaba ya Chuo Kikuu cha Minnesota. Ndani yake, Jeff alichunguza mbinu mbili za mafunzo sambamba ya mitandao ya neva kulingana na kurudi nyuma:
- Njia iliyogawanyika ya muundo: Kuwakilisha mtandao mzima wa neva kwenye kila kichakataji na kugawanya muundo wa ingizo kati ya vichakataji vinavyopatikana.
- Njia iliyogawanyika ya mtandao (njia ya bomba): Kusambaza neuroni za mtandao wa neva katika vichakataji vinavyopatikana, na kuunda pete ya mawasiliano. Vipengele hupitia bomba hili, vinachakatwa na neuroni kwenye kila kichakataji.
Alipima mbinu hizi na mitandao ya neva ya ukubwa tofauti na data mbalimbali za ingizo. Matokeo yalionyesha kuwa kwa njia iliyogawanyika ya muundo, mitandao mikubwa na muundo zaidi wa ingizo ulizalisha kasi bora.
Hasa, karatasi hiyo inafichua jinsi mtandao “mkubwa” wa neva ulionekana mnamo 1990:
“Mtandao wa neva wa safu 3 na neuroni 10, 21, na 10 kwa kila safu ilizingatiwa kuwa kubwa sana.”
Jeff alikumbuka kwamba alitumia hadi vichakataji 32 kwa majaribio yake.
(Wakati huo, pengine hakuweza kufikiria kwamba miaka 12 baadaye, yeye, pamoja na Andrew Ng, Quoc Le, na wengine, wangetumia cores 16,000 za CPU kutambua paka kutoka kwa data kubwa.)
Hata hivyo, Jeff alikiri kwamba kwa matokeo haya ya utafiti kuwa na ufanisi kweli, “tulihitaji nguvu ya hesabu ya mara milioni.”
Baadaye, walijadili hatari zinazoweza kutokea za AI, hasa tatizo la kitanzi cha maoni wakati AI inakuwa na nguvu sana. Kwa maneno mengine, AI inaweza kuingia katika kitanzi cha kuongeza kasi kisichoweza kudhibitiwa (kwa mfano, “mlipuko wa akili”) kwa kuandika msimbo au kuboresha algoriti zake.
Hii inaweza kusababisha AI kupita udhibiti wa binadamu haraka, hata kuunda matoleo mabaya. Kama mwenyeji alivyosema, fikiria “programu milioni za juu kama Jeff, hatimaye kugeuka kuwa Jeffs milioni mbaya.”
(Netizen): “Ndoto mpya imefunguliwa, haha!”
Hatimaye, wakitafakari nyakati zao za furaha zaidi huko Google, wote walishiriki kumbukumbu zao.
Kwa Jeff, nyakati za furaha zaidi katika miaka ya mapema ya Google zilikuwa kushuhudia ukuaji wa kulipuka wa trafiki ya utafutaji ya Google.
“Kujenga kitu ambacho watu bilioni 2 sasa wanatumia ni ajabu.”
Hivi karibuni, amefurahi kujenga vitu na timu ya Gemini ambavyo watu wasingeamini kuwa vinawezekana hata miaka mitano iliyopita, na anaona athari ya modeli ikipanuka zaidi.
Noam alikubaliana na uzoefu kama huo na hisia ya utume, hata akitaja kwa upendo “maeneo madogo ya jikoni” ya Google.
Huu ni nafasi maalum na meza zipatazo 50, zinazotoa kahawa na vitafunio, ambapo watu wanaweza kuzungumza na kubadilishana mawazo kwa uhuru.
Katika kutajwa huku, hata Jeff alichangamka (mbwa).