MiniMax Yajitokeza na Umakini Linear

Safari ya MiniMax kwenye Umakini Linear: Mazungumzo na Zhong Yiran

Wakati usanifu wa Transformer kwa sasa unatawala mandhari ya AI genereta, hauna mapungufu, na washindani wanaibuka. MiniMax-01, kwa kukumbatia kwake ujasiri mifumo ya umakini linear na upanuzi wake kwa vigezo bilioni 456 ambavyo havijawahi kufanyika, ni mmoja wa wavurugaji kama hao katika jumuiya ya chanzo huria. Hii ni kamari ya kiteknolojia na hatua muhimu katika uvumbuzi wa usanifu.

Katika mahojiano haya, tunazungumza na Zhong Yiran, Mkuu wa Usanifu wa MiniMax-01, kuchunguza safari ya umakini linear kutoka maabara hadi miundo mikubwa ya kiwango cha viwanda, pamoja na mawazo yake na maarifa kuhusu usanifu wa miundo.

Mwanzilishi kwenye Njia ya Ufundi Isiyo ya Kawaida

Unaweza kujitambulisha kwa ufupi?

Mimi ni Zhong Yiran, Mkurugenzi Mkuu wa Utafiti katika MiniMax, ambapo mimi husimamia hasa muundo wa usanifu wa mtandao na uelewa wa multimodal miundo mikubwa. Katika MiniMax, jukumu langu kuu ni kuongoza muundo wa muundo wa mtandao wa MiniMax-01.

Hapo awali, nilitumika kama PI kwa Kikundi cha Utafutaji wa Usanifu Mpya katika Maabara ya Akili Bandia ya Shanghai, nikizingatia mbinu bora za ufundishaji wa mafunzo kwa usanifu usio wa transformer na utafiti juu ya muunganisho wa multimodal wa kuona-sauti-lugha.

Ulianza lini kutafiti umakini linear, na kwa nini ulichagua njia hii ya kiufundi?

Nilianza kutafiti umakini linear karibu Julai 2021. Hii ilitokana na karatasi niliyofanyia kazi kwa PhD yangu mnamo 2020, “Umakini Unaobadilika.” Wakati huo, mitandao ya neva inayobadilika na mifumo ya umakini ilikuwa maarufu sana, kwa hivyo tuliziunganisha katika utafiti wetu.

Baadaye, baadhi ya wanachama wa timu yetu walipendezwa sana na hesabu. Mbinu bora za uundaji wa mfuatano kama vile umakini linear zinahitaji msingi thabiti wa hisabati na zinahusisha upataji mwingi wa fomula, ambayo ililingana kikamilifu na maslahi ya timu, kwa hivyo tulichagua mwelekeo huu.

Hali ya umakini linear ilikuwaje katika tasnia wakati huo?

Ilikuwa isiyo ya kawaida sana, na watu wachache wanaifanyia kazi. Watafiti wengi walizingatia transfoma, ambayo kimsingi ilikuwa nguvu kubwa katika NLP.

Tulifikiria kuwa badala ya kuwa uso mwingine tu katika umati unaofanya utafiti wa transfoma, tunapaswa kufanya kitu tofauti.

Uliwezaje kutathmini uwezekano wa kiufundi wa njia ya umakini linear?

Motisha yetu ya awali ilikuwa moja kwa moja: kushughulikia utata wa hesabu ya quadratic ya transfoma. Tulijaribu njia mbalimbali, ikiwa ni pamoja na transfoma adimu na umakini linear.

Tuligundua kuwa transfoma adimu zilifanya kazi, na kutoa kasi ya haraka na matumizi ya kumbukumbu ya chini ikilinganishwa na transfoma. Hata hivyo, umakini linear ulifanya vibaya na ulikuwa wa polepole pia. Licha ya hili, tulichagua kufuata umakini linear.

Sababu moja ilikuwa rufaa yake ya hisabati - tuliamini utendaji wake unapaswa kuwa bora. Nyingine ilikuwa kwamba tulihisi kikomo cha juu cha umakini adimu kilikuwa umakini kamili, na kuifanya kuwa vigumu kuzidi. Umakini linear, kwa upande mwingine, ulikuwa na uwezo wa kuizidi.

Unaweza kueleza umakini linear ni nini?

Umakini linear kimsingi ni hila ya kernel. Katika transfoma, kuzidisha matrices Q, K, na V kunahusisha matatizo tofauti ya hesabu kulingana na kama unazidisha QK kwanza au KV kwanza, kutokana na vipimo tofauti.

Kuzidisha KV kwanza kunaweza kupunguza utata wa hesabu hadi linear. Hata hivyo, tatizo ni kwamba kuzidisha QK kunafuatiwa na operesheni ya softmax, ambayo hairidhishi mali ya kubadilika na haiwezi kugawanyika kwa urahisi katika kuzidisha KV kwanza. Kwa hiyo, hatua ya kwanza katika umakini linear ni kuondoa softmax.

Lakini kuondoa softmax huathiri matokeo. Kazi inayofuata ni kudumisha msimamo katika matokeo bila softmax, ambayo ndiyo umakini linear unalenga kufikia.

Tofauti za msingi kati ya umakini linear, umakini adimu, na usanifu wa RNN linear ni zipi?

Umakini adimu bado kimsingi ni umakini wa softmax. Huhesabu tu pointi chache kuliko matrix ya umakini mnene. Kwa mfano, umakini wa dirisha linaloteleza huhesabu tu alama ya umakini ndani ya dirisha, na kufikia kuongeza kasi kwa kupunguza kiasi cha hesabu.

RNN linear na umakini linear kimsingi ni kitu kimoja, kinachoitwa RNN na wengine na umakini na wengine.

Kila kitu kinaweza kuandikwa katika fomu ya RNN. Kwa mfano, umakini wa umeme unalingana na RWKV-4, wakati RWKV-7 ni toleo lililoboreshwa la wavu wa delta uliolindwa. Ingawa zinafanana kimsingi, maelezo yao ya utekelezaji yanatofautiana.

Ni hatua gani muhimu katika utafiti wa mifumo ya umakini linear?

Karibu 2018-19, utafiti ulionyesha kuwa utata wa kinadharia wa hesabu wa umakini wa transfoma softmax unaweza kupunguzwa kwa kutumia hila za kernel, lakini matokeo yalikuwa duni, na ufanisi ulikuwa mdogo.

Mnamo 2019-20, umakini adimu ulikuwa mkubwa, na kampuni kama Google zilipendekeza lahaja nyingi za umakini adimu. Baadaye, umakini linear ulianza kuibuka, lakini ulikabiliwa na changamoto ya utendaji duni na kasi ndogo.

Watafiti walichukua hasa mbinu mbili za kuboresha: moja ilikuwa kukaribia kazi ya softmax, na kufanya usambazaji ulingane na softmax; nyingine, ambayo tulichagua, ilikuwa kuiga kwa kutumia mbinu tofauti kabisa, bila kujihusisha na kukaribia softmax.

Tulichapisha karatasi yetu ya kwanza, ‘COSFORMER: KUFIKIRIA TENA SOFTMAX KATIKA UMAKINI,’ mnamo Oktoba 2021, ambayo ilibadilisha operesheni ya softmax na kazi ya cosine, kuruhusu hesabu kugawanyika.

Katika nusu ya kwanza ya 2022, tulichapisha karatasi ya pili, ‘Shetani katika Transfoma Linear,’ ambayo ilichambua sababu za uharibifu wa utendaji wa umakini linear na kutoa suluhisho. Hii ilikuwa mtangulizi wa umakini wa umeme.

Baadaye, tulitafiti pia usimbaji wa nafasi mahsusi kwa umakini linear na convolution ndefu, tukichapisha TNN, ‘MTANDAO WA NEVA WA TOEPLITZ KWA UUNDAJI WA MFUTUANO,’ njia sawa na S4 (mtangulizi wa Mamba).

Hatimaye, tulizindua umakini wa umeme, ambao ulingana na utendaji wa transfoma kupitia mbinu bora za kuoza na miundo ya mtandao. Pia tulitumia mbinu ya tiling ili kuifanya iwe haraka.

Una mawazo gani kuhusu njia za kiufundi za usanifu zisizo za transfoma kwa sasa?

Umakini linear kwa kweli ni njia isiyo ya transfoma. Hivi sasa, pamoja na mbinu kama za RNN, usanifu mwingine usio wa transfoma unapungua.

Kwa mfano, CNN kama vile convolutions ndefu na convolutions kubwa za kernel, huhisi kama zimeondolewa hatua kwa hatua kutokana na utendaji duni, lakini kwa kweli zina nguvu kabisa katika vipengele fulani, bado zina athari fulani katika uundaji wa mfuatano, kama vile kazi za kugundua anomaly.

Kuna kweli usanifu tatu tu zisizo za transfoma: umakini linear, convolutions ndefu, na RNN linear.

Lakini kwa kweli, hizi tatu zinaweza kuunganishwa kuwa moja, ambayo tunaiita mfumo wa utata wa linear. Tuliandika makala inayojumuisha zote tatu.

Tofauti kuu kati ya umakini wa umeme na Mamba na RWKV ni zipi?

Tofauti ya msingi zaidi ni kwamba umakini wa umeme ndio umakini rahisi zaidi wa linear. Mamba na RWKV zote hutumia kuoza tegemezi la data, wakati umakini wa umeme hutumia kuoza iliyoundwa kwa mkono kwa kasi.

Ingawa kuoza kunakoweza kujifunza kunaweza kufikia matokeo bora, huathiri kasi. Kwa mfano, RWKV-7 ni 10-15% polepole kuliko delta net ya gating, wakati wavu wa delta uliolindwa ni karibu nusu ya kasi ya umakini wa umeme.

Athari ya uundaji wa RWKV kwa kweli ni bora kuliko umakini wa umeme, lakini ni polepole na bado haijatatua tatizo la urejeshaji.

Je, sasa ni makubaliano ya tasnia kwamba umakini linear una kikomo cha juu na kinachowezekana?

Hapana, ikiwa ingekuwa makubaliano, kila mtu angekuwa akiongeza miundo ya umakini linear. Na sio makubaliano sasa pia. Ikiwa ingekuwa, kila mtu angekuwa akifanya linear, lakini kama unavyoona, sivyo ilivyo.

Lakini kwetu sisi, tayari tuliona hii katika nusu ya pili ya 2023. Wakati huo, niliuliza watu wengi na kuzungumza na wengi, na jambo la kawaida zaidi walilolileta ni kwamba walijua umakini linear ulifanya kazi kwa kiwango kidogo, lakini walihisi ingeshindwa mara tu ilipoongezwa.

Wakati huo, nilifikiri ningeiongeza kwa kila mtu kuona. Sasa kwa kuwa MiniMax-01 imetoka, hakuna mtu anayetilia shaka uwezo wa umakini linear kwa kiwango kikubwa.

Kutoka Majaribio Madogo hadi Utekelezaji Mkubwa

Je, unafikiri kikomo cha juu cha umakini linear kinaweza kuzidi umakini kamili?

Sasa tunaweza kuona kwamba usanifu mseto ni bora kuliko transfoma safi. Lakini tatizo kubwa na umakini safi wa linear ni uwezo wa urejeshaji, ambalo ni tatizo gumu kwa wasomi kutatua.

Mbinu zilizopo, ingawa ni ngumu na za polepole, bado haziwezi kulitatua kabisa, ndiyo sababu ni muhimu kuelekea kwenye usanifu mseto.

Uli觀察 nini kilichokufanya uamue kutoka nje ya maabara?

Mnamo Mei-Juni 2023, tayari tulikuwa na umakini wa umeme 2 ndani, ambao ulikuwa utekelezaji wa kwanza wa umakini wa linear ulimwenguni ambao ulikuwa haraka kuliko umakini wa Flash.

Tunaamini imevuka mstari mwekundu wa viwanda, na ukomavu wake wa kiteknolojia ni wa juu sana na unaweza kuongezwa.

Unafafanuaje mstari huu mwekundu wa viwanda?

Kwanza, athari ni bora kuliko transfoma, na pili, ni haraka kuliko transfoma. Hii inatoa uwezo wa kuchukua nafasi ya transfoma. Tulithibitisha hili kwenye mfumo mnene wa kiwango cha 15B wakati huo.

Kwenye node ulipotoka nje ya maabara, kwa nini hatimaye ulikuja pamoja na MiniMax?

Kwa kweli, nilizungumza na baadhi ya makampuni makubwa wakati huo. Lakini mwishowe, bado nilifanya hili litokee na MiniMax.

Kwanza kabisa, cosformer ni makala niliyoshirikiana na Junjie. Tuna msingi wa ushirikiano. Junjie alikuwa bosi wangu alipokuwa SenseTime. Mwishoni mwa 23, Junjie alinialika kwa chakula cha jioni. Ana imani zaidi katika uwezekano wa teknolojia hizi za hali ya juu. Uelewa wangu ni kwamba alikuwa pia anatafuta mafanikio ya kiufundi wakati huo.

Wakati huo, MiniMax ilikuwa imekamilisha utafiti juu ya Moe, na kulikuwa na pointi chache sana za mafanikio ya kiufundi kwa hatua inayofuata. Wakati huo, umakini wa umeme ulikuwa umetolewa, na mamba pia ilikuwa maarufu, kwa hivyo machoni pake, ilikuwa mwelekeo unaowezekana.

Je, hii inahusiana na bidhaa shirikishi ya MiniMax?

Hakuna muunganiko. Yan Junjie anajali zaidi kikomo cha juu cha mfumo na jinsi ya kuvunja zaidi dari hii.

Umakini linear unaweza kuwa mwelekeo zaidi wa kuvunja ufanisi katika macho ya umma, badala ya kuvunja dari.

Jambo hapa ni kwamba, kwanza kabisa, nguvu ya kompyuta ya kila mtengenezaji ni mara kwa mara. Kadiri mfumo unavyoweza kuharakishwa, ndivyo data zaidi unavyoweza kula, na ndivyo mfumo bora unavyozalishwa. Wakati nguvu ya kompyuta ni mara kwa mara, ndivyo mfumo unavyokuwa haraka, ndivyo unavyokuwa bora.

Umeona hali ambapo data imefikia kilele?

Bado, sivyo? Data bado iko katika hatua ya kuongezeka kwa kuendelea, lakini inaweza kuwa sio fujo kama ilivyokuwa katika 23.

Kwa sababu data inaongezeka kila wakati, na data mpya hutoka kila siku. Kwa mfumo, ina data mpya ya kuchakata kila siku. Data inayozalishwa na Mtandao kila siku ni nyingi sana. Kupitia kusafisha, bado tunaweza kupata data mpya.

Ikilinganishwa na data ambayo imekuwepo kwa miaka mingi sana ya maendeleo ya mwanadamu, je, kiwango cha ukuaji wa data kimepungua?

Kwa kweli, sio lazima. Angalia miaka elfu tano ya historia ya China, na ni vitabu vichache tu vimekusanywa. Lakini kwa maendeleo ya Mtandao, ongezeko la kiasi cha data ni curve mwinuko sana. Data yote iliyozalishwa kabla ya Mtandao inaweza kuwa si nyingi kama data iliyozalishwa katika mwaka mmoja baadaye.

Wakati wa mchakato wa kuongeza, changamoto gani ambazo umakini wa umeme ulikabiliana nazo?

Ili kuthibitisha uwezo wake wa kupanuka, kwanza tulifanya majaribio ya sheria ya kuongeza, hatua kwa hatua tukipanua kutoka kwa mifumo midogo hadi 7B, 9B, na hatimaye kuongeza hadi mifumo yenye zaidi ya 400B.

Na tulithibitisha kinadharia kwamba uwezo wa linear ni mkubwa kuliko ule wa transfoma.

Tunafafanua uwezo kama ukubwa wa majimbo ya sasa ya RNN. Kwa transfoma, ukubwa wa uwezo ni O(d), ambapo d ni ukubwa; kwa umakini linear, ukubwa wa uwezo ni d²/h. Kwa kuwa d ni kubwa zaidi kuliko h, uwezo ni mkubwa.

Hatimaye, pia tulithibitisha kwamba mfumo mseto ni bora kuliko transfoma safi.

Dirisha la mfuatano wa urefu wa 4M linawezekanaje?

Kwa umeme, urefu wa mafunzo unaweza kuwa holela. Mradi tu nguvu ya kompyuta inatumiwa kikamilifu, kasi ya mafunzo 8K, 32K, au 128K ni sawa, na TGS (ishara kwa GPU kwa sekunde) ni sawa.

Kwa sababu transfoma ni utata wa hesabu wa n², kadiri mfuatano unavyokuwa mrefu, ndivyo utata wa hesabu unavyokua haraka, na latency huongezeka katika curve ya quadratic. Katika urefu wa 1M, latency ya umakini wa softmax ni mara 2,700 kuliko ile ya umakini wa umeme.

Changamoto gani za kiufundi bado zinahitaji kushughulikiwa ili kufikia dirisha la muktadha usio na kikomo katika siku zijazo?

Katika usanifu wetu mseto wa sasa, bado kuna 1/8 ya umakini wa softmax. Hii ni kikwazo katika urefu wa 1M. Latency inayoletwa na 1/8 hii ni kubwa zaidi kuliko 7/8 iliyobaki ya umakini linear.

Ikiwa tunataka kuboresha maandishi marefu, lazima tuzingatie kuboresha sehemu ya umakini wa softmax. Tunaweza kujifunza kutoka kwa mbinu adimu za umakini ili kuifanya iwe haraka na nyepesi.

Kwa kuongeza, pia tunazingatia kufanya uwiano wa kuchanganya wa softmax na umakini linear kuwa mkubwa zaidi, sio tena 1/8, lakini labda 1/16 au 1/32. Suluhisho kali zaidi ni kuweka safu moja tu ya softmax katika mfumo mzima, lakini kwa bima, hatukuipitisha, hasa tukizingatia athari kwenye uwezo wa urejeshaji.

Kwa nini uwezo wa urejeshaji ni muhimu sana kwa mfumo?

Urejeshaji ni msingi wa kujifunza katika muktadha na ni sharti.

Lazima ukumbuke habari katika muktadha ili kufanya kujifunza katika muktadha, na kujifunza katika muktadha ndio msingi wa uwezo wote wa hali ya juu wa mifumo mikubwa ya sasa, kama vile CoT (Mlolongo wa Mawazo), hasa CoT ndefu, ambayo yote inategemea uwezo wa urejeshaji.

Usanifu Mpya wa Maamuzi

Umezingatia maboresho ya hivi karibuni ya usanifu katika FFN na umakini katika tasnia?

Uboreshaji wa FFN ni Moe. Pia nilizingatia Ultra Mem ya Byte, lakini nadhani ni jambo la kupoteza, compression ya kupoteza. Kunaweza kuwa na matatizo ikiwa itaongezwa katika siku zijazo, lakini hatujaiongeza, kwa hivyo naweza tu kusema kwamba kunaweza kuwa na matatizo.

Kwa sababu FFN kimsingi ni hizi. Maboresho yetu katika eneo la Moe sio zaidi ya kubadilisha kutoka kwa mtaalam mkuu wa awali hadi hali ya sasa ya mtaalam mdogo, na kuifanya iwe adimu zaidi, na kisha kufanya kasi fulani, ambayo inahitaji utafiti zaidi.

Ikiwa unataka kuiboresha zaidi, kwa sababu FFN ni kuzidisha kwa matrix, uboreshaji unaweza tu kufanywa kwenye kiwango cha CUDA na Nvidia, kufanya baadhi ya uboreshaji wa kiwango cha chini cha kuzidisha kwa matrix.

Umezingatia maboresho katika usanifu wa umakini katika tasnia?

Maboresho juu ya umakini kimsingi ni linear. Pia tunazingatia ikiwa tutafanya Linear kali zaidi katika siku zijazo, na kuharakisha zaidi umakini Linear kwa msingi wa sasa.

Kuna njia nyingi za kuboresha, moja ni kubadilisha kuoza, na nyingine ni kubadilisha hila ndogo ndogo ndani. Unaweza kutarajia karatasi yetu mpya.

Je, uwiano wetu wa sasa wa urefu wa muktadha na gharama ya inference ni wa hali ya juu kiasi gani?

Mara tu inapohusisha kuongeza urefu wa mfuatano, tuna faida ya gharama ya nguvu ya kompyuta dhahiri sana. Kadiri inavyokuwa ndefu, ndivyo faida ya gharama itakuwa dhahiri zaidi, iwe ni inference au mafunzo.

Kwa mfano, kwenye 1M, nguvu ya kompyuta inayotumiwa na umakini linear ni 1/2700 ya umakini kamili. Kwa kulinganisha, kwa sababu bado tuna 1/8 ya umakini kamili, kimsingi ni 1/8 ya usanifu wa transfoma, kwa sababu umakini linear kimsingi hauchukuliwi kama gharama.

Ikiwa gharama ya hesabu ni ya chini sana, inaweza kufikia kikwazo cha hesabu?

Sasa kwa kweli ni kikwazo cha ufikiaji wa kumbukumbu. Decoding ni kikwazo cha ufikiaji wa kumbukumbu, sio kikwazo cha hesabu. Kwa sababu umeme ni haraka sana, ni haraka sana kuruhusu ufikiaji wa kumbukumbu kuchukua rasilimali chache kama hesabu. Hii ni hasa kwa sababu urefu wa mfuatano katika maombi halisi hautoshi.

Jinsi ya kuifanya kuwa kikwazo cha hesabu katika siku zijazo inategemea jinsi ya kuboresha ufikiaji wa kumbukumbu. Hizi zitakuwa vitu ambavyo idara ya uhandisi inahitaji kuwajibika.

Ikiwa usanifu linear unakuwa usanifu mkuu wa kizazi kijacho, ni maboresho gani ya kukabiliana na vifaa ambayo yanafaa zaidi kwake?

Jambo gumu sana hapa ni kwamba tunahitaji kuzingatia urefu wa mfuatano. Ikiwa urefu wako wa mfuatano unazingatia 8K au 32K, basi umakini huchukua zaidi ya asilimia kumi tu, na asilimia themanini iliyobaki ni sehemu ya FFN.

Hata kama unaboresha umakini kwa kiwango kikubwa, hadi 0, umeboresha zaidi ya asilimia kumi tu ya latency. Lakini ikiwa unaongeza urefu wa mfuatano, uwiano wa umakini utakuwa mkubwa na mkubwa zaidi. Hii inalinganishwa na umakini kamili, lakini kwa umakini linear, uwiano wake haubadilika.

Kwa sababu FFN pia ni linear, na umakini linear pia ni linear, uwiano wake ni karibu 10%, ambayo karibu haibadilika, hata katika kesi ya 1M.

Lakini ikiwa ni umakini kamili, hesabu ya umakini inaweza kuchukua 99%, na FFN ifuatayo inachukua 1% tu. Kwa hivyo umakini linear una faida tu katika maandishi marefu.

Ikiwa usanifu linear unakuwa mkuu, basi harakati inaweza kuwa vifaa vya chini vya nishati, kupunguza tu matumizi ya nishati. Ikiwa ni pamoja na chips za Spiking Neural Network (SNN) zinaweza kufaa zaidi, na baadhi ya watu kwa kweli wanafanya.

Kutarajia Barabara ya AGI

Matarajio yako ni yapi kwa athari ya chanzo huria ya mfumo?

Ya kwanza ni athari ya utangazaji. Mimi binafsi nadhani kwamba pamoja na kuonyesha misuli fulani, jambo muhimu zaidi kwa chanzo huria ni kuona jinsi kila mtu anaweza kuitumia katika siku zijazo. Nadhani chanzo huria cha mfumo mdogo kinaweza kuwa tunachozingatia zaidi kufanya katika siku zijazo.

Na jinsi ya kufanya miundombinu fulani kwa kila mtu kufanya finetune inaweza pia kuhitaji kuzingatiwa. Chanzo huria ni jambo la muda mrefu kwetu katika siku zijazo, na mifumo mikuu inapaswa kuendelea kuwa chanzo huria.

Inawezekana kwamba usanifu wa damu safi ambao sio mseto utaisha katika siku zijazo?

Hivi sasa, hakuna njia ambayo inaweza kufanya vizuri kuliko mseto, hasa katika suala la kasi. Kuongeza sehemu ndogo ya umakini wa softmax, faida ya kasi ni dhahiri sana wakati urefu wa mfuatano sio mrefu sana, hasa baada ya kuibuka kwa umakini wa flash.

Utafiti juu ya usanifu wa damu safi bado unaendelea, lakini ni vigumu sana, na hakuna matunda zaidi ya kunyongwa. Tuna suluhisho fulani za kiufundi, lakini utekelezaji sio rahisi, na hatimaye inategemea urefu gani wa mfuatano tunahitaji kufikia.

Swali lingine ni, je, kuna mahitaji makubwa ya maandishi marefu sana? Ingawa mifumo kama Claude imefikia muktadha wa 200K, watumiaji wanaonekana kuridhika sana na urefu wa sasa. Matumizi ya Agent yanaweza kuleta mahitaji ya mfuatano mrefu sana katika siku zijazo, lakini hakuna benchmark iliyokomaa bado.

Lakini nadhani tatizo hili ni kama Nvidia inatengeneza kadi za graphics za utendaji wa juu kwa michezo ya baadaye, ingawa hazihitajiki sasa, ni teknolojia ya siku zijazo.

Kwa mfano, utafiti wa kina unahitaji mfumo kusoma maudhui ya kadhaa ya tovuti, na muda wa usindikaji ni kwa utaratibu wa makumi ya dakika, ambayo inaweza kuwa mwelekeo wa maombi kwa maandishi marefu.

Unafikiri jambo kubwa linalofuata baada ya CoT linaweza kuwa nini?

Tumefikiria juu ya hili. Kwanza kabisa, mfumo wa sasa wa hoja ni maarufu kiasi, na mkuu mwaka huu bado utakuwa sehemu ya hoja. Baada ya hapo, ni vigumu kwetu kufikiria mabadiliko yoyote makubwa katika siku zijazo za mifumo safi ya lugha.

Pia nimezungumza na walimu wengine, na hisia zao ni kwamba kila mtu atapunguza tena gharama ya mfumo, ili kasi ya hoja iwe haraka na haraka, na bei yake inakuwa ya chini na ya chini, na gharama inapunguzwa huku ikidumisha athari.

Kwa sababu dari inakaribia haraka, kesi nyingi ni kuangalia na kujaza mapungufu katika uwezo wa mifumo mikubwa. Lakini ikiwa kuna mafanikio makubwa zaidi ya kiteknolojia, yanaweza kuwa nadra kiasi kwa muda mfupi, na hatujayaona bado.

Baada ya MiniMax kuchunguza umakini linear, mwelekeo unaofuata wa kuchunguza unaweza kuwa nini?

Jambo linalofuata linaweza kuwa kuchunguza usanifu wa multimodal, hasa ikiwa tunataka kufanya usanifu huu wa asili wa uzalishaji na uelewa wa umoja mkuu wa mfumo.

Na AGI kama mwisho, ni mfumo gani wenye utata wa hesabu wa O(n²) au O(n) unaweza kuwa jibu bora?

Kwa kweli, ni O(n). Kutoka kwa mtazamo wa anthropomorphism, watu lazima wawe utata wa O(n). Kwa mfano, ikiwa utata wa mtu ni O(n²), basi kasi ambayo ninazungumza na wewe itakuwa polepole na polepole.

Kwa sababu kwa transfoma, utata wake wa inference ni utata wa hesabu wa O(n²), yaani, latency ya kutoa ishara ya kwanza na kutoa ishara ya 100 ni tofauti.

Sisi wanadamu hatuwezi kufikiria jambo kama hilo, kwa sababu watu hawajaanza upya tangu walizaliwa, na wamekuwa wakitoa vitu kila wakati, kwa hivyo utata wa hesabu wa watu ni mara kwa mara.

Je, mwanadamu ni suluhisho bora kwa akili?

Tunaweza kufikiria hivyo tu kwa sasa. Pia kuna watu wanaofanya njia ya akili ya bionic, lakini hatujazingatia sana mwelekeo huo.

Na AGI kama mchezo wa mwisho, ni maeneo gani ya uboreshaji wa mfumo ni mambo muhimu zaidi?

Mbali na uundaji wa lugha, pia kuna tatizo la mbinu za kujifunza. Jinsi unavyojifunza, na kujifunza kutoka kwa mazingira, kujifunza kutoka kwa mwingiliano na mazingira ni muhimu sana. Baada ya yote, uelewa wa sasa wa multimodal bado unakosa sana data.

Na hata kujifunza kwa mashine chache hivi sasa kumewekwa lebo, lakini kujifunza kwa mwanadamu hakuna lebo. Kwa hivyo jinsi ya kuunganisha kila kitu chini ya mfumo uliojengwa yenyewe pia ni tatizo.