RWKV-X: Usanifu Mpya wa Ufanisi wa Uundaji wa Lugha Ndefu
Mahitaji yanayozidi kuongezeka ya kuchakata mfuatano mrefu na changamano zaidi yamesukuma mipaka ya Miundo Mikuu ya Lugha (LLMs). Usanifu wa kitamaduni unaotegemea Transformer, ingawa una nguvu, unakabiliana na masuala muhimu ya upimaji kutokana na ugumu wao wa quadratic kuhusu urefu wa mfuatano. Kizuizi hiki kinadhihirika hasa wakati wa kushughulikia ingizo za muktadha uliopanuliwa, na kuzuia uwezo wao wa kunasa na kutumia vyema habari kutoka sehemu za mbali za mfuatano. Katika kukabiliana na changamoto hii, wimbi la mbinu bunifu limeibuka, likilenga kufikia ugumu wa mstari katika kuchakata mfuatano mrefu.
Mbinu hizi ni pamoja na miundo ya Linear Attention, Miundo ya Nafasi ya Hali (kama vile Mamba), Linear RNNs (kama DeltaNet), na RWKV. Kila moja ya usanifu huu inatoa suluhisho la kipekee kwa tatizo la ugumu wa quadratic, kuwezesha usindikaji bora zaidi wa mfuatano mrefu. Hata hivyo, usanifu huu wa mstari mara nyingi hukutana na matatizo katika kufahamu kikamilifu na kutumia habari za muktadha mrefu.
Kwa mfano, RWKV-7 (mfumo wa parameta 2.9B) inaonyesha usahihi wa hali ya juu katika majukumu ya kurejesha passkey hadi tokeni 28K. Hata hivyo, utendaji wake unadhoofika haraka zaidi ya kizingiti hiki. Hata kwa kuendelea na mafunzo ya awali kwa kutumia data ya urefu wa 128K, mapungufu ya muktadha mrefu yanaendelea. Suala hili si la kipekee kwa RWKV; linaenea hadi usanifu mwingine kama vile Mamba, linalowakilisha changamoto ya msingi kwa darasa hili la miundo. Mapambano ya kudumisha utendaji katika muktadha uliopanuliwa yanaangazia eneo muhimu la uboreshaji katika miundo ya lugha ya ugumu wa mstari.
Mandhari ya Miundo ya Lugha ya Ugumu wa Mstari
Miundo ya lugha ya ugumu wa mstari imeibuka kama njia mbadala za kuvutia kwa usanifu unaotegemea transformer, ikiepuka mizigo ya hesabu ya quadratic iliyo katika kuchakata mfuatano mrefu. Familia ya mfumo wa RWKV, inayoonekana wazi katika kikoa hiki, inaunganisha kwa ustadi uwezo wa kufanana wa transfoma wakati wa mafunzo na uwakilishi wa hali ya mara kwa mara kama RNN.
Mageuzi ya RWKV yanaenea katika marudio kadhaa, kuanzia RWKV-4 ya msingi, ikipiga hatua hadi RWKV-5, RWKV-6, na kuishia na RWKV-7. Kila marudio yameleta uboreshaji na maboresho, kuboresha uwezo wa mfumo na kushughulikia mapungufu. Zaidi ya hayo, miundo mseto ya lugha kama vile Jamba, Zamba, na MiniMax, zimeweka alama yao kwa kuanzisha miundo ya kipekee ya mseto, na kuendeleza mazingira ya miundo ya ugumu wa mstari.
Ufuatiliaji wa uchakataji bora wa muktadha mrefu pia umepelekea ukuzaji wa taratibu bunifu za usikivu. Native Sparse Attention, kwa mfano, hupanga tokeni katika vizuizi vya muda, ikiwaajiri njia tatu tofauti za usikivu: tokeni zilizobanwa za punje nzuri kwa muktadha wa kimataifa, tokeni za punje nzuri zilizohifadhiwa kwa uangalifu kwa maelezo ya ndani, na madirisha ya kuteleza kwa kunasa habari za kimazingira za ndani. Taratibu zingine za usikivu zinazojulikana ni pamoja na SeerAttention na Block Attention (MoBA), kila moja ikitoa mikakati ya kipekee ya kuhudhuria habari muhimu ndani ya mfuatano mrefu.
RWKV-X: Usanifu Mseto wa Uundaji wa Muktadha wa Masafa Marefu Ulioimarishwa
Watafiti kutoka Maabara ya Guangdong ya Akili Bandia na Uchumi wa Kidijitali (SZ), Shenzhen, Chuo Kikuu cha Hohai, Nanjing, Chuo Kikuu cha Shenzhen, na Chuo Kikuu cha Qinghai, Xining, wameanzisha usanifu mpya mseto unaoitwa RWKV-X. Usanifu huu unaunganisha kwa ustadi ufanisi wa RWKV katika uundaji wa utegemezi wa masafa mafupi na utaratibu nadra wa usikivu iliyoundwa mahsusi ili kunasa muktadha wa masafa marefu.
Tofauti na mbinu mseto za awali, RWKV-X hufikia ugumu wa mstari wakati wa mafunzo na ugumu wa muda usiobadilika wakati wa ufafanuzi wa inference. Hii inaifanya kuwa bora sana kwa kuchakata mfuatano mrefu. Mfumo unaonyesha usahihi karibu kabisa kwenye alama ya marejeleo ya kurejesha passkey ya 64K unapofunzwa awali kwenye mfuatano wa tokeni 64K kwa kuendelea. Inazidi mara kwa mara miundo ya awali ya RWKV-7 kwenye alama za marejeleo za muktadha mrefu huku ikidumisha utendaji dhabiti kwenye majukumu ya muktadha mfupi.
Ubunifu katika RWKV-X unawakilisha hatua muhimu mbele katika kushughulikia changamoto za uundaji wa lugha ya muktadha mrefu. Kwa kuchanganya nguvu za miundo ya mara kwa mara na taratibu nadra za usikivu, RWKV-X hufikia usawa kati ya ufanisi na usahihi, na kuweka njia kwa ajili ya uchakataji bora zaidi wa mfuatano uliopanuliwa.
RWKV-X: Usanifu na Mafunzo
RWKV-X inajumuisha usanifu mseto, unaounganisha vizuizi vya RWKV-7 na vizuizi nadra vya usikivu ili kutumia nguvu za mbinu zote mbili. Badala ya kufunza kutoka mwanzo, RWKV-X inajengwa juu ya miundo iliyopo kwa kutumia mbinu ya upanuzi wa kizuizi kilichoingiliana na utaratibu wa uanzishaji sifuri ulioongozwa na LLaMA Pro.
Mchakato wa mafunzo una hatua mbili, zilizoundwa kwa uangalifu ili kuboresha utendaji wa mfumo kwenye muktadha mfupi na mrefu:
- Mafunzo ya awali ya muktadha mfupi: Awali, mfumo unafunzwa kwenye muktadha mfupi wa tokeni 1024 zilizotolewa kutoka kwa hifadhi data ya MiniPile. Wakati wa hatua hii, vigezo vyote isipokuwa vile vilivyo katika vizuizi vilivyoongezwa hivi karibuni vimegandishwa, kuhakikisha kwamba maarifa yaliyofunzwa awali kutoka kwa mfumo wa msingi wa RWKV-7 yanahifadhiwa. Hii inaruhusu vizuizi vilivyoongezwa hivi karibuni kubadilika na usanifu uliopo bila kuvuruga uwakilishi uliyofunzwa awali.
- Mafunzo endelevu ya muktadha mrefu: Hatua ya pili inahusisha mafunzo endelevu ya muktadha mrefu kwa kutumia hifadhi data ya ProLong-64K na urefu wa muktadha wa tokeni 64K, kuchakata takriban tokeni bilioni 1 kwa jumla. Wakati wa awamu hii, vigezo vyote havijagandishwa na kuboreshwa kwa pamoja, kuruhusu mfumo kurekebisha uwakilishi wake na kujifunza utegemezi wa masafa marefu. Mafunzo yanaajiri hasara ya Long-context Cross-Entropy (LongCE), ambayo huweka uzito wa tokeni kwa nguvu kulingana na umuhimu wao. Kitendakazi hiki cha hasara husaidia mfumo kuzingatia sehemu muhimu zaidi za mfuatano, kuboresha uwezo wake wa kunasa uhusiano wa masafa marefu.
Mchakato wa mafunzo ya hatua mbili huruhusu RWKV-X kuchanganya vyema ufanisi wa RWKV-7 kwa uundaji wa masafa mafupi na ufahamu wa muktadha wa masafa marefu wa utaratibu nadra wa usikivu. Kwa kwanza kufunzwa awali kwenye muktadha mfupi na kisha kurekebisha kwenye muktadha mrefu, mfumo hujifunza kuunganisha vyema habari kutoka sehemu tofauti za mfuatano.
RWKV-X: Tathmini na Utendaji
Tathmini ya muktadha mfupi inaonyesha kuwa RWKV-X inadumisha utendaji shindani katika alama za marejeleo za kawaida, ikionyesha uwezo wake wa kushughulikia mfuatano mfupi kwa ufanisi. RWKV-X ndogo (0.22B) inafikia alama ya wastani ya 51.0, inayolingana na 51.8 ya RWKV-7. Kwa kiwango kikubwa, RWKV-X (3.6B) inafikia 71.9, inalingana kwa karibu na RWKV-7 (2.9B, 72.8) na Qwen2.5-3B (71.4), huku ikizidi LLaMA3.2-3B (69.7). Matokeo haya yanathibitisha ufanisi wa RWKV-X kama msingi wa LLM wa madhumuni ya jumla bila kuathiri utendaji kwenye muktadha mfupi.
Zaidi ya hayo, uchambuzi wa ufanisi unaonyesha sifa bora za upimaji wa RWKV-X kwa mfuatano mrefu. Kwenye tokeni 128K, RWKV-X inafikia kasi ya mara 1.37 juu ya Flash-Attention v3, huku faida hii ikipanuka kadiri urefu wa muktadha unavyoongezeka. Hii inaonyesha kwamba RWKV-X inazidi kuwa bora ikilinganishwa na taratibu zingine za usikivu kadiri urefu wa mfuatano unavyokua.
Utendaji dhabiti wa RWKV-X kwenye muktadha mfupi na mrefu unaangazia matumizi mengi na ufanisi wake kama mfumo wa lugha. Uwezo wake wa kudumisha utendaji shindani kwenye mfuatano mfupi huku akipata kasi kubwa kwenye mfuatano mrefu unaifanya kuwa usanifu wa kuahidi kwa anuwai ya matumizi.
RWKV-X: Mapungufu na Mielekeo ya Baadaye
RWKV-X inaibuka kama mfumo mseto wa lugha ambao unafanikiwa kuchanganya ufanisi wa RWKV kwa uundaji wa utegemezi wa masafa mafupi na utaratibu mpya nadra wa usikivu uliyoundwa mahsusi kwa ajili ya uundaji wa muktadha wa masafa marefu. Ingawa RWKV-X inaonyesha utendaji dhabiti na ufanisi katika uundaji wa lugha ya muktadha mrefu, mapungufu kadhaa yanabaki.
Kwanza, utaratibu wake nadra wa usikivu, ambao unategemea uteuzi wa chunk wa juu-k, huajiri mbinu ya kitafiti ambayo inaweza kupuuzia utegemezi muhimu wa semantiki. Mkakati wa uteuzi wa juu-k huenda usinasa kila wakati habari muhimu zaidi katika mfuatano, ambayo inaweza kusababisha utendaji usio bora.
Pili, utekelezaji wa sasa unaonyesha ufafanuzi nadra wa usikivu unaoendesha polepole kuliko RWKV ya vanilla, kuashiria kwamba juhudi zaidi za uhandisi zinahitajika ili kuboresha utendaji. Ingawa RWKV-X inafikia kasi kubwa ikilinganishwa na taratibu zingine za usikivu kwenye mfuatano mrefu, ufafanuzi wake nadra wa usikivu bado ni polepole kuliko RWKV ya vanilla, ikipendekeza kwamba kuna nafasi ya uboreshaji katika utekelezaji wake.
Utafiti wa baadaye unaweza kuzingatia kushughulikia mapungufu haya kwa kuchunguza taratibu za kisasa zaidi nadra za usikivu, kuboresha utekelezaji wa ufafanuzi nadra wa usikivu, na kuchunguza mikakati mbadala ya mafunzo. Kwa kushinda changamoto hizi, RWKV-X ina uwezo wa kuwa mfumo wa lugha wenye nguvu na ufanisi zaidi kwa matumizi ya muktadha mrefu.