Mapinduzi ya Mifumo ya Lugha: UltraLong-8B ya NVIDIA na Utafutaji wa Muktadha Uliopanuliwa
Mandhari ya mifumo mikubwa ya lugha (LLMs) imebadilishwa sana na uwezo wao wa kutekeleza kazi nyingi za maandishi na multimodal kwa ustadi wa ajabu. Hata hivyo, changamoto ya kudumu inatokea: dirisha la muktadha mdogo. Matumizi mengi, hasa yale yanayohusisha uchambuzi tata wa hati, uelewa wa kina wa video, kujifunza kwa muktadha wa hali ya juu, na upanuzi wa ufanisi wa wakati wa kuhitimisha, yanahitaji uwezo wa kuchakata na kutoa hoja katika mfuatano mrefu wa tokeni. Kizuizi hiki kinaweza kusababisha kupuuza taarifa muhimu zilizotawanyika katika hati ndefu, na hivyo kuzuia utendaji wa jumla wa mfumo.
Kitendawili cha Dirisha la Muktadha
LLMs za jadi zinahangaika zinapokabilishwa na hati au video ndefu, mara nyingi hukosa maelezo muhimu ambayo yako nje ya madirisha yao ya muktadha uliowekwa. Kizuizi hiki kimechochea hitaji la mifumo inayoweza kudhibiti muktadha mrefu kwa ufanisi bila kuathiri utendaji wao katika kazi za kawaida. Utafutaji wa kupanua dirisha la muktadha umekuwa sehemu kuu katika utafiti wa LLM, unaoendesha uvumbuzi katika mbinu mbalimbali za usanifu na mafunzo.
Mikakati ya Upanuzi wa Muktadha
Mikakati iliyopo ya mifumo ya lugha ya muktadha mrefu inaweza kuainishwa kwa upana katika mbinu tatu za msingi:
Njia Sahihi za Umakini: Njia hizi zinalenga kuimarisha utaratibu wa umakini kwa kubuni upya viingilio vya nafasi. Mifano mashuhuri ni pamoja na Uingizaji wa Nafasi, NTK-aware, NTK Inayobadilika, YaRN, na CLEX. Mbinu hizi huruhusu mfumo kutofautisha vyema kati ya tokeni katika mfuatano mrefu, kuboresha uwezo wake wa kunasa utegemezi wa masafa marefu.
Njia Takribani za Umakini: Njia hizi huangazia kupunguza utata wa hesabu wa utaratibu wa umakini, kuwezesha mfumo kuchakata mfuatano mrefu kwa ufanisi zaidi. Mbinu kama vile umakini adimu na umakini wa cheo cha chini huangukia katika kategoria hii.
Mbinu Zinazojumuisha Moduli za Ziada: Njia hizi huongeza LLM na moduli za nje zilizoundwa mahsusi kushughulikia utegemezi wa masafa marefu. Mifano ni pamoja na mitandao ya kumbukumbu na taratibu za umakini za kihierarkia.
Wakati mifumo iliyofungwa kama vile GPT-4o, Gemini, na Claude imeonyesha uwezo wa kusaidia madirisha ya muktadha ya mamia ya maelfu ya tokeni, ukosefu wao wa uwazi huzuia uzalishaji na utafiti zaidi. Mipango ya chanzo huria kama vile ProLong, ambayo hutumia upanuzi unaofahamu NTK, mara nyingi huhitaji rasilimali kubwa za hesabu, huku Gradient ikitumia mafunzo ya awali yaliyoendelea, ambayo yanaweza kuathiri vibaya utendaji wa kazi za kawaida.
UltraLong-8B ya NVIDIA: Mbinu ya Mafanikio
Watafiti katika UIUC na NVIDIA wameanzisha kichocheo cha ufanisi cha mafunzo kwa ajili ya kuunda LLM za muktadha mrefu kutoka kwa mifumo iliyokaa ya maelekezo. Mbinu hii bunifu inasukuma mipaka ya urefu wa muktadha kutoka 128K hadi tokeni za kushangaza za 1M, 2M, na 4M. Njia hutumia mikakati ya ufanisi, inayoendelea ya mafunzo ya awali ili kupanua dirisha la muktadha huku ikitumia urekebishaji wa maelekezo ili kuhifadhi uwezo wa kufuata maelekezo na hoja.
Mfumo wa UltraLong-8B unapatikana utendaji wa kisasa katika alama mbalimbali za muktadha mrefu. Mifumo iliyofunzwa kwa kutumia mbinu hii inadumisha utendaji wa ushindani kwenye alama za kawaida,inayoonyesha maboresho yaliyosawazishwa kwa kazi za muktadha mrefu na fupi. Utafiti huu unatoa uchambuzi wa kina wa chaguo muhimu za muundo, unaosisitiza athari ya mikakati ya upanuzi na muundo wa data.
Mchakato wa Mafunzo ya Hatua Mbili
Njia iliyopendekezwa inajumuisha hatua mbili muhimu:
Mafunzo ya Awali Yanayoendelea: Hatua hii inahusisha mafunzo zaidi ya LLM iliyopo awali kwenye mkusanyiko mkubwa wa data ya maandishi. Lengo ni kupanua dirisha la muktadha la mfumo na kuboresha uwezo wake wa kuchakata mfuatano mrefu.
Urekebishaji wa Maelekezo: Hatua hii inahusisha urekebishaji mzuri wa mfumo kwenye hifadhidata ya maelekezo na majibu yanayolingana. Lengo ni kuboresha uwezo wa mfumo wa kufuata maelekezo na kutoa majibu thabiti na yanayofaa.
Kwa pamoja, hatua hizi zinawezesha uchakataji mzuri wa ingizo refu huku zikidumisha utendaji thabiti katika anuwai ya kazi. Watafiti walitumia njia ya upanuzi inayotegemea YaRN kwa upanuzi wa muktadha, kwa kutumia vigezo tegemezi vilivyowekwa (α = 1 na β = 4) badala ya mikakati ya upanuzi inayofahamu NTK. Sababu za upanuzi huhesabiwa kulingana na urefu wa muktadha lengwa, kwa kutumia sababu kubwa za upanuzi kwa viingilio vya RoPE ili kuchukua mfuatano uliopanuliwa na kupunguza uharibifu wa utendaji kwa urefu wa juu.
Kwa data ya mafunzo, watafiti walitengeneza hifadhidata ya SFT ya ubora wa juu inayojumuisha vikoa vya jumla, hisabati, na msimbo. Zaidi ya hayo walitumia GPT-4o na GPT-4o-mini ili kuboresha majibu na kufanya usafishaji mkali wa data, kuhakikisha ubora na uaminifu wa data ya mafunzo.
Kufunua Utendaji wa Mifumo ya UltraLong
Mifumo iliyopendekezwa inaonyesha uwezo mkuu wa kurejesha muktadha mrefu, kama inavyoonyeshwa katika jaribio la kurejesha nenosiri la “Sindano kwenye Mrundiko wa Nyasi”. Wakati mifumo ya msingi kama vile Llama-3-8B-Instruct-Gradient-1048k inapita jaribio, mifumo mingine kama vile Llama3.1-8B-Instruct na Llama-3-8B-ProLong-512k-Instruct inaonyesha makosa. Kinyume kabisa, mifumo ya UltraLong inafikia usahihi wa 100% katika urefu wote wa ingizo na kina, inayoonyesha uwezo wao wa ajabu wa kurejesha.
Zaidi ya hayo, mifumo ya UltraLong inafikia alama za juu zaidi za wastani kwenye RULER kwa ingizo hadi tokeni 512K na 1M, alama za juu zaidi za F1 kwenye LV-Eval ndani ya urefu wa tokeni 128K na 256K, na utendaji bora kwenye InfiniteBench. Matokeo haya yanasisitiza uwezo wa mifumo wa kuchakata na kutoa hoja kwa ufanisi katika mfuatano mrefu sana.
Mifumo pia inadumisha utendaji thabiti katika vikoa vya jumla, hisabati, na msimbo, ikiwa na alama za wastani za 62.47, 61.06, na 60.95, ikizidi alama ya mfumo msingi ya 61.45. Hii inaonyesha uwezo mwingi wa mifumo na uwezo wa kujumlisha katika aina tofauti za kazi.
Faida Muhimu za Mbinu ya UltraLong
- Dirisha la Muktadha Lililopanuliwa: Mifumo ya UltraLong inaweza kuchakata mfuatano wa hadi tokeni milioni 4, ikizidi kwa kiasi kikubwa uwezo wa LLM za jadi.
- Utendaji wa Kisasa: Mifumo inapatikana utendaji wa kisasa kwenye alama mbalimbali za muktadha mrefu.
- Maboresho Yaliyosawazishwa: Mifumo inaonyesha maboresho yaliyosawazishwa kwa kazi za muktadha mrefu na fupi.
- Mafunzo Yenye Ufanisi: Kichocheo cha mafunzo kina ufanisi na kinaweza kutekelezwa kwa rasilimali za hesabu zinazofaa.
- Uwezo Mwingi: Mifumo inadumisha utendaji thabiti katika vikoa vya jumla, hisabati, na msimbo.
Mielekeo na Mambo ya Kuzingatia ya Baadaye
Wakati mbinu ya UltraLong inawakilisha maendeleo muhimu katika uwanja wa LLM, bado kuna maeneo ya utafiti na uboreshaji wa baadaye. Mbinu ya sasa inaangazia tu SFT kwenye hifadhidata za maelekezo wakati wa hatua ya urekebishaji wa maelekezo, bila kuchunguza ujifunzaji wa uimarishaji au uboreshaji wa upendeleo. Kuunganisha mbinu hizi kunaweza kusababisha faida zaidi za utendaji.
Jambo lingine muhimu la kuzingatia ni upatanisho wa usalama. Mbinu ya sasa haishughulikii wazi masuala ya usalama, na utafiti wa baadaye unapaswa kuzingatia kuunganisha taratibu za upatanisho wa usalama ili kuhakikisha kwamba mifumo inazalisha matokeo salama na ya kuwajibika.
Utafiti zaidi unaweza pia kuchunguza mikakati ya hali ya juu ya urekebishaji ili kuimarisha zaidi utendaji na uaminifu. Hii inaweza kuhusisha mbinu kama vile mafunzo ya uadui, ujifunzaji wa mtaala, na ujifunzaji wa uhamishaji.
Athari za Mifumo ya Muktadha Mrefu Zaidi
Uendelezaji wa mifumo ya lugha ya muktadha mrefu zaidi ina uwezo wa kuleta mapinduzi katika anuwai ya matumizi, ikijumuisha:
- Uelewa wa Hati: Mifumo ya muktadha mrefu zaidi inaweza kutumika kuchambua na kufupisha hati ndefu, kama vile mikataba ya kisheria, karatasi za kisayansi, na ripoti za kifedha.
- Uelewa wa Video: Mifumo hii inaweza kutumika kuelewa na kuchambua video, kuwezesha matumizi kama vile ufupishaji wa video, utafutaji wa video, na manukuu ya video.
- Ujifunzaji wa Ndani ya Muktadha: Mifumo ya muktadha mrefu zaidi inaweza kutumika kufanya ujifunzaji wa ndani ya muktadha, ambapo mfumo hujifunza kutoka kwa idadi ndogo ya mifano iliyotolewa katika ingizo.
- Upanuzi wa Wakati wa Kuhitimisha: Mifumo hii inaweza kutumika kuboresha ufanisi wa kuhitimisha, kuruhusu upelekaji wa haraka na unaoweza kupanuka zaidi wa LLM.
- Utafiti wa Kisayansi: Mifumo ya muktadha mrefu zaidi inaweza kusaidia katika kuchambua hifadhidata kubwa katika nyanja kama vile genomics, astrophysics, na sayansi ya hali ya hewa, kuongeza kasi ya uvumbuzi na maarifa.
- Uchambuzi wa Kihistoria: Kwa kuchakata maandishi mengi ya kihistoria, mifumo hii inaweza kufichua mifumo, mahusiano, na maarifa ambayo itakuwa ngumu au haiwezekani kuyatambua kwa mikono.
- Uendelezaji wa Programu: Mifumo hii inaweza kuchambua misingi mikubwa ya msimbo, kutambua mende, na kupendekeza maboresho, kurahisisha mchakato wa uendelezaji wa programu.
- Uandishi wa Ubunifu: Mifumo ya muktadha mrefu zaidi inaweza kuwasaidia waandishi katika kuunda masimulizi tata, kudumisha uthabiti, na kutoa maudhui ya kuvutia.
- Elimu Iliyobinafsishwa: Kwa kuelewa historia ya ujifunzaji na mapendeleo ya mwanafunzi, mifumo hii inaweza kutoa uzoefu wa elimu uliobinafsishwa unaolingana na mahitaji ya mtu binafsi.
Hitimisho
Mfumo wa UltraLong-8B wa NVIDIA na kichocheo kinachohusiana cha mafunzo vinawakilisha hatua muhimu mbele katika utafutaji wa kujenga LLM zinazoweza kuchakata na kutoa hoja katika mfuatano mrefu sana. Kwa kuchanganya mafunzo ya awali yaliyoendelea yenye ufanisi na urekebishaji wa maelekezo, watafiti wameunda mfumo unaopata utendaji wa kisasa kwenye alama mbalimbali za muktadha mrefu huku ukidumisha utendaji wa ushindani kwenye kazi za kawaida. Ingawa bado kuna maeneo ya utafiti na uboreshaji wa baadaye, mbinu ya UltraLong ina uwezo wa kuleta mapinduzi katika anuwai ya matumizi na kufungua uwezekano mpya kwa LLM.