QwenLong-L1: Uboreshaji wa Hoja Ndefu za LLM

QwenLong-L1: Kufanya Mapinduzi katika Hoja za Muktadha Mrefu kwa Mifumo Mikubwa ya Lugha

Mandhari ya akili bandia (artificial intelligence) inaendelea kubadilika, huku mifumo mikubwa ya lugha (large language models - LLMs) ikiwa mstari wa mbele katika uvumbuzi. Mifumo hii ina uwezo mkubwa wa kuelewa, kutoa, na kuendesha lugha ya kibinadamu, ikifungua matumizi mengi yanayowezekana. Hata hivyo, changamoto kubwa inabaki: kuwezesha LLMs kufanya hoja kwa ufanisi juu ya ingizo ndefu na ngumu sana. Shirika la Alibaba limejitokeza kushughulikia changamoto hii kwa kuanzisha QwenLong-L1, mfumo mpya ulioundwa ili kuwezesha LLMs na uwezo ulioimarishwa wa hoja za muktadha mrefu. Mafanikio haya yana uwezo wa kufungua enzi mpya ya matumizi ya biashara, kuwezesha AI kutoa ufahamu muhimu kutoka kwa idadi kubwa ya data, kama vile faili za shirika ngumu, taarifa kamili za kifedha, na mikataba ngumu ya kisheria.

Changamoto ya Hoja ya Fomu Ndefu katika AI

Maendeleo ya hivi karibuni katika mifumo mikubwa ya hoja (large reasoning models - LRMs), hasa yale yanayotumia mbinu za kujifunza kwa kuimarisha (reinforcement learning - RL), yamesababisha maboresho makubwa katika uwezo wao wa kutatua shida. Utafiti unaonyesha kuwa LRMs zilizofunzwa na urekebishaji mzuri wa RL huonyesha ujuzi wa utambuzi unaofanana na "kufikiria polepole" kwa binadamu, na kuwaruhusu kuendeleza mikakati ya kisasa ya kushughulikia kazi ngumu. Hii inahusisha mbinu ya makusudi na uchambuzi, ambapo mfumo hutathmini kwa uangalifu habari, huzingatia uwezekano mbalimbali, na hatimaye hufikia suluhisho lililofikiriwa vizuri.

Maendeleo yaliyopatikana katika utendaji wa LRM huonekana hasa mifumo inapotumia maandishi mafupi, kwa kawaida karibu tokeni 4,000. Hata hivyo, mtihani wa kweli uko katika kupanua uwezo huu wa hoja kwa muktadha mrefu zaidi, kama vile tokeni 120,000 au zaidi. Hii inatoa changamoto kubwa, kwani hoja ya fomu ndefu inahitaji uelewa kamili wa muktadha mzima na uwezo wa kufanya uchambuzi wa hatua nyingi. Wasanidi wa QwenLong-L1 wanasisitiza kuwa kizuizi hiki kinatoa kikwazo kikubwa kwa matumizi ya ulimwengu halisi ambayo yanahitaji mwingiliano na maarifa ya nje, kama vile utafiti wa kina, ambapo LRMs lazima kukusanya na kusindika habari kutoka mazingira yenye maarifa mengi.

Ili kushughulikia changamoto hii, watafiti wanaifanya rasmi kuwa dhana ya "RL ya hoja ya muktadha mrefu." Tofauti na hoja ya muktadha mfupi, ambayo mara nyingi hutegemea maarifa yaliyopo yaliyohifadhiwa ndani ya mfumo, RL ya hoja ya muktadha mrefu inahitaji upataji sahihi na kuunganisha habari muhimu kutoka kwa ingizo ndefu. Hii inamaanisha kuwa mfumo lazima uweze kuchuja kiasi kikubwa cha maandishi, kutambua maelezo muhimu zaidi, na kuyaunganisha na kazi iliyopo. Ni baada tu ya kuingiza habari hii kwa mafanikio ndipo mfumo unaweza kutoa minyororo ya hoja thabiti na yenye mantiki.

Kufunza mifumo ili kufikia kiwango hiki cha ustadi kupitia RL ni kazi ngumu, ambayo mara nyingi husababisha kujifunza bila ufanisi na michakato isiyo thabiti ya uboreshaji. Mifumo inaweza kupambana kufikia suluhisho bora au kupoteza uwezo wao wa kuchunguza njia tofauti za hoja, na hivyo kuzuia utendaji wao kwa ujumla.

QwenLong-L1: Suluhisho la Hatua Nyingi

QwenLong-L1 inatoa mbinu kamili, ya hatua nyingi iliyoundwa ili kuandaa LRMs na uwezo wa kubadilika kwa urahisi kutoka kwa ustadi wa maandishi mafupi hadi ujanibishaji thabiti katika muktadha mrefu. Mfumo huu huboresha LRMs zilizopo za muktadha mfupi kupitia mchakato uliopangwa kwa uangalifu, unaojumuisha vipengele kadhaa muhimu:

  • Urekebishaji Mzuri Unaosimamiwa wa Kujifunza (Supervised Fine-Tuning - SFT): Awamu hii ya awali inahusisha kufunza mfumo kwenye mkusanyiko ulioratibiwa wa mifano ya hoja ya muktadha mrefu. Madhumuni ya SFT ni kuanzisha msingi thabiti ambao mfumo unaweza kujenga ujuzi wake wa hoja ya muktadha mrefu. Kwa kuonyesha mfumo kwa aina mbalimbali za maandishi marefu na kazi zinazolingana za hoja, hatua ya SFT inawezesha mfumo kuunganisha kwa usahihi habari kutoka kwa ingizo ndefu, kuendeleza uwezo wa msingi katika kuelewa muktadha, kutoa minyororo ya hoja ya kimantiki, na kutoa majibu ya maana.

  • RL ya Awamu Iliyoongozwa na Mtaala (Curriculum-Guided Phased RL): Hatua hii hutumia mbinu ya kimfumo, ya hatua kwa hatua kufunza mfumo kupitia awamu nyingi, ikiongeza hatua kwa hatua urefu wa hati za ingizo. Mbinu hii iliyoongozwa na mtaala husaidia mfumo kubadilisha hatua kwa hatua mikakati yake ya hoja kutoka kwa muktadha mfupi hadi mrefu zaidi, kupunguza ukosefu wa utulivu unaokutana nao mara nyingi mifumo inapofunzwa ghafla kwenye maandishi marefu sana. Kwa kuongeza hatua kwa hatua utata wa data ya mafunzo, mfumo unaweza kujifunza kwa ufanisi kushughulikia muktadha mrefu bila kuzidiwa na kiasi kikubwa cha habari.

  • Sampuli ya Kumbukumbu Inayozingatia Ugumu (Difficulty-Aware Retrospective Sampling): Hatua hii ya mwisho ya mafunzo inajumuisha mifano yenye changamoto kutoka kwa awamu za mafunzo zilizotangulia, kuhakikisha kwamba mfumo unaendelea kujifunza kutoka kwa shida ngumu zaidi. Kwa kuweka kipaumbele kwa matukio haya magumu, mfumo unahimizwa kuchunguza njia tofauti na ngumu zaidi za hoja, hatimaye kuimarisha uwezo wake wa kushughulikia aina mbalimbali za kazi za hoja ya muktadha mrefu. Mbinu hii ya sampuli ya kumbukumbu husaidia mfumo kuboresha ujuzi wake wa hoja na kuepuka kukwama katika suluhisho bora za eneo husika.

Mfumo wa Zawadi

Mbali na mbinu yake ya mafunzo iliyopangwa, QwenLong-L1 hutumia mfumo wa zawadi wa kisasa ambao unachanganya uthibitishaji unaotegemea sheria na mbinu ya "LLM-kama-hakimu". Wakati mafunzo ya kazi za hoja za muktadha mfupi mara nyingi hutegemea zawadi kali zinazotegemea sheria (k.m., jibu sahihi katika shida ya hesabu), QwenLong-L1 hutumia utaratibu wa zawadi mseto ambao ni rahisi zaidi na unaoweza kubadilika kulingana na nuances ya hoja ya muktadha mrefu.

Uthibitishaji unaotegemea sheria huhakikisha usahihi kwa kuangalia ufuasi mkali wa vigezo vya usahihi. Sehemu hii ya mfumo wa zawadi hutoa kipimo wazi na cha lengo la utendaji wa mfumo, kuhakikisha kwamba inatoa majibu sahihi na ya kuaminika.

Mfumo wa "LLM-kama-hakimu" unalinganisha semantiki ya jibu lililotolewa na ukweli wa msingi, kuruhusu kubadilika zaidi na utunzaji bora wa njia tofauti ambazo majibu sahihi yanaweza kuonyeshwa wakati wa kushughulika na hati ndefu, zilizojaa nuances. Sehemu hii ya mfumo wa zawadi inakubali kuwa kunaweza kuwa na njia nyingi halali za kujibu swali kulingana na muktadha mrefu na hulipa mfumo kwa kutoa majibu ambayo yanafanana kimaana na ukweli wa msingi, hata kama hayafanani kabisa. Hii inahimiza mfumo kutoa majibu ya ubunifu na ya nuanced zaidi.

Kutathmini Utendaji wa QwenLong-L1

Ili kutathmini ufanisi wa QwenLong-L1, timu ya Alibaba ilifanya tathmini kamili kwa kutumia jibu la swali la hati (document question-answering - DocQA) kama kazi kuu. Hali hii inahusiana sana na matumizi ya biashara, ambapo AI mara nyingi inahitajika kuelewa hati mnene ili kujibu maswali magumu. Kazi za DocQA zinahusisha kutoa mfumo na hati na swali na kuiuliza kutambua jibu la swali ndani ya hati. Hii inahitaji mfumo kuelewa swali, hati, na uhusiano kati ya hizo mbili.

Matokeo ya majaribio katika vigezo saba vya DocQA vya muktadha mrefu yalionyesha uwezo wa kuvutia wa QwenLong-L1. Mfumo wa QWENLONG-L1-32B, kulingana na DeepSeek-R1-Distill-Qwen-32B, ulifikia utendaji unaolingana na Claude-3.7 Sonnet Thinking ya Anthropic na ulizidi mifumo kama o3-mini ya OpenAI na Qwen3-235B-A22B. Zaidi ya hayo, mfumo mdogo wa QWENLONG-L1-14B ulizidi Gemini 2.0 Flash Thinking ya Google na Qwen3-32B. Matokeo haya yanaangazia ufanisi wa QwenLong-L1 katika kuwezesha LLMs kufanya hoja kwa ufanisi juu ya hati ndefu na ngumu.

Moja ya matokeo muhimu yanayohusiana na matumizi ya ulimwengu halisi ni kwamba mafunzo ya RL yanaongoza kwa maendeleo ya tabia maalum za hoja za muktadha mrefu ndani ya mfumo. Mifumo iliyofunzwa na QwenLong-L1 huonyesha uwezo ulioboreshwa katika maeneo kama vile:

  • Kuunganisha (Grounding): Kuunganisha majibu na sehemu maalum za hati. Hii inaonyesha uwezo wa mfumo wa kutambua habari muhimu zaidi ndani ya maandishi marefu na kuiunganisha na swali linaloulizwa. Kuunganisha kwa ufanisi ni muhimu kwa kuhakikisha kwamba majibu ya mfumo ni sahihi na yanaungwa mkono vizuri na ushahidi katika hati.

  • Kuweka Malengo Madogo (Subgoal Setting): Kuvunja maswali magumu katika maswali madogo madogo, yanayoweza kudhibitiwa zaidi. Hii inaruhusu mfumo kukaribia kazi ngumu za hoja kwa njia iliyopangwa zaidi na iliyoandaliwa. Kwa kuvunja kazi katika hatua ndogo, mfumo unaweza kutambua kwa urahisi habari unazohitaji kujibu swali na kutoa mnyororo thabiti na wa kimantiki wa hoja.

  • Kurudi Nyuma (Backtracking): Kutambua na kurekebisha makosa yaliyojifanya wakati wa mchakato wa hoja. Hii inaonyesha uwezo wa mfumo wa kujifuatilia na kutambua makosa yanayoweza kutokea katika mchakato wake wa hoja. Kwa kurudi nyuma na kurekebisha makosa haya, mfumo unaweza kuhakikisha kwamba jibu lake la mwisho ni sahihi na la kuaminika.

  • Uthibitishaji (Verification): Kuangalia mara mbili majibu yao ili kuhakikisha usahihi na ukamilifu. Hii inaonyesha kujitolea kwa mfumo kutoa habari sahihi na ya kuaminika. Kwa kuangalia mara mbili majibu yake, mfumo unaweza kutambua na kurekebisha makosa yoyote yaliyosalia, kuhakikisha kwamba jibu la mwisho ni la ubora wa juu zaidi.

Kwa mfano, mfumo wa msingi unaweza kukengeushwa na maelezo yasiyo muhimu katika hati ya kifedha au kukwama katika kitanzi cha kuchambua kupita kiasi habari isiyohusiana. Hata hivyo, mfumo uliofunzwa na QwenLong-L1 unaonyesha uwezo wa kushiriki katika tafakari ya kibinafsi yenye ufanisi, kufuta mawazo haya ya kukengeusha kwa mafanikio, kurudi nyuma kutoka kwa njia zisizo sahihi, na kufika kwenye jibu sahihi. Hii inaangazia faida za mfumo wa mafunzo wa QwenLong-L1 katika kuboresha uthabiti na usahihi wa hoja ya muktadha mrefu.

Matumizi Yanayowezekana

Mbinu kama vile QwenLong-L1 zina uwezo wa kupanua kwa kiasi kikubwa matumizi ya AI katika biashara. Baadhi ya matumizi yanayowezekana ni pamoja na:

  • Teknolojia ya Kisheria: Kuchambua maelfu ya kurasa za hati za kisheria ili kutambua vifungu muhimu, mifano, na hatari zinazoweza kutokea. Hii inaweza kuwasaidia wanasheria kukagua hati za kisheria kwa ufanisi zaidi na kwa faida, kuokoa muda na pesa.
  • Fedha: Kufanya utafiti wa kina juu ya ripoti za mwaka na faili za kifedha ili kutathmini hatari na kutambua fursa za uwekezaji. Hii inaweza kuwasaidia wachambuzi wa kifedha kufanya maamuzi bora ya uwekezaji.
  • Huduma kwa Wateja: Kuchambua historia ndefu ya mwingiliano wa wateja ili kutoa msaada bora na wa kibinafsi zaidi. Hii inaweza kuwasaidia wawakilishi wa huduma kwa wateja kuelewa mahitaji ya wateja vizuri na kutoa suluhisho bora zaidi.

Kwa kuwezesha AI kufanya hoja kwa ufanisi juu ya nyaraka ndefu na ngumu, QwenLong-L1 na mbinu zinazofanana zinaweza kufungua uwezekano mpana wa programu mpya za biashara, kuendesha uvumbuzi na kuboresha ufanisi katika tasnia mbalimbali. Watafiti wameachilia msimbo wa kichocheo cha QwenLong-L1 na uzani wa mifumo iliyofunzwa.