Tatizo la akili bandia ambayo inaweza kutoa sababu kwa kweli limekuwa shughuli kuu katika uwanja huu kwa muda mrefu. Midundo ya awali ya msisimko kuhusu modeli ya OpenAI ya "o1" ilizua shauku kubwa katika kutumia mbinu za kujifunza kwa uimarishaji wa kiwango kikubwa (RL) ili kujenga mifumo inayoweza kutoa sababu changamano. Baada ya hayo, uamuzi wa DeepSeek-R1 wa kutoa modeli yake kama chanzo huria ulizidisha shauku na kuwezesha jumuiya ya AI kufuata kwa nguvu ukuzaji wa modeli za kisasa za kutoa sababu.
Hata hivyo, mlipuko huu wa awali wa shughuli ulipunguzwa haraka na kikwazo kikubwa. Maelezo muhimu ya kiufundi, muhimu sana kwa uigaji uliofanikiwa - haswa, mikakati sahihi inayotumiwa kwa upangaji wa data na mapishi tata yanayosimamia mafunzo ya RL - hayakuwepo wazi kutoka kwa ripoti asili ya DeepSeek-R1. Uondoaji huu uliwaacha watafiti katika hali ya kufadhaika sana, wakikabiliana na changamoto ya kuunda upya mafanikio yaliyoripotiwa. Matokeo yalikuwa mazingira yaliyogawanyika kwa kiasi fulani ya utafiti, na juhudi nyingi huru zikichunguza ukubwa tofauti wa modeli, vituo vya ukaguzi vya awali, na anuwai tofauti za vikoa lengwa. Licha ya shughuli hii kubwa, kichocheo komprehensifu na kinachofanya kazi kila wakati cha mafunzo kilibaki kuwa kigumu.
Mbinu za jadi za kufunza lugha za kuigwa kwa utoaji sababu zimejilimbikizia zaidi kwenye vikoa vya hisabati na msimbo wa kompyuta. Mbinu hizi kwa ujumla hutegemea mchanganyiko wa mafunzo ya awali kwenye seti kubwa za data na urekebishaji mzuri unaosimamiwa ili kubobeza modeli kwa kazi hizi mahususi. Majaribio ya mapema ya kuingiza ujifunzaji wa uimarishaji katika mchakato huu, kwa kawaida kwa kutumia miundo ya zawadi mahususi kwa kikoa, yalitoa faida ndogo tu. Hii ilitokana na changamoto za asili zinazohusiana na kazi za hisabati na usimbaji, ambapo makosa madogo yanaweza kusababisha matokeo yasiyo sahihi sana.
Uchunguzi wa hivi majuzi zaidi, uliochochewa na kutolewa kwa DeepSeek-R1, umechungua matumizi ya mbinu za uthibitishaji zinazotegemea sheria. Katika uwanja wa hisabati, mbinu hizi mara nyingi huhusisha kuhitaji miundo mahususi ya matokeo ambayo huwezesha uthibitishaji sahihi na otomatiki wa suluhisho. Vile vile, katika muktadha wa msimbo, watafiti wametumia taratibu za maoni za asili za mkusanyiko na utekelezaji ili kuongoza mchakato wa kujifunza. Hata hivyo, mbinu hizi kwa ujumla zimejikita kwa upana kwenye vikoa mahususi, bila uwezo wa kushughulikia vyema madokezo tofauti ambayo huchanganya matatizo ya hisabati na usimbaji. Zaidi ya hayo, tathmini mara nyingi zimezuiliwa kwa vigezo mahususi kama vile AIME na LiveCodeBench, na kupunguza uwezo wa jumla wa matokeo. Hatimaye, uthabiti wa mafunzo unaendelea kuwa tatizo endelevu, mara nyingi ukihitaji matumizi ya mbinu changamano kama vile ongezeko la urefu wa majibu na upunguzaji wa kuporomoka kwa entropy.
Sasa, watafiti katika NVIDIA wanabadilisha mchezo, wanapoonyesha uwezekano mkubwa wa ujifunzaji wa uimarishaji wa kiwango kikubwa ili kuimarisha kwa kiasi kikubwa uwezo wa kutoa sababu wa modeli ndogo na za ukubwa wa kati. Mbinu zao zinafikia viwango vya utendakazi vinavyozidi mbinu za hali ya juu kulingana na mbinu za usafishaji. Mbinu ya NVIDIA hutumia mkakati wa mafunzo mfulilizo: kwanza, kufanya mafunzo ya RL pekee kwenye madokezo yanayohusiana na hesabu, na kisha kubadili madokezo yaliyolenga tu msimbo.
Mbinu Mfululizo ya Utoaji Sebabau Bora
Matokeo? Mafunzo ya awali ya RL kuhusu matatizo ya hisabati sio tu kuboresha sana utendakazi kwenye vigezo vya alama za hisabati lakini, kwa kushangaza, pia hutoa msukumo mkubwa katika uwezo wa kutoa sababu za msimbo. Zaidi ya hayo, marudio yaliyopanuliwa ya mafunzo ya RL yaliyolenga mahususi msimbo huongeza zaidi utendakazi wa msimbo na uharibifu mdogo tu katika utendakazi wa hisabati. Mbinu hii inaangazia jambo muhimu: mafunzo ya hisabati yanaweza kuwa msingi imara wa kazi ngumu zaidi za kutoa sababu kama vile kuweka misimbo.
Muhimu kwa mafanikio ya mbinu ya NVIDIA ni bomba thabiti la upangaji data. Bomba hili limeundwa kwa uangalifu ili kukusanya madokezo yenye changamoto yanayoangaziwa na ugumu wa juu na upatikanaji wa majibu bora na yanayoweza kuthibitishwa na kesi za majaribio. Hii huruhusu RL inayotegemea uthibitishaji kutumika kwa ufanisi katika vikoa vya hisabati na usimbaji.
Upangaji Data kwa Hisabati na Msimbo
Mbinu ya upangaji data iliyoajiriwa na watafiti wa NVIDIA inatofautisha kwa uangalifu kati ya mahitaji ya RL ya hisabati pekee na RL ya msimbo pekee.
RL ya Hisabati Pekee: Uundaji wa data ya mafunzo kwa RL ya hisabati pekee unahusisha kuunganisha data kutoka kwa seti za data za DeepScaler na NuminaMath. Seti hizi za data zinajumuisha anuwai ya mada za hisabati, pamoja na aljebra, mchanganyiko, nadharia ya nambari, na jiometri. Ili kudumisha uadilifu wa data, mchakato mkali wa uchujaji hutumiwa, kwa kutumia kichujio cha 9-gramu ili kuondoa maudhui ya redundant au yasiyofaa na kutekeleza sheria kali za kutengwa ili kuondoa maingizo ambayo yanaweza kuwa na matatizo. Muundo wa DeepSeek-R1 kisha huchukua jukumu muhimu katika kuhalalisha ubora wa maswali. Kila swali huwekwa kwenye majaribio nane huru na muundo, na ni suluhisho hizo tu ambazo hupokea kura nyingi za usahihi kupitia uthibitishaji unaotegemea sheria ndizo zinazohifadhiwa ili kujumuishwa katika seti ya data ya mwisho.
RL ya Msimbo Pekee: Seti ya data ya RL ya msimbo pekee imeundwa kwa kutumia data iliyoanzishwa kutoka kwa majukwaa ya kisasa ya programu shindani. Majukwaa haya hutoa chanzo tajiri cha matatizo ya kuweka misimbo yanayochukua safu tofauti za mada za algorithmic. Matatizo yameumbizwa ili kuendana na mikutano ya utendaji-wito na mbinu za kawaida za pembejeo/pato (stdin/stdout) zinazotumiwa kwa kawaida katika mazingira haya. Watafiti hufanya mchakato madhubuti wa uchujaji ili kuondoa matatizo yasiyooana na kupanga kwa uangalifu kesi komprehensifu za majaribio zilizoundwa ili kufunika kesi za ukingo na hali za mpaka. Zaidi ya hayo, kila tatizo hupewa alama ya ugumu iliyoamuliwa kupitia tathmini na modeli ya DeepSeek-R1-671B. Mchakato huu mkali husababisha seti ya data ya ubora wa juu inayojumuisha matatizo 8,520 yaliyothibitishwa ya kuweka misimbo.
AceReason-Nemotron: Matokeo na Vigezo
Matokeo ya utafiti wa NVIDIA yanalazimisha. Muundo wa AceReason-Nemotron-7B unafikia maboresho makubwa ya usahihi ya 14.5% na 14.6% kwenye mashindano magumu ya AIME 2024 na 2025, mtawalia, ikilinganishwa na miundo ya awali ya SFT. Zaidi ya hayo, inaonyesha faida kubwa ya 14.2% na 8% kwenye vigezo vya LiveCodeBench v5 na v6, mtawalia. Tofauti kubwa ya 14B ya muundo inaonyesha utendakazi mkubwa zaidi, ikizidi miundo mikubwa kama vile DeepSeek-R1-Distill-Qwen-32B na DeepSeek-R1-Distill-Llama-70B. Hii inafikia matokeo bora zaidi katika darasa kati ya miundo huria ya kutoa sababu ya RL.
Ikilinganishwa na miundo ya hali ya juu ya msingi wa usafishaji, AceReason-Nemotron-14B inazidi OpenMath-14B/32B kwa 2.1%/4.4% kwenye vigezo vya AIME na OpenCodeReasoning-14B kwa 1.7%/0.8% kwenye LiveCodeBench. Hii inaonyesha kwa kushawishi kwamba RL inaweza kufikia mipaka ya juu ya utendakazi kuliko mbinu za usafishaji huku ikidumisha utendakazi shindani dhidi ya miundo ya hali ya juu kama vile QWQ-32B na o3-mini.
Athari za matokeo haya ni muhimu. Zinaonyesha kwamba RL ya kiwango kikubwa ina uwezo wa kufungua viwango vipya vya uwezo wa kutoa sababu katika miundo ya AI, ikizidi mapungufu ya mbinu za jadi. Mkakati mfululizo wa mafunzo mahususi kwa kikoa, pamoja na bomba thabiti la upangaji data, hutoa mpango wa utafiti wa siku zijazo katika eneo hili.
Uimarishaji wa Ujifunzaji Huendesha Mipaka ya Sababu
Utafiti huu unasisitiza uwezekano mkubwa wa ujifunzaji wa uimarishaji kusukuma mipaka ya uwezo wa kutoa sababu wa muundo. Kwa kutumia kimkakati mafunzo mahususi ya kikoa na kupanga kwa uangalifu data ya ubora wa juu, hii huruhusu miundo ya AI kutatua matatizo ambayo hayakuweza kutatuliwa hapo awali na kuanzisha vigezo vipya vya ukuzaji wa muundo wa kutoa sababu na hatimaye kusababisha kizazi kipya cha mifumo ya AI inayoweza kukabiliana na changamoto za ulimwengu halisi kwa usahihi na ufanisi usio na kifani. Uwezo wa kutoa sababu kwa ufanisi ni msingi wa akili, na maendeleo yaliyopatikana na NVIDIA yanawakilisha hatua kubwa kuelekea kutambua uwezo kamili wa akili bandia. Utafiti wa siku zijazo pengine utazingatia kupanua mbinu hizi kwa miundo mikubwa zaidi na kuchunguza mikakati mipya ya upangaji data ili kuboresha zaidi utendakazi wa kutoa sababu. Ukuzaji wa utendaji wa zawadi wa hali ya juu zaidi na mikakati ya uchunguzi pia itakuwa muhimu kwa kushinda changamoto zinazohusiana na kufunza miundo ya AI kwa kazi ngumu za kutoa sababu. Hatimaye, lengo ni kuunda mifumo ya AI ambayo inaweza kutoa sababu, kujifunza, na kuzoea kwa njia sawa na wanadamu, na kuwawezesha kutatua matatizo changamano na kufanya maamuzi sahihi katika anuwai pana ya vikoa.
Zaidi ya hayo, matumizi ya RL hutoa faida zaidi ya usahihi mbichi. Mawakala wa RL wanaweza kujifunza kuboresha malengo anuwai, kama vile ufanisi, uimara na ufafanuzi. Kwa mfano, wakala wa RL anaweza kufunzwa kutoa msimbo ambao sio sahihi tu lakini pia mzuri na rahisi kueleweka. Uwezo huu ni muhimu sana katika matumizi muhimu ya usalama, ambapo ni muhimu kuhakikisha kuwa mifumo ya AI inaaminika na inatabirika.
Kazi na NVIDIA inaangazia umuhimu unaokua wa upangaji data katika utafiti wa AI. Ubora wa data ya mafunzo una athari kubwa kwa utendakazi wa miundo ya AI, na seti za data zilizopangwa kwa uangalifu ni muhimu kwa kufikia matokeo ya hali ya juu. Bomba la upangaji data lililotengenezwa na NVIDIA ni rasilimali muhimu kwa watafiti wanaofanya kazi kwenye miundo ya kutoa sababu, na linaweza kubadilishwa kwa matumizi katika vikoa vingine pia.
Mchanganyiko wa RL ya kiwango kikubwa, mafunzo mahususi ya kikoa, na upangaji data madhubuti umethibitika kuwa fomula ya ushindi ya kuboresha uwezo wa kutoa sababu wa miundo ya AI. Wakati mbinu hizi zinaendelea kubadilika, tunaweza kutarajia kuona maendeleo ya kuvutia zaidi katika uwanja wa AI, na tunatumai kuona maendeleo endelevu ya miundo ya AI katika siku za usoni.