Mfumo Mpya wa Nvidia Ushinda DeepSeek-R1

Mifumo ya Nvidia ya Llama-Nemotron imefanikiwa kuipita DeepSeek-R1, na maelezo ya mafunzo yao yamefunuliwa kikamilifu, yakitoa ufahamu wa kina jinsi mifumo hii ilivyotengenezwa ili kufikia utendaji bora zaidi.

Mifumo hii sasa ni ya chanzo huria kikamilifu, ikileta maendeleo makubwa katika teknolojia ya AI inayoweza kupatikana. Hii inamaanisha kuwa mfululizo wa mifumo ya inference ambayo ina utendaji bora zaidi kuliko DeepSeek-R1 katika suala la inference throughput na ufanisi wa kumbukumbu sasa inapatikana kwa mtu yeyote kutumia na kurekebisha.

Kufichua Siri za Mafanikio ya Mfumo

Kwa hivyo, mifumo hii ambayo inazidi DeepSeek-R1 iliundwaje hasa? Ripoti ya kiufundi ya Nvidia inaonyesha vipengele muhimu vya mchakato wao wa mafunzo:

  • Supervised Fine-Tuning na Synthetic Data + Reinforcement Learning: Mchanganyiko huu huongeza kwa kiasi kikubwa uwezo wa hoja wa mfumo.
  • Mchakato Kamili wa Post-Training: Mchakato thabiti na ulioundwa vizuri wa post-training ni muhimu kwa kuboresha utendaji wa mfumo.

Mwezi uliopita, Nvidia ilitangaza rasmi Llama-Nemotron 253B, ambayo ilizidi haraka Llama 4 (ambayo ilikuwa na siku tatu tu na inakabiliwa na "mgogoro wa uadilifu" kutokana na uendeshaji wa leaderboard). Kutolewa kwa mfululizo huu wa mifumo kulisababisha msisimko mkubwa katika tasnia.

Kulingana na Artificial Analysis Intelligence Index, Llama-Nemotron-Ultra kwa sasa inachukuliwa kuwa mfumo wa chanzo huria "wenye akili zaidi" kufikia Aprili 2025.

Nvidia ilizindua mifumo mitatu katika mfululizo wa Llama-Nemotron: LN-Nano 8B, LN-Super 49B, na LN-Ultra 253B.

Hasa, LN-Ultra sio tu inafanya kazi vizuri kuliko DeepSeek-R1 katika utendaji lakini pia inaendeshwa kwenye node moja ya 8xH100, ikitoa inference throughput ya juu zaidi.

Mifumo hii imeundwa kwa ajili ya high-throughput inference huku ikidumisha uwezo thabiti wa hoja na urefu wa muktadha hadi 128K.

Zaidi ya hayo, Nvidia imeanzisha kipengele cha kubadilisha inference cha msingi katika jumuiya ya kimataifa ya AI ya chanzo huria. Watumiaji wanaweza kubadilisha kwa nguvu kati ya hali ya kawaida ya mazungumzo na hali ya hoja kwa kutumia kidokezo cha mfumo "detailed thinking on/off."

Muundo huu unaruhusu mfumo kukidhi mahitaji ya jumla ya kila siku na kushughulikia kazi ngumu za hoja za hatua nyingi bila kuhitaji mifumo au usanifu tofauti.

Mchakato wa Ujenzi: Mbinu ya Hatua Tano

Ujenzi wa mifumo ya Llama-Nemotron umegawanywa katika hatua tano tofauti:

Hatua ya 1: Uboreshaji wa ufanisi wa hoja kwa kutumia neural architecture search (NAS) kulingana na mifumo ya mfululizo wa Llama 3, na kuanzishwa kwa Feedforward Network Fusion (FFN Fusion).

Hatua ya 2: Urejeshaji wa utendaji wa mfumo kupitia knowledge distillation na pre-training inayoendelea.

Hatua ya 3: Supervised fine-tuning (SFT), ambayo inachanganya data ya kawaida ya maagizo na michakato ya hoja kutoka kwa mifumo yenye nguvu ya mwalimu kama vile DeepSeek-R1, kuwezesha mfumo kufanya hoja za hatua nyingi.

Hatua ya 4: Mafunzo makubwa ya reinforcement learning kwenye datasets ngumu za hisabati na STEM, ambayo ni muhimu kwa mfumo wa mwanafunzi kuzidi uwezo wa mfumo wa mwalimu. Kwa LN-Ultra, hatua hii inaboresha sana utendaji kwenye benchmark ya GPQA-D, na kuiweka kama mfumo thabiti zaidi kwahoja za kisayansi katika uwanja wa chanzo huria.

Ili kusaidia mafunzo makubwa kama hayo ya reinforcement learning, timu ilitengeneza mfumo mpya wa mafunzo na hatua nyingi za uboreshaji, muhimu zaidi kusaidia uwezo wa uzalishaji wa usahihi wa FP8.

Hatua ya 5: Mafunzo mafupi ya alignment yaliyolenga ufuatiliaji wa maagizo na kuzingatia mapendeleo ya binadamu.

Usanifu Ubunifu kwa Ufanisi Bora wa Inference

LN-Super na LN-Ultra hutumia mfumo wa Puzzle kwa neural architecture search ili kuboresha ufanisi wa inference wa mfumo.

Puzzle hubadilisha mifumo mikubwa ya lugha kuwa matoleo yanayofaa vifaa, yaliyoboreshwa kwa ajili ya deployment.

Kupitia "block-by-block local distillation," watengenezaji walijenga maktaba ya alternative Transformer modules kwa kutumia Llama 3 Instruct.

Katika mchakato huu, kila module inafunzwa kwa kujitegemea na kwa sambamba, ikikaribia utendaji wa module asili huku ikiboresha utendaji wa kompyuta.

Kila module mbadala ina biashara maalum za "precision-efficiency". Baadhi ya modules ni bora zaidi lakini zinaweza kusababisha kupungua kwa ubora fulani, na kuunda biashara wazi kati ya gharama ya kompyuta na usahihi wa mfumo.

Tofauti hizi za module ni pamoja na:

Attention Mechanism Removal: Baadhi ya modules huacha kabisa attention mechanism, kupunguza kiasi cha hesabu na matumizi ya kumbukumbu ya KV cache.

Variable FFN Dimensions: Vipimo vya kati vya feedforward networks vinarekebishwa, kuruhusu compression ya mfumo katika granularities tofauti.

Baada ya kujenga maktaba ya module, Puzzle huchagua module kutoka kila safu ili kukusanyika mfumo kamili.

Mchakato huu wa uteuzi unadhibitiwa na mixed-integer programming (MIP) solver, ambayo hupata usanidi bora kulingana na vikwazo kama vile utangamano wa vifaa, latency ya juu inayoruhusiwa, bajeti ya kumbukumbu, au inference throughput inayotaka.

Vertical Compression na FFN Fusion

Katika mfumo wa LN-Ultra, watafiti walianzisha FFN Fusion (Feedforward Network Fusion), mbinu ya ziada ya compression ili kupunguza kina cha mlolongo wa mfumo na kuboresha ufanisi wa latency ya hoja.

Uondoaji wa Puzzle wa baadhi ya attention layers husababisha muundo wa kipekee: vitalu vingi vinavyoendelea vya FFN huonekana mara kwa mara katika muundo wa mfumo.

FFN Fusion inatambua miundo hii inayoendelea na kuibadilisha na layers chache lakini pana, zinazotekelezwa sambamba za FFN.

Njia hii ya uingizwaji hupunguza hatua za hesabu ya mfuatano bila kutoa sadaka ya mfumo expressiveness, kuboresha kwa kiasi kikubwa matumizi ya rasilimali za kompyuta - hasa katika mazingira ya multi-GPU, ambapo mawasiliano ya msalaba-layer ni muhimu.

Mfumo wa LN-Ultra mara kwa mara unafanya kazi vizuri kuliko DeepSeek-R1 na Llama-3.1-405B katika suala la usahihi na ufanisi, kufikia usawa bora.

Post-NAS Training: Knowledge Distillation na Pre-training Inayoendelea

Baada ya awamu ya neural architecture search (NAS), LN-Super na LN-Ultra zote zilifanyiwa mafunzo ya ziada ili kuboresha utangamano kati ya modules na kurejesha upotezaji wowote wa ubora ambao unaweza kuwa umetokea wakati wa uingizwaji wa module.

  • LN-Super ilifunzwa kwenye Distillation Mix dataset kwa tokens bilioni 40 chini ya lengo la knowledge distillation.
  • LN-Ultra ilifunzwa hapo awali kwenye dataset sawa ya distillation kwa tokens bilioni 65, ikifuatiwa na mafunzo endelevu kwenye dataset ya pre-training ya hatua ya nne ya Nemotron-H kwa tokens bilioni 88.

Hatua hii ya mwisho ya pre-training iliwezesha LN-Ultra sio tu kufikia mfumo wa marejeleo, Llama 3.1-405B-Instruct, lakini pia kuizidi katika vipimo muhimu vya benchmark.

Hii inaonyesha kuwa distillation fupi na pre-training inaweza kufikia utangamano kati ya uboreshaji mkali wa usanifu na utendaji wa juu wa mfumo.

Supervised Fine-Tuning: Kuboresha Ustadi wa Hoja

Supervised Fine-Tuning (SFT) hufanya kazi kama "mkufunzi binafsi" kwa mifumo ya Llama-Nemotron, hasa kulenga hatua za hoja kwa kazi fulani na kujifunza mbinu za inference kutoka kwa mifumo ya "mwanafunzi nyota" kama vile DeepSeek-R1.

Ili kuingiza ujuzi halisi wa hoja, data kubwa ya mafunzo ya hoja ya hali ya juu ni muhimu.

Synthetic Data: Imeundwa kwa Ajili ya Hoja

Watafiti walichagua kwa uangalifu sampuli za data zilizo na data ya hoja na isiyo ya hoja kwa ajili ya supervised fine-tuning.

Kwa sampuli za hoja, waliongeza "detailed thinking on" kwenye maagizo ya mfumo, wakati kwa sampuli zisizo za hoja, walitumia "detailed thinking off."

Mpangilio huu unaruhusu mfumo kubadili tabia ya hoja kulingana na prompts wakati wa awamu ya hoja.

Synthetic data kwa ajili ya hoja ilitayarishwa katika hisabati, coding, na nyanja zinazohusiana.

Ili kufunza mfumo kufuata maagizo ya "reasoning switch", watafiti walijenga datasets zilizooanishwa, ambapo kila prompt inalingana na jibu lenye hoja na moja bila hoja.

Uoanishaji huu unawezesha mfumo kujifunza kurekebisha tabia yake ya hoja kulingana na maagizo ya mfumo.

Uchujaji unaofuata wa majibu haya unafanywa kulingana na majibu ya kawaida au mifumo ya malipo.

Mchakato wa Fine-Tuning

Mifumo yote ilifunzwa kwenye data ya fine-tuning ya maagizo kwa kutumia token-level cross-entropy loss.

Katika mipangilio mingi ya mafunzo, data ya hoja na isiyo ya hoja huchanganywa ili kuunda batches za mafunzo, ambapo kila prompt imeunganishwa na jibu linalolingana kulingana na maagizo ya mfumo ya "detailed thinking on/off."

Kupanua mafunzo kwa raundi nyingi kunaweza kuboresha utendaji, hasa kwa mifumo midogo.

NeMo-Aligner ilitumiwa kwa mafunzo ya reinforcement learning, kusaidia GRPO na mafunzo ya mifumo tofauti.

vLLM ilitumiwa kwa awamu ya uzalishaji, na Megatron-LM ilitumiwa kwa awamu ya mafunzo.

Awamu za mafunzo na hoja zilishiriki batch sawa ya GPUs, iliyokamilishwa kwenye kifaa sawa.

Mchakato mzima wa mafunzo ulitumia nodes 72, kila moja ikiwa na GPUs 8 za H100.

Awamu ya uzalishaji ilitumia FP8 precision, awamu ya mafunzo ilitumia BF16 precision, na hali ya optimizer ilitumia FP32.

Kila awamu ilidumisha uzito wa mfumo wa kujitegemea, ambao uliunganishwa mwanzoni mwa kila hatua.

Reinforcement Learning: Ufunguo wa Kuzidi Uwezo wa Hoja wa R1

Supervised fine-tuning (SFT) inawezesha mfumo kutoa ujuzi kutoka kwa mifumo yenye nguvu ya mwalimu, kufikia uwezo bora.

Hata hivyo, knowledge distillation kimsingi inaweka kikomo kwa utendaji wa mfumo wa mwanafunzi, hasa wakati uwezo wa msingi wa mfumo wa mwanafunzi hauzidi ule wa mfumo wa mwalimu.

Kupitia supervised fine-tuning, utendaji wa LN-Ultra unaweza kukaribia DeepSeek-R1 lakini hauwezi kuizidi.

Reinforcement learning (RL) kubwa ni njia inayofaa kuwezesha mfumo wa mwanafunzi kuzidi mfumo wa mwalimu kwa sababu inaruhusu mfumo kuendelea kuchunguza uwezekano mpya na kujifunza.

Kutokana na vikwazo vya rasilimali, watafiti walitumia hoja RL kwa LN-Ultra pekee, na kusababisha mfumo wa mwanafunzi ambao ulizidi mfumo wa mwalimu.

Katika mchakato mzima wa mafunzo ya hoja reinforcement learning, usahihi wa LN-Ultra kwenye dataset ya GPQA-Diamond uliboreka.

Mchakato wa Mafunzo: Mtazamo wa Hoja za Kisayansi

Kwa LN-Ultra, watafiti waliongeza uwezo wake wa hoja za kisayansi kupitia reinforcement learning (RL) kubwa, kwa kutumia algorithm ya Grouped Relative Policy Optimization (GRPO), sawa na ile inayotumiwa na DeepSeek-R1.

Mchakato mzima wa mafunzo ulihitaji takriban masaa 140,000 ya H100, ukiendelea kufunza mfumo hadi ulipoungana kwenye kazi za hoja.

Muundo wa utaratibu wa malipo ulijumuisha makundi mawili:

  • Accuracy Reward: Kulingana na majibu ya kawaida (nambari/sentensi/aya), kuita mfumo wa Llama-3.3-70B-Instruct inahukumu kiwango cha mechi cha matokeo ya utabiri.
  • Format Reward: Kufuatia mpango wa DeepSeek-AI, mfumo unalazimishwa kufunga mchakato wa hoja na tags za <think\> katika hali ya "detailed thinking", na kuonekana kwa tags hizo kunakatazwa katika hali isiyo ya detailed thinking.

Timu ya utafiti pia ilitayarisha data, ikiwa ni pamoja na uchujaji wa data na mafunzo ya mtaala.

  • Data Screening: LN-Super inatumiwa mapema ili kutoa majibu 8 kwa kila swali, na sampuli rahisi na kiwango cha kupita ≥ 75% huondolewa.
  • Curriculum Training: Ugawaji wa batch unaoendelea kulingana na kiwango cha kupita unapitishwa.

Dynamic Distribution: Kuiga ugumu wa batch na kazi ya Gaussian, mwanzoni kulenga sampuli za kiwango cha juu cha kupita (rahisi) na baadaye kuhama hadi sampuli za kiwango cha chini cha kupita (ngumu).

Padding Logic: Sampuli zinatengwa kulingana na usambazaji lengwa kwanza, na uwezo uliobaki huongezwa kutoka kwenye kidimbwi kikubwa zaidi cha sampuli kilichobaki.

Intra-Batch Processing: Sampuli katika batch sawa huchanganywa kwa nasibu ili kudumisha utofauti.

Reinforcement Learning kwa Uboreshaji wa Mapendeleo

Baada ya kukamilisha mafunzo ya hoja za kisayansi, watafiti walifanya awamu fupi ya reinforcement learning kwa mifumo ya LN-Super na LN-Ultra, wakizingatia kuboresha uwezo wao wa kufuata maagizo.

Watafiti pia walitumia RLHF kuboresha uwezo wa jumla wa usaidizi wa mifumo na utendaji wa mazungumzo huku wakihifadhi uwezo wa mifumo katika hisabati, sayansi, na nyanja zingine.

LN-Super ilifanikisha alama ya juu ya 88.3 katika jaribio la Arena Hard, ikizidi mifumo ya umiliki kama vile Claude 3.5 Sonnet na GPT-4o-2024-05-13, na pia bora kuliko mifumo mikubwa ya chanzo huria.

Ili kufikia matokeo haya, walipitisha njia ya "OnLine Reward-Policy Optimization", wakiongeza malipo ya utabiri wa mfumo kwenye dataset ya HelpSteer2. Mfumo wa malipo uliotumika ulikuwa Llama-3.1-Nemotron-70B-Reward.

Raundi mbili za mafunzo ya mtandaoni ya RPO iliongeza alama ya Arena Hard kutoka 69.1 hadi 88.1.

Kwa LN-Ultra, walitumia mchakato sawa lakini walipitisha GRPO.

Kwa LN-Nano, walifanya raundi mbili za mafunzo ya nje ya mtandao ya RPO, wakitumia data ya mafunzo iliyotolewa na sera.

Raundi ya kwanza ilichanganya data ya hoja na isiyo ya hoja na prompts za mfumo zinazofaa ili kuboresha uwezo wa udhibiti wa hoja wa mfumo. Raundi ya pili ililenga kuboresha uwezo wa kufuata maagizo.

Matokeo ya Tathmini: Tathmini Kamili

Watafiti walitathmini utendaji wa mifumo yote ya Llama-Nemotron kwenye makundi mawili ya benchmark: kazi za hoja na kazi zisizo za hoja.

Benchmarks za hoja zilijumuisha: AIME24 na AIME25, GPQA-Diamond, LiveCodeBench, na MATH500.

Benchmarks zisizo za hoja zilijumuisha: IFEval kwa tathmini ya ufuatiliaji wa maagizo, BFCL V2 Live kwa tathmini ya matumizi ya zana ya simu ya kazi, na Arena-Hard kwa kutathmini upatanishi na mapendeleo ya mazungumzo ya binadamu.

LN-Nano ilifanikisha utendaji bora katika benchmarks zote za hoja, licha ya ukubwa wake mdogo.

Hii inaonyesha kuwa michakato ya supervised fine-tuning na datasets za hoja zilizochaguliwa vizuri zinafaa katika kuhamisha uwezo wa hoja uliopangwa kwa mifumo midogo.

LN-Super ilionyesha ushindani mkubwa katika kazi za hoja na zisizo za hoja ikilinganishwa na mifumo mingine ya kiwango sawa cha parameter.

Katika hali ya "reasoning off", utendaji wa LN-Super ulikuwa sawa na mfumo wake wa chanzo kilicho distilled, Llama-3.3-70B; katika hali ya "reasoning on", ilipita mifumo mingine shindani, kama vile DeepSeek-R1-Distilled-Llama-70B, ikionyesha uwezo thabiti wa hoja huku ikidumisha uwezo mzuri wa kufuata maagizo.

Matokeo haya yanaonyesha kuwa LN-Super ni mfumo hodari ambao unachanganya faida za mifumo iliyoboreshwa ya hoja na mifumo isiyo ya hoja, na kuifanya ifaa kwa kazi za kila siku za usaidizi na kazi za hoja zilizopangwa.

LN-Ultra ilifanya kazi sawa au bora kuliko mifumo yote iliyopo ya uzani ya chanzo huria katika benchmarks za hoja na zisizo za hoja. Ilifikia kiwango cha juu zaidi katika mifumo ya chanzo huria kwenye GPQA, ikionyesha kikamilifu ufanisi wa mbinu za mafunzo ya reinforcement learning kubwa ya watafiti wa Nvidia.

Tofauti na DeepSeek-R1, ambayo inahitaji usanidi wa vifaa 8×H200, LN-Ultra imeundwa ili kufanya kazi kwa ufanisi kwenye node moja ya 8×H100, ikitoa hoja throughput ya juu zaidi na ufanisi wa deployment.

Awamu ya SFT ya LN-Ultra imekaribia au kufikia utendaji wa DeepSeek-R1 kwenye benchmarks nyingi za hoja (ikiwa ni pamoja na GPQA na AIME).

Mbali na uwezo wa hoja na mazungumzo ambao mfumo ulifunzwa kwa mara ya kwanza, pia walijaribu mfumo kwenye kazi ya usambazaji.

Hasa, mfumo ulijaribiwa kwenye dataset ya JudgeBench, inayohitaji itofautishe kati ya majibu ya ubora wa juu na ya ubora wa chini.

Mfumo mpya ulizidi mifumo ya sasa ya umiliki na ya chanzo huria kwenye kazi hii.

LN-Ultra ilikuwa mfumo bora zaidi wa chanzo huria, ikizidi kwa kiasi kikubwa DeepSeek-R1, ya pili baada ya mfumo wa umiliki o3-mini(high).

Zaidi ya hayo, utendaji wa LN-Super pia ulizidi o1-mini, ikionyesha kuwa mfumo mpya una uwezo thabiti wa ujumuishaji katika kazi mbalimbali.