Nvidia LN: DeepSeek-R1ని అధిగమించింది!

Nvidia యొక్క Llama-Nemotron సిరీస్ నమూనాలు అధికారికంగా DeepSeek-R1ను అధిగమించాయి, ఈ నమూనాలు అత్యుత్తమ పనితీరును సాధించేందుకు ఎలా అభివృద్ధి చేయబడ్డాయో వివరంగా వెల్లడించాయి.

ఈ నమూనాలు ఇప్పుడు పూర్తిగా ఓపెన్-సోర్స్, అందుబాటులో ఉన్న AI సాంకేతిక పరిజ్ఞానంలో ఇది ఒక ముఖ్యమైన ముందడుగు. అంటే, అనుమితి థ్రూపుట్ మరియు మెమరీ సామర్థ్యం పరంగా DeepSeek-R1ను గణనీయంగా అధిగమించే అనుమితి నమూనాల శ్రేణిని ఇప్పుడు ఎవరైనా ఉపయోగించవచ్చు మరియు సవరించవచ్చు.

మోడల్ విజయం వెనుక ఉన్న రహస్యాలను వెలికితీయడం

కాబట్టి, DeepSeek-R1ను అధిగమించే ఈ నమూనాలు ఎలా సృష్టించబడ్డాయి? Nvidia యొక్క సాంకేతిక నివేదిక వారి శిక్షణ ప్రక్రియ యొక్క కీలక అంశాలను వెల్లడిస్తుంది:

  • సింథటిక్ డేటా + రీన్‌ఫోర్స్‌మెంట్ లెర్నింగ్‌తో పర్యవేక్షిత ఫైన్-ట్యూనింగ్: ఈ కలయిక నమూనా యొక్క తార్కిక సామర్థ్యాలను గణనీయంగా పెంచుతుంది.
  • సమగ్ర పోస్ట్-ట్రైనింగ్ ప్రాసెస్: నమూనా పనితీరును ఆప్టిమైజ్ చేయడానికి బలమైన మరియు చక్కగా రూపొందించబడిన పోస్ట్-ట్రైనింగ్ ప్రాసెస్ చాలా కీలకం.

గత నెలలో, Nvidia అధికారికంగా Llama-Nemotron 253Bను ప్రకటించింది, ఇది త్వరగా Llama 4ను అధిగమించింది (ఇది కేవలం మూడు రోజుల వయస్సు మరియు లీడర్‌బోర్డ్ తారుమారు కారణంగా “సమగ్రత సంక్షోభాన్ని” ఎదుర్కొంటోంది). ఈ నమూనాల శ్రేణి విడుదల పరిశ్రమలో చాలా ప్రకంపనలు సృష్టించింది.

ఆర్టిఫిషియల్ అనాలిసిస్ ఇంటెలిజెన్స్ ఇండెక్స్ ప్రకారం, Llama-Nemotron-Ultra ప్రస్తుతం ఏప్రిల్ 2025 నాటికి "అత్యంత తెలివైన" ఓపెన్-సోర్స్ మోడల్‌గా పరిగణించబడుతోంది.

Nvidia Llama-Nemotron సిరీస్‌లో మూడు మోడల్‌లను ప్రారంభించింది: LN-Nano 8B, LN-Super 49B మరియు LN-Ultra 253B.

ముఖ్యంగా, LN-Ultra పనితీరులో DeepSeek-R1ను అధిగమించడమే కాకుండా, ఒకే 8xH100 నోడ్‌లో కూడా నడుస్తుంది, ఇది అధిక అనుమితి థ్రూపుట్‌ను అందిస్తుంది.

ఈ నమూనాలు అధిక-థ్రూపుట్ అనుమితి కోసం ఆప్టిమైజ్ చేయబడ్డాయి, అయితే బలమైన తార్కిక సామర్థ్యాలను మరియు 128K వరకు సందర్భ పొడవును కలిగి ఉంటాయి.

అంతేకాకుండా, Nvidia ప్రపంచ AI ఓపెన్-సోర్స్ కమ్యూనిటీలో ఒక సంచలనాత్మక అనుమితి స్విచ్ ఫీచర్‌ను పరిచయం చేసింది. వినియోగదారులు "వివరణాత్మక ఆలోచన ఆన్/ఆఫ్" అనే సిస్టమ్ ప్రాంప్ట్‌ను ఉపయోగించి సాధారణ చాట్ మోడ్ మరియు తార్కిక మోడ్ మధ్య డైనమిక్‌గా మారవచ్చు.

ఈ డిజైన్ మోడల్ సాధారణ రోజువారీ అవసరాలను తీర్చడానికి మరియు విభిన్న నమూనాలు లేదా నిర్మాణాల అవసరం లేకుండా సంక్లిష్టమైన, బహుళ-దశల తార్కిక పనులను నిర్వహించడానికి అనుమతిస్తుంది.

నిర్మాణ ప్రక్రియ: ఐదు-దశల విధానం

Llama-Nemotron నమూనాల నిర్మాణం ఐదు విభిన్న దశలుగా విభజించబడింది:

దశ 1: Feedforward Network Fusion (FFN Fusion) పరిచయంతో Llama 3 సిరీస్ నమూనాల ఆధారంగా న్యూరల్ ఆర్కిటెక్చర్ సెర్చ్ (NAS) ఉపయోగించి తార్కిక సామర్థ్యాన్ని ఆప్టిమైజ్ చేయడం.

దశ 2: నాలెడ్జ్ డిస్టిలేషన్ మరియు కొనసాగుతున్న ప్రీ-ట్రైనింగ్ ద్వారా నమూనా పనితీరును పునరుద్ధరించడం.

దశ 3: పర్యవేక్షిత ఫైన్-ట్యూనింగ్ (SFT), ఇది సాధారణ సూచన డేటాను DeepSeek-R1 వంటి శక్తివంతమైన ఉపాధ్యాయ నమూనాల నుండి తార్కిక ప్రక్రియలతో మిళితం చేస్తుంది, ఇది నమూనా బహుళ-దశల తార్కికాన్ని నిర్వహించడానికి అనుమతిస్తుంది.

దశ 4: సంక్లిష్టమైన గణిత మరియు STEM డేటాసెట్‌లపై పెద్ద-స్థాయి రీన్‌ఫోర్స్‌మెంట్ లెర్నింగ్, ఇది ఉపాధ్యాయ నమూనా యొక్క సామర్థ్యాలను అధిగమించడానికి విద్యార్థి నమూనాకు చాలా కీలకం. LN-Ultra కోసం, ఈ దశ GPQA-D బెంచ్‌మార్క్‌లో పనితీరును గణనీయంగా మెరుగుపరుస్తుంది, ఇది ఓపెన్-సోర్స్ డొమైన్‌లో శాస్త్రీయ తార్కికానికి బలమైన నమూనాగా స్థాపించబడింది.

అటువంటి పెద్ద-స్థాయి రీన్‌ఫోర్స్‌మెంట్ లెర్నింగ్ శిక్షణకు మద్దతు ఇవ్వడానికి, బృందం బహుళ ఆప్టిమైజేషన్ చర్యలతో కూడిన కొత్త శిక్షణ ఫ్రేమ్‌వర్క్‌ను అభివృద్ధి చేసింది, ముఖ్యంగా FP8 ఖచ్చితత్వ ఉత్పత్తి సామర్థ్యానికి మద్దతు ఇస్తుంది.

దశ 5: సూచనలను అనుసరించడం మరియు మానవ ప్రాధాన్యతలకు కట్టుబడి ఉండటంపై దృష్టి సారించిన సంక్షిప్త అమరిక శిక్షణ.

ఆప్టిమైజ్ చేయబడిన అనుమితి సామర్థ్యం కోసం వినూత్న నిర్మాణం

LN-Super మరియు LN-Ultra మోడల్ అనుమితి సామర్థ్యాన్ని ఆప్టిమైజ్ చేయడానికి న్యూరల్ ఆర్కిటెక్చర్ సెర్చ్ కోసం పజిల్ ఫ్రేమ్‌వర్క్‌ను ఉపయోగిస్తాయి.

పజిల్ పెద్ద భాషా నమూనాలను హార్డ్‌వేర్-అనుకూలమైన, సమర్థవంతమైన సంస్కరణలుగా మారుస్తుంది, ఇవి విస్తరణ కోసం ఆప్టిమైజ్ చేయబడతాయి.

"బ్లాక్-బై-బ్లాక్ లోకల్ డిస్టిలేషన్" ద్వారా, డెవలపర్‌లు Llama 3 ఇన్‌స్ట్రక్ట్‌ని ఉపయోగించి ప్రత్యామ్నాయ ట్రాన్స్‌ఫార్మర్ మాడ్యూల్స్ లైబ్రరీని నిర్మించారు.

ఈ ప్రక్రియలో, ప్రతి మాడ్యూల్ స్వతంత్రంగా మరియు సమాంతరంగా శిక్షణ పొందుతుంది, లెక్కించే పనితీరును ఆప్టిమైజ్ చేసేటప్పుడు అసలు మాడ్యూల్ యొక్క కార్యాచరణను అంచనా వేస్తుంది.

ప్రతి ప్రత్యామ్నాయ మాడ్యూల్‌కు నిర్దిష్ట "ఖచ్చితత్వం-సామర్థ్యం" ట్రేడ్-ఆఫ్‌లు ఉన్నాయి. కొన్ని మాడ్యూల్స్ మరింత సమర్థవంతంగా ఉంటాయి, కానీ కొంత నాణ్యత క్షీణతకు దారితీయవచ్చు, గణన వ్యయం మరియు నమూనా ఖచ్చితత్వం మధ్య స్పష్టమైన ట్రేడ్-ఆఫ్‌ను సృష్టిస్తుంది.

ఈ మాడ్యూల్ వైవిధ్యాలు:

శ్రద్ధ మెకానిజం తొలగింపు: కొన్ని మాడ్యూల్స్ శ్రద్ధ మెకానిజాన్ని పూర్తిగా తొలగిస్తాయి, ఇది గణన మరియు KV కాష్ మెమరీ వినియోగం మొత్తాన్ని తగ్గిస్తుంది.

వేరియబుల్ FFN కొలతలు: ఫీడ్‌ఫార్వర్డ్ నెట్‌వర్క్‌ల యొక్క మధ్య కొలతలు సర్దుబాటు చేయబడతాయి, ఇది విభిన్న గ్రాన్యులారిటీలలో మోడల్ కుదింపుకు అనుమతిస్తుంది.

మాడ్యూల్ లైబ్రరీని నిర్మించిన తరువాత, పజిల్ పూర్తి నమూనాను సమీకరించడానికి ప్రతి పొర నుండి ఒక మాడ్యూల్‌ను ఎంచుకుంటుంది.

ఈ ఎంపిక ప్రక్రియను మిక్స్‌డ్-ఇంటిజర్ ప్రోగ్రామింగ్ (MIP) సాల్వర్ నియంత్రిస్తుంది, ఇది హార్డ్‌వేర్ అనుకూలత, గరిష్టంగా అనుమతించబడిన జాప్యం, మెమరీ బడ్జెట్ లేదా కావలసిన అనుమితి థ్రూపుట్ వంటి పరిమితుల ఆధారంగా సరైన కాన్ఫిగరేషన్‌ను కనుగొంటుంది.

నిలువు కుదింపు మరియు FFN ఫ్యూజన్

LN-Ultra నమూనాలో, పరిశోధకులు మోడల్ యొక్క సీక్వెన్స్ డెప్త్‌ను తగ్గించడానికి మరియు తార్కిక జాప్యం సామర్థ్యాన్ని మెరుగుపరచడానికి అదనపు కుదింపు సాంకేతికత అయిన **FFN ఫ్యూజన్ (ఫీడ్‌ఫార్వర్డ్ నెట్‌వర్క్ ఫ్యూజన్)**ను ప్రవేశపెట్టారు.

పజిల్ యొక్క కొన్ని శ్రద్ధ పొరలను తొలగించడం వలన ఒక ప్రత్యేక నిర్మాణం ఏర్పడుతుంది: నమూనా నిర్మాణంలో బహుళ నిరంతర FFN బ్లాక్‌లు తరచుగా కనిపిస్తాయి.

FFN ఫ్యూజన్ ఈ నిరంతర నిర్మాణాలను గుర్తిస్తుంది మరియు వాటిని తక్కువ కానీ వెడల్పుగా, సమాంతరంగా అమలు చేయగల FFN పొరలతో భర్తీ చేస్తుంది.

ఈ భర్తీ పద్ధతి నమూనా వ్యక్తీకరణను త్యాగం చేయకుండా సీక్వెన్షియల్ గణన యొక్క దశలను తగ్గిస్తుంది, కంప్యూటింగ్ వనరుల వినియోగాన్ని గణనీయంగా మెరుగుపరుస్తుంది - ముఖ్యంగా బహుళ-GPU పరిసరాలలో, ఇక్కడ క్రాస్-లేయర్ కమ్యూనికేషన్ ఓవర్‌హెడ్ గణనీయంగా ఉంటుంది.

LN-Ultra నమూనా ఖచ్చితత్వం మరియు సామర్థ్యం పరంగా DeepSeek-R1 మరియు Llama-3.1-405Bలను స్థిరంగా అధిగమిస్తుంది, ఇది సరైన సమతుల్యతను సాధిస్తుంది.

పోస్ట్-NAS శిక్షణ: నాలెడ్జ్ డిస్టిలేషన్ మరియు కొనసాగుతున్న ప్రీ-ట్రైనింగ్

న్యూరల్ ఆర్కిటెక్చర్ సెర్చ్ (NAS) దశ తరువాత, మాడ్యూల్స్ మధ్య అనుకూలతను మెరుగుపరచడానికి మరియు మాడ్యూల్ భర్తీ సమయంలో సంభవించిన ఏదైనా నాణ్యత నష్టాన్ని తిరిగి పొందడానికి LN-Super మరియు LN-Ultra రెండూ అదనపు శిక్షణ పొందాయి.

  • LN-Super నాలెడ్జ్ డిస్టిలేషన్ లక్ష్యం కింద 40 బిలియన్ టోకెన్‌ల కోసం డిస్టిలేషన్ మిక్స్ డేటాసెట్‌పై శిక్షణ పొందింది.
  • LN-Ultra మొదట్లో అదే డిస్టిలేషన్ డేటాసెట్‌పై 65 బిలియన్ టోకెన్‌ల కోసం శిక్షణ పొందింది, తరువాత నెమోట్రాన్-H నాల్గవ దశ ప్రీ-ట్రైనింగ్ డేటాసెట్‌పై 88 బిలియన్ టోకెన్‌ల కోసం శిక్షణ పొందింది.

ఈ చివరి ప్రీ-ట్రైనింగ్ దశ LN-Ultraను సూచన నమూనాతో సరిపుచ్చడమే కాకుండా, కీలక బెంచ్‌మార్క్ పరీక్షలలో దానిని అధిగమించడానికి కూడా వీలు కల్పించింది.

దురాక్రమణ నిర్మాణ ఆప్టిమైజేషన్ మరియు అధిక నమూనా పనితీరు మధ్య అనుకూలతను సంక్షిప్త డిస్టిలేషన్ మరియు ప్రీ-ట్రైనింగ్ సాధించగలదని ఇది చూపిస్తుంది**.

పర్యవేక్షిత ఫైన్-ట్యూనింగ్: రీఫైనింగ్ రీజనింగ్ ప్రావీణ్యం

పర్యవేక్షిత ఫైన్-ట్యూనింగ్ (SFT) Llama-Nemotron నమూనాల కోసం "వ్యక్తిగత శిక్షకుడిగా" పనిచేస్తుంది, ప్రత్యేకించి నిర్దిష్ట పనుల కోసం తార్కిక దశలను లక్ష్యంగా చేసుకుంటుంది మరియు DeepSeek-R1 వంటి "స్టార్ స్టూడెంట్" నమూనాల నుండి అనుమితి పద్ధతులను నేర్చుకుంటుంది.

నిజమైన తార్కిక నైపుణ్యాలను పెంపొందించడానికి, పెద్ద-స్థాయి, అధిక-నాణ్యత తార్కిక శిక్షణ డేటా చాలా అవసరం.

సింథటిక్ డేటా: తార్కికం కోసం రూపొందించబడింది

పరిశోధకులు పర్యవేక్షిత ఫైన్-ట్యూనింగ్ కోసం తార్కిక మరియు తార్కికం కాని డేటా రెండింటినీ కలిగి ఉన్న డేటా నమూనాలను జాగ్రత్తగా క్యూరేట్ చేశారు.

తార్కిక నమూనాల కోసం, వారు సిస్టమ్ సూచనలకు "వివరణాత్మక ఆలోచన ఆన్" జోడించారు, తార్కికం కాని నమూనాల కోసం వారు "వివరణాత్మక ఆలోచన ఆఫ్" ఉపయోగించారు.

ఈ అమరిక తార్కిక దశలో ప్రాంప్ట్‌ల ఆధారంగా తార్కిక ప్రవర్తనను మార్చడానికి నమూనాను అనుమతిస్తుంది.

గణితం, కోడింగ్ మరియు సంబంధిత రంగాలలో తార్కికం కోసం సింథటిక్ డేటా సిద్ధం చేయబడింది.

"తార్కిక స్విచ్" సూచనలను అనుసరించడానికి నమూనాకు శిక్షణ ఇవ్వడానికి, పరిశోధకులు జత చేసిన డేటాసెట్‌లను నిర్మించారు, ఇక్కడ ప్రతి ప్రాంప్ట్ తార్కికంతో మరియు తార్కికం లేకుండా ప్రతిస్పందనకు అనుగుణంగా ఉంటుంది.

ఈ జత చేయడం సిస్టమ్ సూచనల ఆధారంగా దాని తార్కిక ప్రవర్తనను సర్దుబాటు చేయడానికి నమూనాను అనుమతిస్తుంది.

తదుపరి ఫిల్టరింగ్ ప్రామాణిక సమాధానాలు లేదా రివార్డ్ నమూనాల ఆధారంగా ఈ ప్రతిస్పందనల యొక్క ఫిల్టరింగ్ జరుగుతుంది.

ఫైన్-ట్యూనింగ్ ప్రాసెస్

టోకెన్-స్థాయి క్రాస్-ఎంట్రోపీ నష్టాన్ని ఉపయోగించి సూచన ఫైన్-ట్యూనింగ్ డేటాపై అన్ని నమూనాలకు శిక్షణ ఇవ్వబడింది.

చాలా శిక్షణ సెట్టింగ్‌లలో, ప్రతి ప్రాంప్ట్ "వివరణాత్మక ఆలోచన ఆన్/ఆఫ్" సిస్టమ్ సూచనల ఆధారంగా సంబంధిత ప్రతిస్పందనతో జత చేయబడిన శిక్షణ బ్యాచ్‌లను రూపొందించడానికి తార్కిక మరియు తార్కికం కాని డేటా మిళితం చేయబడుతుంది.

బహుళ రౌండ్లకు శిక్షణను విస్తరించడం పనితీరును మెరుగుపరుస్తుంది, ప్రత్యేకించి చిన్న నమూనాల కోసం.

హెటెరోజీనియస్ నమూనాల GRPO మరియు శిక్షణకు మద్దతు ఇస్తూ, రీన్‌ఫోర్స్‌మెంట్ లెర్నింగ్ శిక్షణ కోసం NeMo-Aligner ఉపయోగించబడింది.

తరం దశ కోసం vLLM మరియు శిక్షణ దశ కోసం Megatron-LM ఉపయోగించబడ్డాయి.

శిక్షణ మరియు తార్కిక దశలు ఒకే GPUల బ్యాచ్‌ని పంచుకున్నాయి, అదే పరికరంలో పూర్తయ్యాయి.

మొత్తం శిక్షణ ప్రక్రియలో 72 నోడ్‌లు, ప్రతి ఒక్కటి 8 H100 GPUలతో అమర్చబడి ఉన్నాయి ఉపయోగించబడ్డాయి.

ఉత్పత్తి దశ FP8 ఖచ్చితత్వాన్ని ఉపయోగించింది, శిక్షణ దశ BF16 ఖచ్చితత్వాన్ని ఉపయోగించింది మరియు ఆప్టిమైజర్ స్థితి FP32ని ఉపయోగించింది.

ప్రతి దశ ఒక స్వతంత్ర నమూనా బరువును నిర్వహించింది, ఇది ప్రతి దశ ప్రారంభంలో సమకాలీకరించబడింది.

రీన్‌ఫోర్స్‌మెంట్ లెర్నింగ్: R1 యొక్క తార్కిక సామర్థ్యాన్ని అధిగమించడానికి కీలకం

పర్యవేక్షిత ఫైన్-ట్యూనింగ్ (SFT) నమూనా శక్తివంతమైన ఉపాధ్యాయ నమూనాల నుండి జ్ఞానాన్ని సంగ్రహించడానికి వీలు కల్పిస్తుంది, తద్వారా అద్భుతమైన సామర్థ్యాలను సాధిస్తుంది.

అయితే, నాలెడ్జ్ డిస్టిలేషన్ స్వతహాగా విద్యార్థి నమూనా పనితీరుపై పరిమితిని విధిస్తుంది, ప్రత్యేకించి విద్యార్థి నమూనా యొక్క మూల నమూనా సామర్థ్యం ఉపాధ్యాయ నమూనా కంటే ఎక్కువ కానప్పుడు.

పర్యవేక్షిత ఫైన్-ట్యూనింగ్ ద్వారా, LN-Ultra యొక్క పనితీరు DeepSeek-R1ని చేరుకోవచ్చు కానీ దానిని అధిగమించలేదు.

పెద్ద-స్థాయి రీన్‌ఫోర్స్‌మెంట్ లెర్నింగ్ (RL) విద్యార్థి నమూనా ఉపాధ్యాయ నమూనాను అధిగమించడానికి వీలు కల్పించే ఒక ఆచరణీయ పద్ధతి, ఎందుకంటే ఇది నమూనా కొత్త అవకాశాలను నిరంతరం అన్వేషించడానికి మరియు స్వీయ-అభ్యసించడానికి అనుమతిస్తుంది.

వనరుల పరిమితుల కారణంగా, పరిశోధకులు తార్కిక RLని LN-Ultraకు మాత్రమే వర్తింపజేశారు, ఫలితంగా ఉపాధ్యాయ నమూనాను అధిగమించే విద్యార్థి నమూనా వచ్చింది.

తార్కిక రీన్‌ఫోర్స్‌మెంట్ లెర్నింగ్ శిక్షణ ప్రక్రియ అంతటా, GPQA-డైమండ్ డేటాసెట్‌పై LN-Ultra యొక్క ఖచ్చితత్వం మెరుగుపడింది.

శిక్షణ ప్రక్రియ: శాస్త్రీయ తార్కికంపై దృష్టి

LN-Ultra కోసం, పరిశోధకులు దాని శాస్త్రీయ తార్కిక సామర్థ్యాన్ని పెద్ద-స్థాయి రీన్‌ఫోర్స్‌మెంట్ లెర్నింగ్ (RL) ద్వారా మెరుగుపరిచారు, DeepSeek-R1 ఉపయోగించిన గ్రూప్డ్ రిలేటివ్ పాలసీ ఆప్టిమైజేషన్ (GRPO) అల్గారిథమ్‌ను ఉపయోగించారు.

మొత్తం శిక్షణ ప్రక్రియకు దాదాపు 140,000 H100 గంటలు అవసరమయ్యాయి, తార్కిక పనులపై నమూనా స్థిరపడే వరకు నిరంతరం శిక్షణ ఇస్తుంది.

రివార్డ్ మెకానిజం రూపకల్పనలో రెండు వర్గాలు ఉన్నాయి:

  • ఖచ్చితత్వ రివార్డ్: ప్రామాణిక సమాధానాల (సంఖ్యా/వాక్యం/పేరా) ఆధారంగా, Llama-3.3-70B-ఇన్‌స్ట్రక్ట్ మోడల్‌ను కాల్ చేయడం ద్వారా అంచనా ఫలితాల సరిపోలిక స్థాయిని అంచనా వేయబడుతుంది.
  • ఫార్మాట్ రివార్డ్: DeepSeek-AI యొక్క పథకాన్ని అనుసరించి, "వివరణాత్మక ఆలోచన" మోడ్‌లో మోడల్‌ను <think\> ట్యాగ్‌లతో తార్కిక ప్రక్రియను చుట్టడానికి బలవంతం చేయబడుతుంది మరియు వివరణాత్మక ఆలోచన లేని మోడ్‌లో అటువంటి ట్యాగ్‌ల రూపాన్ని నిషేధించబడుతుంది.

పరిశోధన బృందం డేటా ఫిల్టరింగ్ మరియు కరిక్యులం శిక్షణతో సహా డేటాను ముందుగా ప్రాసెస్ చేసింది.

  • డేటా స్క్రీనింగ్: ప్రతి ప్రశ్నకు 8 ప్రతిస్పందనలను రూపొందించడానికి LN-Super ముందుగానే ఉపయోగించబడుతుంది మరియు 75% పాస్ రేటు ≥ ఉన్న సాధారణ నమూనాలు తొలగించబడతాయి.
  • కరిక్యులం శిక్షణ: పాస్ రేటు ఆధారంగా ప్రగతిశీల బ్యాచ్ కేటాయింపు స్వీకరించబడుతుంది.

డైనమిక్ డిస్ట్రిబ్యూషన్: అధిక-పాస్-రేటు (సాధారణ) నమూనాలపై మొదట దృష్టి పెడుతూ మరియు తరువాత తక్కువ-పాస్-రేటు (కష్టమైన) నమూనాలకు మారుతూ, బ్యాచ్ కష్టాన్ని గాస్సియన్ ఫంక్షన్‌తో నమూనా చేయడం.

ప్యాడింగ్ లాజిక్: నమూనాలు మొదట లక్ష్య పంపిణీ ప్రకారం కేటాయించబడతాయి మరియు మిగిలిన సామర్థ్యం అతిపెద్ద మిగిలిన నమూనా పూల్ నుండి భర్తీ చేయబడుతుంది.

ఇంట్రా-బ్యాచ్ ప్రాసెసింగ్: వైవిధ్యతను నిర్వహించడానికి ఒకే బ్యాచ్‌లోని నమూనాలను యాదృచ్ఛికంగా మార్చడం.

ప్రాధాన్యత ఆప్టిమైజేషన్ కోసం రీన్‌ఫోర్స్‌మెంట్ లెర్నింగ్

శాస్త్రీయ తార్కిక శిక్షణను పూర్తి చేసిన తరువాత, పరిశోధకులు LN-Super మరియు LN-Ultra నమూనాల కోసం సంక్షిప్త రీన్‌ఫోర్స్‌మెంట్ లెర్నింగ్ దశను నిర్వహించారు, వారి సూచనలను అనుసరించే సామర్థ్యాలను మెరుగుపరచడంపై దృష్టి సారించారు.

పరిశోధకులు RLHFను నమూనాల సాధారణ సహాయ సామర్థ్యాలను మరియు చాట్ పనితీరును ఆప్టిమైజ్ చేయడానికి కూడా ఉపయోగించారు, అయితే గణితం, శాస్త్రం మరియు ఇతర రంగాలలో నమూనాల సామర్థ్యాలను నిలుపుకున్నారు.

LN-Super అరేనా హార్డ్ పరీక్షలో 88.3 అధిక స్కోర్‌ను సాధించింది, Claude 3.5 Sonnet మరియు GPT-4o-2024-05-13 వంటి యాజమాన్య నమూనాలను అధిగమించింది మరియు పెద్ద ఓపెన్-సోర్స్ నమూనాల కంటే కూడా మెరుగ్గా ఉంది.

ఈ ఫలితాన్ని సాధించడానికి, వారు సహాయక డేటాసెట్‌పై నమూనా యొక్క అంచనా రివార్డ్‌ను గరిష్టం చేస్తూ "ఆన్‌లైన్ రివార్డ్-పాలసీ ఆప్టిమైజేషన్" పద్ధతిని స్వీకరించారు. Llama-3.1-Nemotron-70B-రివార్డ్ ఉపయోగించిన రివార్డ్ నమూనా.

రెండు రౌండ్ల ఆన్‌లైన్ RPO శిక్షణ అరేనా హార్డ్ స్కోర్‌ను 69.1 నుండి 88.1కి పెంచింది.

LN-Ultra కోసం, వారు ఇలాంటి ప్రక్రియను ఉపయోగించారు, కానీ GRPOని స్వీకరించారు.

LN-Nano కోసం, వారు పాలసీ-ఉత్పత్తి శిక్షణ డేటాను ఉపయోగించి రెండు రౌండ్ల ఆఫ్‌లైన్ RPO శిక్షణను నిర్వహించారు.

మొదటి రౌండ్ నమూనా యొక్క తార్కిక నియంత్రణ సామర్థ్యాన్ని ఆప్టిమైజ్ చేయడానికి తగిన సిస్టమ్ ప్రాంప్ట్‌లతో తార్కిక మరియు తార్కికం కాని డేటాను కలిపింది. రెండవ రౌండ్ సూచనలను అనుసరించే సామర్థ్యాలను మెరుగుపరచడంపై దృష్టి సారించింది.

మూల్యాంకన ఫలితాలు: సమగ్ర అంచనా

పరిశోధకులు తార్కిక పనులు మరియు తార్కికం కాని పనులు అనే రెండు బెంచ్‌మార్క్ వర్గాలలో అన్ని Llama-Nemotron నమూనాల పనితీరును అంచనా వేశారు.

తార్కిక బెంచ్‌మార్క్‌లలో: AIME24 మరియు AIME25, GPQA-డైమండ్, LiveCodeBench మరియు MATH500 ఉన్నాయి.

తార్కికం కాని బెంచ్‌మార్క్‌లలో: సూచనలను అనుసరించే మూల్యాంకనం కోసం IFEval, ఫంక్షన్ కాల్ టూల్ వినియోగ మూల్యాంకనం కోసం BFCL V2 Live మరియు మానవ సంభాషణ ప్రాధాన్యతలతో అమరికను మూల్యాంకనం చేయడానికి అరేనా-హార్డ్ ఉన్నాయి.

చిన్న పరిమాణంలో ఉన్నప్పటికీ, LN-Nano అన్ని తార్కిక బెంచ్‌మార్క్‌లలో అద్భుతమైన పనితీరును కనబరిచింది.

నిర్మాణాత్మక తార్కిక సామర్థ్యాలను చిన్న నమూనాలకు బదిలీ చేయడంలో పర్యవేక్షిత ఫైన్-ట్యూనింగ్ ప్రక్రియలు మరియు చక్కగా క్యూరేట్ చేయబడిన తార్కిక డేటాసెట్‌లు ప్రభావవంతంగా ఉన్నాయని ఇది నిరూపిస్తుంది.

LN-Super సారూప్య పరామితి స్థాయి యొక్క ఇతర నమూనాలతో పోల్చినప్పుడు తార్కిక మరియు తార్కికం కాని పనులలో బలమైన పోటీతత్వాన్ని చూపించింది.

"తార్కికం ఆఫ్" మోడ్‌లో, LN-Super యొక్క పనితీరు దాని స్వేదన మూల నమూనా, Llama-3.3-70Bతో పోల్చదగినది; "తార్కికం ఆన్" మోడ్‌లో, ఇది DeepSeek-R1-డిస్టిల్డ్-Llama-70B వంటి ఇతర పోటీ నమూనాలను అధిగమించింది, మంచి సూచనలను అనుసరించే సామర్థ్యాన్ని కలిగి ఉంటూనే బలమైన తార్కిక సామర్థ్యాన్ని ప్రదర్శించింది.

ఈ ఫలితాలు LN-Super అనేది తార్కిక-ఆప్టిమైజ్ చేయబడిన నమూనాలు మరియు తార్కికం కాని నమూనాల యొక్క ప్రయోజనాలను మిళితం చేసే ఒక బహుముఖ నమూనా అని సూచిస్తున్నాయి, ఇది రోజువారీ సహాయక పనులకు మరియు నిర్మాణాత్మక తార్కిక పనులకు అనుకూలంగా ఉంటుంది.

LN-Ultra తార్కిక మరియు తార్కికం కాని బెంచ్‌మార్క్‌లలో అన్ని ఇప్పటికే ఉన్న ఓపెన్-సోర్స్ బరువు నమూనాల కంటే సమానంగా లేదా మెరుగ్గా పని చేసింది. ఇది GPQAపై ఓపెన్-సోర్స్ నమూనాలలో అత్యంత ఆధునిక స్థాయిని సాధించింది, Nvidia పరిశోధకుల పెద్ద-స్థాయి రీన్‌ఫోర్స్‌మెంట్ లెర్నింగ్ శిక్షణ పద్ధతుల ప్రభావాన్ని పూర్తిగా ప్రదర్శిస్తుంది.

8×H200 హార్డ్‌వేర్ కాన్ఫిగరేషన్ అవసరమయ్యే DeepSeek-R1 కాకుండా, LN-Ultra ఒక ఒకే 8×H100 నోడ్‌పై సమర్థవంతంగా అమలు చేయడానికి ఆప్టిమైజ్ చేయబడింది, ఇది అధిక తార్కిక థ్రూపుట్ మరియు విస్తరణ సామర్థ్యాన్ని అందిస్తుంది.

LN-Ultra యొక్క SFT దశ బహుళ తార్కిక బెంచ్‌మార్క్‌లలో (GPQA మరియు AIMEతో సహా) DeepSeek-R1 యొక్క పనితీరును చేరుకుంది లేదా చేరుకుంది.

నమూనాకు మొదట శిక్షణ ఇచ్చిన తార్కిక మరియు సంభాషణ సామర్థ్యాలకు అదనంగా, వారు నమూనాను పంపిణీ పనిపై కూడా పరీక్షించారు.

ప్రత్యేకంగా, నమూనాను జడ్జ్‌బెంచ్ డేటాసెట్‌పై పరీక్షించారు, ఇది అధిక-నాణ్యత మరియు తక్కువ-నాణ్యత సమాధానాల మధ్య వేరు చేయవలసి ఉంది.

ఈ కొత్త నమూనా ఈ పనిలో ప్రస్తుత అగ్ర యాజమాన్య మరియు ఓపెన్-సోర్స్ నమూనాలను అధిగమించింది.

LN-Ultra అత్యుత్తమ పనితీరు కనబరిచిన ఓపెన్-సోర్స్ నమూనాగా అవతరించింది, యాజమాన్య నమూనా o3-mini(హై) తర్వాత రెండవ స్థానంలో ఉంది, DeepSeek-R1ని గణనీయంగా అధిగమించింది.

అదనంగా, LN-Super యొక్క పనితీరు కూడా o1-miniని అధిగమించింది, ఇది కొత్త నమూనా వివిధ పనులలో బలమైన సాధారణీకరణ సామర్థ్యాన్ని కలిగి ఉందని సూచిస్తుంది.