Nvidia యొక్క Llama-Nemotron సిరీస్ నమూనాలు అధికారికంగా DeepSeek-R1ను అధిగమించాయి, ఈ నమూనాలు అత్యుత్తమ పనితీరును సాధించేందుకు ఎలా అభివృద్ధి చేయబడ్డాయో వివరంగా వెల్లడించాయి.
ఈ నమూనాలు ఇప్పుడు పూర్తిగా ఓపెన్-సోర్స్, అందుబాటులో ఉన్న AI సాంకేతిక పరిజ్ఞానంలో ఇది ఒక ముఖ్యమైన ముందడుగు. అంటే, అనుమితి థ్రూపుట్ మరియు మెమరీ సామర్థ్యం పరంగా DeepSeek-R1ను గణనీయంగా అధిగమించే అనుమితి నమూనాల శ్రేణిని ఇప్పుడు ఎవరైనా ఉపయోగించవచ్చు మరియు సవరించవచ్చు.
మోడల్ విజయం వెనుక ఉన్న రహస్యాలను వెలికితీయడం
కాబట్టి, DeepSeek-R1ను అధిగమించే ఈ నమూనాలు ఎలా సృష్టించబడ్డాయి? Nvidia యొక్క సాంకేతిక నివేదిక వారి శిక్షణ ప్రక్రియ యొక్క కీలక అంశాలను వెల్లడిస్తుంది:
- సింథటిక్ డేటా + రీన్ఫోర్స్మెంట్ లెర్నింగ్తో పర్యవేక్షిత ఫైన్-ట్యూనింగ్: ఈ కలయిక నమూనా యొక్క తార్కిక సామర్థ్యాలను గణనీయంగా పెంచుతుంది.
- సమగ్ర పోస్ట్-ట్రైనింగ్ ప్రాసెస్: నమూనా పనితీరును ఆప్టిమైజ్ చేయడానికి బలమైన మరియు చక్కగా రూపొందించబడిన పోస్ట్-ట్రైనింగ్ ప్రాసెస్ చాలా కీలకం.
గత నెలలో, Nvidia అధికారికంగా Llama-Nemotron 253Bను ప్రకటించింది, ఇది త్వరగా Llama 4ను అధిగమించింది (ఇది కేవలం మూడు రోజుల వయస్సు మరియు లీడర్బోర్డ్ తారుమారు కారణంగా “సమగ్రత సంక్షోభాన్ని” ఎదుర్కొంటోంది). ఈ నమూనాల శ్రేణి విడుదల పరిశ్రమలో చాలా ప్రకంపనలు సృష్టించింది.
ఆర్టిఫిషియల్ అనాలిసిస్ ఇంటెలిజెన్స్ ఇండెక్స్ ప్రకారం, Llama-Nemotron-Ultra ప్రస్తుతం ఏప్రిల్ 2025 నాటికి "అత్యంత తెలివైన" ఓపెన్-సోర్స్ మోడల్గా పరిగణించబడుతోంది.
Nvidia Llama-Nemotron సిరీస్లో మూడు మోడల్లను ప్రారంభించింది: LN-Nano 8B, LN-Super 49B మరియు LN-Ultra 253B.
ముఖ్యంగా, LN-Ultra పనితీరులో DeepSeek-R1ను అధిగమించడమే కాకుండా, ఒకే 8xH100 నోడ్లో కూడా నడుస్తుంది, ఇది అధిక అనుమితి థ్రూపుట్ను అందిస్తుంది.
ఈ నమూనాలు అధిక-థ్రూపుట్ అనుమితి కోసం ఆప్టిమైజ్ చేయబడ్డాయి, అయితే బలమైన తార్కిక సామర్థ్యాలను మరియు 128K వరకు సందర్భ పొడవును కలిగి ఉంటాయి.
అంతేకాకుండా, Nvidia ప్రపంచ AI ఓపెన్-సోర్స్ కమ్యూనిటీలో ఒక సంచలనాత్మక అనుమితి స్విచ్ ఫీచర్ను పరిచయం చేసింది. వినియోగదారులు "వివరణాత్మక ఆలోచన ఆన్/ఆఫ్" అనే సిస్టమ్ ప్రాంప్ట్ను ఉపయోగించి సాధారణ చాట్ మోడ్ మరియు తార్కిక మోడ్ మధ్య డైనమిక్గా మారవచ్చు.
ఈ డిజైన్ మోడల్ సాధారణ రోజువారీ అవసరాలను తీర్చడానికి మరియు విభిన్న నమూనాలు లేదా నిర్మాణాల అవసరం లేకుండా సంక్లిష్టమైన, బహుళ-దశల తార్కిక పనులను నిర్వహించడానికి అనుమతిస్తుంది.
నిర్మాణ ప్రక్రియ: ఐదు-దశల విధానం
Llama-Nemotron నమూనాల నిర్మాణం ఐదు విభిన్న దశలుగా విభజించబడింది:
దశ 1: Feedforward Network Fusion (FFN Fusion) పరిచయంతో Llama 3 సిరీస్ నమూనాల ఆధారంగా న్యూరల్ ఆర్కిటెక్చర్ సెర్చ్ (NAS) ఉపయోగించి తార్కిక సామర్థ్యాన్ని ఆప్టిమైజ్ చేయడం.
దశ 2: నాలెడ్జ్ డిస్టిలేషన్ మరియు కొనసాగుతున్న ప్రీ-ట్రైనింగ్ ద్వారా నమూనా పనితీరును పునరుద్ధరించడం.
దశ 3: పర్యవేక్షిత ఫైన్-ట్యూనింగ్ (SFT), ఇది సాధారణ సూచన డేటాను DeepSeek-R1 వంటి శక్తివంతమైన ఉపాధ్యాయ నమూనాల నుండి తార్కిక ప్రక్రియలతో మిళితం చేస్తుంది, ఇది నమూనా బహుళ-దశల తార్కికాన్ని నిర్వహించడానికి అనుమతిస్తుంది.
దశ 4: సంక్లిష్టమైన గణిత మరియు STEM డేటాసెట్లపై పెద్ద-స్థాయి రీన్ఫోర్స్మెంట్ లెర్నింగ్, ఇది ఉపాధ్యాయ నమూనా యొక్క సామర్థ్యాలను అధిగమించడానికి విద్యార్థి నమూనాకు చాలా కీలకం. LN-Ultra కోసం, ఈ దశ GPQA-D బెంచ్మార్క్లో పనితీరును గణనీయంగా మెరుగుపరుస్తుంది, ఇది ఓపెన్-సోర్స్ డొమైన్లో శాస్త్రీయ తార్కికానికి బలమైన నమూనాగా స్థాపించబడింది.
అటువంటి పెద్ద-స్థాయి రీన్ఫోర్స్మెంట్ లెర్నింగ్ శిక్షణకు మద్దతు ఇవ్వడానికి, బృందం బహుళ ఆప్టిమైజేషన్ చర్యలతో కూడిన కొత్త శిక్షణ ఫ్రేమ్వర్క్ను అభివృద్ధి చేసింది, ముఖ్యంగా FP8 ఖచ్చితత్వ ఉత్పత్తి సామర్థ్యానికి మద్దతు ఇస్తుంది.
దశ 5: సూచనలను అనుసరించడం మరియు మానవ ప్రాధాన్యతలకు కట్టుబడి ఉండటంపై దృష్టి సారించిన సంక్షిప్త అమరిక శిక్షణ.
ఆప్టిమైజ్ చేయబడిన అనుమితి సామర్థ్యం కోసం వినూత్న నిర్మాణం
LN-Super మరియు LN-Ultra మోడల్ అనుమితి సామర్థ్యాన్ని ఆప్టిమైజ్ చేయడానికి న్యూరల్ ఆర్కిటెక్చర్ సెర్చ్ కోసం పజిల్ ఫ్రేమ్వర్క్ను ఉపయోగిస్తాయి.
పజిల్ పెద్ద భాషా నమూనాలను హార్డ్వేర్-అనుకూలమైన, సమర్థవంతమైన సంస్కరణలుగా మారుస్తుంది, ఇవి విస్తరణ కోసం ఆప్టిమైజ్ చేయబడతాయి.
"బ్లాక్-బై-బ్లాక్ లోకల్ డిస్టిలేషన్" ద్వారా, డెవలపర్లు Llama 3 ఇన్స్ట్రక్ట్ని ఉపయోగించి ప్రత్యామ్నాయ ట్రాన్స్ఫార్మర్ మాడ్యూల్స్ లైబ్రరీని నిర్మించారు.
ఈ ప్రక్రియలో, ప్రతి మాడ్యూల్ స్వతంత్రంగా మరియు సమాంతరంగా శిక్షణ పొందుతుంది, లెక్కించే పనితీరును ఆప్టిమైజ్ చేసేటప్పుడు అసలు మాడ్యూల్ యొక్క కార్యాచరణను అంచనా వేస్తుంది.
ప్రతి ప్రత్యామ్నాయ మాడ్యూల్కు నిర్దిష్ట "ఖచ్చితత్వం-సామర్థ్యం" ట్రేడ్-ఆఫ్లు ఉన్నాయి. కొన్ని మాడ్యూల్స్ మరింత సమర్థవంతంగా ఉంటాయి, కానీ కొంత నాణ్యత క్షీణతకు దారితీయవచ్చు, గణన వ్యయం మరియు నమూనా ఖచ్చితత్వం మధ్య స్పష్టమైన ట్రేడ్-ఆఫ్ను సృష్టిస్తుంది.
ఈ మాడ్యూల్ వైవిధ్యాలు:
శ్రద్ధ మెకానిజం తొలగింపు: కొన్ని మాడ్యూల్స్ శ్రద్ధ మెకానిజాన్ని పూర్తిగా తొలగిస్తాయి, ఇది గణన మరియు KV కాష్ మెమరీ వినియోగం మొత్తాన్ని తగ్గిస్తుంది.
వేరియబుల్ FFN కొలతలు: ఫీడ్ఫార్వర్డ్ నెట్వర్క్ల యొక్క మధ్య కొలతలు సర్దుబాటు చేయబడతాయి, ఇది విభిన్న గ్రాన్యులారిటీలలో మోడల్ కుదింపుకు అనుమతిస్తుంది.
మాడ్యూల్ లైబ్రరీని నిర్మించిన తరువాత, పజిల్ పూర్తి నమూనాను సమీకరించడానికి ప్రతి పొర నుండి ఒక మాడ్యూల్ను ఎంచుకుంటుంది.
ఈ ఎంపిక ప్రక్రియను మిక్స్డ్-ఇంటిజర్ ప్రోగ్రామింగ్ (MIP) సాల్వర్ నియంత్రిస్తుంది, ఇది హార్డ్వేర్ అనుకూలత, గరిష్టంగా అనుమతించబడిన జాప్యం, మెమరీ బడ్జెట్ లేదా కావలసిన అనుమితి థ్రూపుట్ వంటి పరిమితుల ఆధారంగా సరైన కాన్ఫిగరేషన్ను కనుగొంటుంది.
నిలువు కుదింపు మరియు FFN ఫ్యూజన్
LN-Ultra నమూనాలో, పరిశోధకులు మోడల్ యొక్క సీక్వెన్స్ డెప్త్ను తగ్గించడానికి మరియు తార్కిక జాప్యం సామర్థ్యాన్ని మెరుగుపరచడానికి అదనపు కుదింపు సాంకేతికత అయిన **FFN ఫ్యూజన్ (ఫీడ్ఫార్వర్డ్ నెట్వర్క్ ఫ్యూజన్)**ను ప్రవేశపెట్టారు.
పజిల్ యొక్క కొన్ని శ్రద్ధ పొరలను తొలగించడం వలన ఒక ప్రత్యేక నిర్మాణం ఏర్పడుతుంది: నమూనా నిర్మాణంలో బహుళ నిరంతర FFN బ్లాక్లు తరచుగా కనిపిస్తాయి.
FFN ఫ్యూజన్ ఈ నిరంతర నిర్మాణాలను గుర్తిస్తుంది మరియు వాటిని తక్కువ కానీ వెడల్పుగా, సమాంతరంగా అమలు చేయగల FFN పొరలతో భర్తీ చేస్తుంది.
ఈ భర్తీ పద్ధతి నమూనా వ్యక్తీకరణను త్యాగం చేయకుండా సీక్వెన్షియల్ గణన యొక్క దశలను తగ్గిస్తుంది, కంప్యూటింగ్ వనరుల వినియోగాన్ని గణనీయంగా మెరుగుపరుస్తుంది - ముఖ్యంగా బహుళ-GPU పరిసరాలలో, ఇక్కడ క్రాస్-లేయర్ కమ్యూనికేషన్ ఓవర్హెడ్ గణనీయంగా ఉంటుంది.
LN-Ultra నమూనా ఖచ్చితత్వం మరియు సామర్థ్యం పరంగా DeepSeek-R1 మరియు Llama-3.1-405Bలను స్థిరంగా అధిగమిస్తుంది, ఇది సరైన సమతుల్యతను సాధిస్తుంది.
పోస్ట్-NAS శిక్షణ: నాలెడ్జ్ డిస్టిలేషన్ మరియు కొనసాగుతున్న ప్రీ-ట్రైనింగ్
న్యూరల్ ఆర్కిటెక్చర్ సెర్చ్ (NAS) దశ తరువాత, మాడ్యూల్స్ మధ్య అనుకూలతను మెరుగుపరచడానికి మరియు మాడ్యూల్ భర్తీ సమయంలో సంభవించిన ఏదైనా నాణ్యత నష్టాన్ని తిరిగి పొందడానికి LN-Super మరియు LN-Ultra రెండూ అదనపు శిక్షణ పొందాయి.
- LN-Super నాలెడ్జ్ డిస్టిలేషన్ లక్ష్యం కింద 40 బిలియన్ టోకెన్ల కోసం డిస్టిలేషన్ మిక్స్ డేటాసెట్పై శిక్షణ పొందింది.
- LN-Ultra మొదట్లో అదే డిస్టిలేషన్ డేటాసెట్పై 65 బిలియన్ టోకెన్ల కోసం శిక్షణ పొందింది, తరువాత నెమోట్రాన్-H నాల్గవ దశ ప్రీ-ట్రైనింగ్ డేటాసెట్పై 88 బిలియన్ టోకెన్ల కోసం శిక్షణ పొందింది.
ఈ చివరి ప్రీ-ట్రైనింగ్ దశ LN-Ultraను సూచన నమూనాతో సరిపుచ్చడమే కాకుండా, కీలక బెంచ్మార్క్ పరీక్షలలో దానిని అధిగమించడానికి కూడా వీలు కల్పించింది.
దురాక్రమణ నిర్మాణ ఆప్టిమైజేషన్ మరియు అధిక నమూనా పనితీరు మధ్య అనుకూలతను సంక్షిప్త డిస్టిలేషన్ మరియు ప్రీ-ట్రైనింగ్ సాధించగలదని ఇది చూపిస్తుంది**.
పర్యవేక్షిత ఫైన్-ట్యూనింగ్: రీఫైనింగ్ రీజనింగ్ ప్రావీణ్యం
పర్యవేక్షిత ఫైన్-ట్యూనింగ్ (SFT) Llama-Nemotron నమూనాల కోసం "వ్యక్తిగత శిక్షకుడిగా" పనిచేస్తుంది, ప్రత్యేకించి నిర్దిష్ట పనుల కోసం తార్కిక దశలను లక్ష్యంగా చేసుకుంటుంది మరియు DeepSeek-R1 వంటి "స్టార్ స్టూడెంట్" నమూనాల నుండి అనుమితి పద్ధతులను నేర్చుకుంటుంది.
నిజమైన తార్కిక నైపుణ్యాలను పెంపొందించడానికి, పెద్ద-స్థాయి, అధిక-నాణ్యత తార్కిక శిక్షణ డేటా చాలా అవసరం.
సింథటిక్ డేటా: తార్కికం కోసం రూపొందించబడింది
పరిశోధకులు పర్యవేక్షిత ఫైన్-ట్యూనింగ్ కోసం తార్కిక మరియు తార్కికం కాని డేటా రెండింటినీ కలిగి ఉన్న డేటా నమూనాలను జాగ్రత్తగా క్యూరేట్ చేశారు.
తార్కిక నమూనాల కోసం, వారు సిస్టమ్ సూచనలకు "వివరణాత్మక ఆలోచన ఆన్" జోడించారు, తార్కికం కాని నమూనాల కోసం వారు "వివరణాత్మక ఆలోచన ఆఫ్" ఉపయోగించారు.
ఈ అమరిక తార్కిక దశలో ప్రాంప్ట్ల ఆధారంగా తార్కిక ప్రవర్తనను మార్చడానికి నమూనాను అనుమతిస్తుంది.
గణితం, కోడింగ్ మరియు సంబంధిత రంగాలలో తార్కికం కోసం సింథటిక్ డేటా సిద్ధం చేయబడింది.
"తార్కిక స్విచ్" సూచనలను అనుసరించడానికి నమూనాకు శిక్షణ ఇవ్వడానికి, పరిశోధకులు జత చేసిన డేటాసెట్లను నిర్మించారు, ఇక్కడ ప్రతి ప్రాంప్ట్ తార్కికంతో మరియు తార్కికం లేకుండా ప్రతిస్పందనకు అనుగుణంగా ఉంటుంది.
ఈ జత చేయడం సిస్టమ్ సూచనల ఆధారంగా దాని తార్కిక ప్రవర్తనను సర్దుబాటు చేయడానికి నమూనాను అనుమతిస్తుంది.
తదుపరి ఫిల్టరింగ్ ప్రామాణిక సమాధానాలు లేదా రివార్డ్ నమూనాల ఆధారంగా ఈ ప్రతిస్పందనల యొక్క ఫిల్టరింగ్ జరుగుతుంది.
ఫైన్-ట్యూనింగ్ ప్రాసెస్
టోకెన్-స్థాయి క్రాస్-ఎంట్రోపీ నష్టాన్ని ఉపయోగించి సూచన ఫైన్-ట్యూనింగ్ డేటాపై అన్ని నమూనాలకు శిక్షణ ఇవ్వబడింది.
చాలా శిక్షణ సెట్టింగ్లలో, ప్రతి ప్రాంప్ట్ "వివరణాత్మక ఆలోచన ఆన్/ఆఫ్" సిస్టమ్ సూచనల ఆధారంగా సంబంధిత ప్రతిస్పందనతో జత చేయబడిన శిక్షణ బ్యాచ్లను రూపొందించడానికి తార్కిక మరియు తార్కికం కాని డేటా మిళితం చేయబడుతుంది.
బహుళ రౌండ్లకు శిక్షణను విస్తరించడం పనితీరును మెరుగుపరుస్తుంది, ప్రత్యేకించి చిన్న నమూనాల కోసం.
హెటెరోజీనియస్ నమూనాల GRPO మరియు శిక్షణకు మద్దతు ఇస్తూ, రీన్ఫోర్స్మెంట్ లెర్నింగ్ శిక్షణ కోసం NeMo-Aligner ఉపయోగించబడింది.
తరం దశ కోసం vLLM మరియు శిక్షణ దశ కోసం Megatron-LM ఉపయోగించబడ్డాయి.
శిక్షణ మరియు తార్కిక దశలు ఒకే GPUల బ్యాచ్ని పంచుకున్నాయి, అదే పరికరంలో పూర్తయ్యాయి.
మొత్తం శిక్షణ ప్రక్రియలో 72 నోడ్లు, ప్రతి ఒక్కటి 8 H100 GPUలతో అమర్చబడి ఉన్నాయి ఉపయోగించబడ్డాయి.
ఉత్పత్తి దశ FP8 ఖచ్చితత్వాన్ని ఉపయోగించింది, శిక్షణ దశ BF16 ఖచ్చితత్వాన్ని ఉపయోగించింది మరియు ఆప్టిమైజర్ స్థితి FP32ని ఉపయోగించింది.
ప్రతి దశ ఒక స్వతంత్ర నమూనా బరువును నిర్వహించింది, ఇది ప్రతి దశ ప్రారంభంలో సమకాలీకరించబడింది.
రీన్ఫోర్స్మెంట్ లెర్నింగ్: R1 యొక్క తార్కిక సామర్థ్యాన్ని అధిగమించడానికి కీలకం
పర్యవేక్షిత ఫైన్-ట్యూనింగ్ (SFT) నమూనా శక్తివంతమైన ఉపాధ్యాయ నమూనాల నుండి జ్ఞానాన్ని సంగ్రహించడానికి వీలు కల్పిస్తుంది, తద్వారా అద్భుతమైన సామర్థ్యాలను సాధిస్తుంది.
అయితే, నాలెడ్జ్ డిస్టిలేషన్ స్వతహాగా విద్యార్థి నమూనా పనితీరుపై పరిమితిని విధిస్తుంది, ప్రత్యేకించి విద్యార్థి నమూనా యొక్క మూల నమూనా సామర్థ్యం ఉపాధ్యాయ నమూనా కంటే ఎక్కువ కానప్పుడు.
పర్యవేక్షిత ఫైన్-ట్యూనింగ్ ద్వారా, LN-Ultra యొక్క పనితీరు DeepSeek-R1ని చేరుకోవచ్చు కానీ దానిని అధిగమించలేదు.
పెద్ద-స్థాయి రీన్ఫోర్స్మెంట్ లెర్నింగ్ (RL) విద్యార్థి నమూనా ఉపాధ్యాయ నమూనాను అధిగమించడానికి వీలు కల్పించే ఒక ఆచరణీయ పద్ధతి, ఎందుకంటే ఇది నమూనా కొత్త అవకాశాలను నిరంతరం అన్వేషించడానికి మరియు స్వీయ-అభ్యసించడానికి అనుమతిస్తుంది.
వనరుల పరిమితుల కారణంగా, పరిశోధకులు తార్కిక RLని LN-Ultraకు మాత్రమే వర్తింపజేశారు, ఫలితంగా ఉపాధ్యాయ నమూనాను అధిగమించే విద్యార్థి నమూనా వచ్చింది.
తార్కిక రీన్ఫోర్స్మెంట్ లెర్నింగ్ శిక్షణ ప్రక్రియ అంతటా, GPQA-డైమండ్ డేటాసెట్పై LN-Ultra యొక్క ఖచ్చితత్వం మెరుగుపడింది.
శిక్షణ ప్రక్రియ: శాస్త్రీయ తార్కికంపై దృష్టి
LN-Ultra కోసం, పరిశోధకులు దాని శాస్త్రీయ తార్కిక సామర్థ్యాన్ని పెద్ద-స్థాయి రీన్ఫోర్స్మెంట్ లెర్నింగ్ (RL) ద్వారా మెరుగుపరిచారు, DeepSeek-R1 ఉపయోగించిన గ్రూప్డ్ రిలేటివ్ పాలసీ ఆప్టిమైజేషన్ (GRPO) అల్గారిథమ్ను ఉపయోగించారు.
మొత్తం శిక్షణ ప్రక్రియకు దాదాపు 140,000 H100 గంటలు అవసరమయ్యాయి, తార్కిక పనులపై నమూనా స్థిరపడే వరకు నిరంతరం శిక్షణ ఇస్తుంది.
రివార్డ్ మెకానిజం రూపకల్పనలో రెండు వర్గాలు ఉన్నాయి:
- ఖచ్చితత్వ రివార్డ్: ప్రామాణిక సమాధానాల (సంఖ్యా/వాక్యం/పేరా) ఆధారంగా, Llama-3.3-70B-ఇన్స్ట్రక్ట్ మోడల్ను కాల్ చేయడం ద్వారా అంచనా ఫలితాల సరిపోలిక స్థాయిని అంచనా వేయబడుతుంది.
- ఫార్మాట్ రివార్డ్: DeepSeek-AI యొక్క పథకాన్ని అనుసరించి, "వివరణాత్మక ఆలోచన" మోడ్లో మోడల్ను <think\> ట్యాగ్లతో తార్కిక ప్రక్రియను చుట్టడానికి బలవంతం చేయబడుతుంది మరియు వివరణాత్మక ఆలోచన లేని మోడ్లో అటువంటి ట్యాగ్ల రూపాన్ని నిషేధించబడుతుంది.
పరిశోధన బృందం డేటా ఫిల్టరింగ్ మరియు కరిక్యులం శిక్షణతో సహా డేటాను ముందుగా ప్రాసెస్ చేసింది.
- డేటా స్క్రీనింగ్: ప్రతి ప్రశ్నకు 8 ప్రతిస్పందనలను రూపొందించడానికి LN-Super ముందుగానే ఉపయోగించబడుతుంది మరియు 75% పాస్ రేటు ≥ ఉన్న సాధారణ నమూనాలు తొలగించబడతాయి.
- కరిక్యులం శిక్షణ: పాస్ రేటు ఆధారంగా ప్రగతిశీల బ్యాచ్ కేటాయింపు స్వీకరించబడుతుంది.
డైనమిక్ డిస్ట్రిబ్యూషన్: అధిక-పాస్-రేటు (సాధారణ) నమూనాలపై మొదట దృష్టి పెడుతూ మరియు తరువాత తక్కువ-పాస్-రేటు (కష్టమైన) నమూనాలకు మారుతూ, బ్యాచ్ కష్టాన్ని గాస్సియన్ ఫంక్షన్తో నమూనా చేయడం.
ప్యాడింగ్ లాజిక్: నమూనాలు మొదట లక్ష్య పంపిణీ ప్రకారం కేటాయించబడతాయి మరియు మిగిలిన సామర్థ్యం అతిపెద్ద మిగిలిన నమూనా పూల్ నుండి భర్తీ చేయబడుతుంది.
ఇంట్రా-బ్యాచ్ ప్రాసెసింగ్: వైవిధ్యతను నిర్వహించడానికి ఒకే బ్యాచ్లోని నమూనాలను యాదృచ్ఛికంగా మార్చడం.
ప్రాధాన్యత ఆప్టిమైజేషన్ కోసం రీన్ఫోర్స్మెంట్ లెర్నింగ్
శాస్త్రీయ తార్కిక శిక్షణను పూర్తి చేసిన తరువాత, పరిశోధకులు LN-Super మరియు LN-Ultra నమూనాల కోసం సంక్షిప్త రీన్ఫోర్స్మెంట్ లెర్నింగ్ దశను నిర్వహించారు, వారి సూచనలను అనుసరించే సామర్థ్యాలను మెరుగుపరచడంపై దృష్టి సారించారు.
పరిశోధకులు RLHFను నమూనాల సాధారణ సహాయ సామర్థ్యాలను మరియు చాట్ పనితీరును ఆప్టిమైజ్ చేయడానికి కూడా ఉపయోగించారు, అయితే గణితం, శాస్త్రం మరియు ఇతర రంగాలలో నమూనాల సామర్థ్యాలను నిలుపుకున్నారు.
LN-Super అరేనా హార్డ్ పరీక్షలో 88.3 అధిక స్కోర్ను సాధించింది, Claude 3.5 Sonnet మరియు GPT-4o-2024-05-13 వంటి యాజమాన్య నమూనాలను అధిగమించింది మరియు పెద్ద ఓపెన్-సోర్స్ నమూనాల కంటే కూడా మెరుగ్గా ఉంది.
ఈ ఫలితాన్ని సాధించడానికి, వారు సహాయక డేటాసెట్పై నమూనా యొక్క అంచనా రివార్డ్ను గరిష్టం చేస్తూ "ఆన్లైన్ రివార్డ్-పాలసీ ఆప్టిమైజేషన్" పద్ధతిని స్వీకరించారు. Llama-3.1-Nemotron-70B-రివార్డ్ ఉపయోగించిన రివార్డ్ నమూనా.
రెండు రౌండ్ల ఆన్లైన్ RPO శిక్షణ అరేనా హార్డ్ స్కోర్ను 69.1 నుండి 88.1కి పెంచింది.
LN-Ultra కోసం, వారు ఇలాంటి ప్రక్రియను ఉపయోగించారు, కానీ GRPOని స్వీకరించారు.
LN-Nano కోసం, వారు పాలసీ-ఉత్పత్తి శిక్షణ డేటాను ఉపయోగించి రెండు రౌండ్ల ఆఫ్లైన్ RPO శిక్షణను నిర్వహించారు.
మొదటి రౌండ్ నమూనా యొక్క తార్కిక నియంత్రణ సామర్థ్యాన్ని ఆప్టిమైజ్ చేయడానికి తగిన సిస్టమ్ ప్రాంప్ట్లతో తార్కిక మరియు తార్కికం కాని డేటాను కలిపింది. రెండవ రౌండ్ సూచనలను అనుసరించే సామర్థ్యాలను మెరుగుపరచడంపై దృష్టి సారించింది.
మూల్యాంకన ఫలితాలు: సమగ్ర అంచనా
పరిశోధకులు తార్కిక పనులు మరియు తార్కికం కాని పనులు అనే రెండు బెంచ్మార్క్ వర్గాలలో అన్ని Llama-Nemotron నమూనాల పనితీరును అంచనా వేశారు.
తార్కిక బెంచ్మార్క్లలో: AIME24 మరియు AIME25, GPQA-డైమండ్, LiveCodeBench మరియు MATH500 ఉన్నాయి.
తార్కికం కాని బెంచ్మార్క్లలో: సూచనలను అనుసరించే మూల్యాంకనం కోసం IFEval, ఫంక్షన్ కాల్ టూల్ వినియోగ మూల్యాంకనం కోసం BFCL V2 Live మరియు మానవ సంభాషణ ప్రాధాన్యతలతో అమరికను మూల్యాంకనం చేయడానికి అరేనా-హార్డ్ ఉన్నాయి.
చిన్న పరిమాణంలో ఉన్నప్పటికీ, LN-Nano అన్ని తార్కిక బెంచ్మార్క్లలో అద్భుతమైన పనితీరును కనబరిచింది.
నిర్మాణాత్మక తార్కిక సామర్థ్యాలను చిన్న నమూనాలకు బదిలీ చేయడంలో పర్యవేక్షిత ఫైన్-ట్యూనింగ్ ప్రక్రియలు మరియు చక్కగా క్యూరేట్ చేయబడిన తార్కిక డేటాసెట్లు ప్రభావవంతంగా ఉన్నాయని ఇది నిరూపిస్తుంది.
LN-Super సారూప్య పరామితి స్థాయి యొక్క ఇతర నమూనాలతో పోల్చినప్పుడు తార్కిక మరియు తార్కికం కాని పనులలో బలమైన పోటీతత్వాన్ని చూపించింది.
"తార్కికం ఆఫ్" మోడ్లో, LN-Super యొక్క పనితీరు దాని స్వేదన మూల నమూనా, Llama-3.3-70Bతో పోల్చదగినది; "తార్కికం ఆన్" మోడ్లో, ఇది DeepSeek-R1-డిస్టిల్డ్-Llama-70B వంటి ఇతర పోటీ నమూనాలను అధిగమించింది, మంచి సూచనలను అనుసరించే సామర్థ్యాన్ని కలిగి ఉంటూనే బలమైన తార్కిక సామర్థ్యాన్ని ప్రదర్శించింది.
ఈ ఫలితాలు LN-Super అనేది తార్కిక-ఆప్టిమైజ్ చేయబడిన నమూనాలు మరియు తార్కికం కాని నమూనాల యొక్క ప్రయోజనాలను మిళితం చేసే ఒక బహుముఖ నమూనా అని సూచిస్తున్నాయి, ఇది రోజువారీ సహాయక పనులకు మరియు నిర్మాణాత్మక తార్కిక పనులకు అనుకూలంగా ఉంటుంది.
LN-Ultra తార్కిక మరియు తార్కికం కాని బెంచ్మార్క్లలో అన్ని ఇప్పటికే ఉన్న ఓపెన్-సోర్స్ బరువు నమూనాల కంటే సమానంగా లేదా మెరుగ్గా పని చేసింది. ఇది GPQAపై ఓపెన్-సోర్స్ నమూనాలలో అత్యంత ఆధునిక స్థాయిని సాధించింది, Nvidia పరిశోధకుల పెద్ద-స్థాయి రీన్ఫోర్స్మెంట్ లెర్నింగ్ శిక్షణ పద్ధతుల ప్రభావాన్ని పూర్తిగా ప్రదర్శిస్తుంది.
8×H200 హార్డ్వేర్ కాన్ఫిగరేషన్ అవసరమయ్యే DeepSeek-R1 కాకుండా, LN-Ultra ఒక ఒకే 8×H100 నోడ్పై సమర్థవంతంగా అమలు చేయడానికి ఆప్టిమైజ్ చేయబడింది, ఇది అధిక తార్కిక థ్రూపుట్ మరియు విస్తరణ సామర్థ్యాన్ని అందిస్తుంది.
LN-Ultra యొక్క SFT దశ బహుళ తార్కిక బెంచ్మార్క్లలో (GPQA మరియు AIMEతో సహా) DeepSeek-R1 యొక్క పనితీరును చేరుకుంది లేదా చేరుకుంది.
నమూనాకు మొదట శిక్షణ ఇచ్చిన తార్కిక మరియు సంభాషణ సామర్థ్యాలకు అదనంగా, వారు నమూనాను పంపిణీ పనిపై కూడా పరీక్షించారు.
ప్రత్యేకంగా, నమూనాను జడ్జ్బెంచ్ డేటాసెట్పై పరీక్షించారు, ఇది అధిక-నాణ్యత మరియు తక్కువ-నాణ్యత సమాధానాల మధ్య వేరు చేయవలసి ఉంది.
ఈ కొత్త నమూనా ఈ పనిలో ప్రస్తుత అగ్ర యాజమాన్య మరియు ఓపెన్-సోర్స్ నమూనాలను అధిగమించింది.
LN-Ultra అత్యుత్తమ పనితీరు కనబరిచిన ఓపెన్-సోర్స్ నమూనాగా అవతరించింది, యాజమాన్య నమూనా o3-mini(హై) తర్వాత రెండవ స్థానంలో ఉంది, DeepSeek-R1ని గణనీయంగా అధిగమించింది.
అదనంగా, LN-Super యొక్క పనితీరు కూడా o1-miniని అధిగమించింది, ఇది కొత్త నమూనా వివిధ పనులలో బలమైన సాధారణీకరణ సామర్థ్యాన్ని కలిగి ఉందని సూచిస్తుంది.