Nvidia’s Llama-Nemotron series models ได้ก้าวข้าม DeepSeek-R1 อย่างเป็นทางการแล้ว และรายละเอียดเกี่ยวกับการฝึกอบรมของพวกเขาก็ได้รับการเปิดเผยอย่างครบถ้วน ทำให้เราได้เห็นถึงวิธีการพัฒนาโมเดลเหล่านี้เพื่อให้ได้ประสิทธิภาพที่เหนือกว่า
โมเดลเหล่านี้เป็นโอเพนซอร์สอย่างสมบูรณ์ ซึ่งถือเป็นความก้าวหน้าที่สำคัญในด้านเทคโนโลยี AI ที่เข้าถึงได้ง่าย นั่นหมายความว่าชุดของโมเดลอนุมานที่เหนือกว่า DeepSeek-R1 อย่างมากในแง่ของปริมาณงานอนุมานและประสิทธิภาพของหน่วยความจำนั้นพร้อมให้ทุกคนใช้งานและแก้ไขได้แล้ว
เปิดเผยความลับเบื้องหลังความสำเร็จของโมเดล
แล้วโมเดลเหล่านี้ที่เหนือกว่า DeepSeek-R1 ถูกสร้างขึ้นมาได้อย่างไร? รายงานทางเทคนิคของ Nvidia เปิดเผยองค์ประกอบที่สำคัญของกระบวนการฝึกอบรม:
- Supervised Fine-Tuning ด้วย Synthetic Data + Reinforcement Learning: การผสมผสานนี้ช่วยเพิ่มความสามารถในการให้เหตุผลของโมเดลได้อย่างมาก
- กระบวนการ Post-Training ที่ครอบคลุม: กระบวนการ post-training ที่แข็งแกร่งและออกแบบมาอย่างดีเป็นสิ่งสำคัญสำหรับการเพิ่มประสิทธิภาพของโมเดล
เมื่อเดือนที่แล้ว Nvidia ได้ประกาศเปิดตัว Llama-Nemotron 253B อย่างเป็นทางการ ซึ่งบดบัง Llama 4 อย่างรวดเร็ว (ซึ่งมีอายุเพียงสามวันและเผชิญกับ "วิกฤตความสมบูรณ์" เนื่องจากการจัดการลีดเดอร์บอร์ด) การเปิดตัวโมเดลซีรีส์นี้ก่อให้เกิดความฮือฮาในอุตสาหกรรม
จากข้อมูลของ Artificial Analysis Intelligence Index ปัจจุบัน Llama-Nemotron-Ultra ถือเป็นโมเดลโอเพนซอร์สที่ "ฉลาดที่สุด" ณ เดือนเมษายน 2025
Nvidia เปิดตัวโมเดลสามรุ่นในซีรีส์ Llama-Nemotron: LN-Nano 8B, LN-Super 49B และ LN-Ultra 253B
สิ่งที่น่าสังเกตคือ LN-Ultra ไม่เพียงแต่เหนือกว่า DeepSeek-R1 ในด้านประสิทธิภาพเท่านั้น แต่ยังทำงานบนโหนด 8xH100 เดียว ทำให้ได้ปริมาณงานอนุมานที่สูงขึ้น
โมเดลเหล่านี้ได้รับการปรับให้เหมาะสมสำหรับอนุมานที่มีปริมาณงานสูง ในขณะที่ยังคงความสามารถในการให้เหตุผลที่แข็งแกร่งและความยาวบริบทสูงสุด 128K
นอกจากนี้ Nvidia ยังได้เปิดตัวคุณสมบัติสวิตช์อนุมานที่ปฏิวัติวงการในชุมชนโอเพนซอร์ส AI ทั่วโลก ผู้ใช้สามารถสลับระหว่างโหมดแชทมาตรฐานและโหมดการให้เหตุผลแบบไดนามิกได้โดยใช้พรอมต์ของระบบ "detailed thinking on/off"
การออกแบบนี้ช่วยให้โมเดลสามารถตอบสนองความต้องการทั่วไปในชีวิตประจำวันและจัดการกับงานการให้เหตุผลที่ซับซ้อนและหลายขั้นตอนได้โดยไม่จำเป็นต้องใช้โมเดลหรือสถาปัตยกรรมที่แตกต่างกัน
กระบวนการก่อสร้าง: แนวทางห้าขั้นตอน
การก่อสร้างโมเดล Llama-Nemotron แบ่งออกเป็นห้าขั้นตอนที่แตกต่างกัน:
ขั้นตอนที่ 1: การเพิ่มประสิทธิภาพประสิทธิภาพการให้เหตุผลโดยใช้ neural architecture search (NAS) โดยอิงตามโมเดลซีรีส์ Llama 3 พร้อมกับการแนะนำ Feedforward Network Fusion (FFN Fusion)
ขั้นตอนที่ 2: การกู้คืนประสิทธิภาพของโมเดลผ่าน knowledge distillation และการ pre-training อย่างต่อเนื่อง
ขั้นตอนที่ 3: Supervised fine-tuning (SFT) ซึ่งรวมข้อมูลคำสั่งมาตรฐานเข้ากับกระบวนการให้เหตุผลจากโมเดลครูที่มีประสิทธิภาพ เช่น DeepSeek-R1 ทำให้โมเดลสามารถทำการให้เหตุผลแบบหลายขั้นตอนได้
ขั้นตอนที่ 4: การเรียนรู้แบบเสริมกำลังขนาดใหญ่บนชุดข้อมูลทางคณิตศาสตร์และ STEM ที่ซับซ้อน ซึ่งเป็นสิ่งสำคัญสำหรับโมเดลนักเรียนที่จะเหนือกว่าความสามารถของโมเดลครู สำหรับ LN-Ultra ขั้นตอนนี้ช่วยปรับปรุงประสิทธิภาพบนเกณฑ์มาตรฐาน GPQA-D อย่างมีนัยสำคัญ ทำให้เป็นโมเดลที่แข็งแกร่งที่สุดสำหรับการให้เหตุผลทางวิทยาศาสตร์ในโดเมนโอเพนซอร์ส
เพื่อรองรับการฝึกอบรมการเรียนรู้แบบเสริมกำลังขนาดใหญ่นี้ ทีมงานได้พัฒนาเฟรมเวิร์กการฝึกอบรมใหม่พร้อมมาตรการเพิ่มประสิทธิภาพหลายอย่าง ที่สำคัญที่สุดคือการรองรับความสามารถในการสร้างความแม่นยำ FP8
ขั้นตอนที่ 5: การฝึกอบรมการจัดตำแหน่งโดยย่อโดยเน้นที่การปฏิบัติตามคำสั่งและการยึดมั่นในความชอบของมนุษย์
สถาปัตยกรรมที่เป็นนวัตกรรมใหม่เพื่อประสิทธิภาพการอนุมานที่ปรับให้เหมาะสม
LN-Super และ LN-Ultra ใช้ประโยชน์จากเฟรมเวิร์ก Puzzle สำหรับ neural architecture search เพื่อเพิ่มประสิทธิภาพการอนุมานของโมเดล
Puzzle เปลี่ยนโมเดลภาษาขนาดใหญ่ให้เป็นเวอร์ชันที่ปรับให้เข้ากับฮาร์ดแวร์และมีประสิทธิภาพ ซึ่งปรับให้เหมาะสมสำหรับการปรับใช้
ผ่าน "block-by-block local distillation," นักพัฒนาได้สร้างไลบรารีของโมดูล Transformer ทางเลือกโดยใช้ Llama 3 Instruct
ในกระบวนการนี้ แต่ละโมดูลจะได้รับการฝึกอบรมอย่างอิสระและขนานกัน โดยประมาณการฟังก์ชันการทำงานของโมดูลดั้งเดิม ในขณะที่เพิ่มประสิทธิภาพการประมวลผล
แต่ละโมดูลทางเลือกมีการแลกเปลี่ยน "ความแม่นยำ-ประสิทธิภาพ" ที่เฉพาะเจาะจง โมดูลบางโมดูลมีประสิทธิภาพมากกว่า แต่อาจส่งผลให้คุณภาพลดลงบางส่วน ทำให้เกิดการแลกเปลี่ยนที่ชัดเจนระหว่างต้นทุนการประมวลผลและความแม่นยำของโมเดล
รูปแบบโมดูลเหล่านี้รวมถึง:
การลบกลไก Attention: โมดูลบางโมดูลละเว้นกลไก attention โดยสมบูรณ์ ลดปริมาณการคำนวณและการใช้หน่วยความจำแคช KV
ขนาด FFN ที่แปรผัน: ขนาดกลางของ feedforward networks ได้รับการปรับเปลี่ยน ทำให้สามารถบีบอัดโมเดลได้ในระดับที่แตกต่างกัน
หลังจากสร้างไลบรารีโมดูลแล้ว Puzzle จะเลือกโมดูลจากแต่ละเลเยอร์เพื่อประกอบโมเดลที่สมบูรณ์
กระบวนการเลือกนี้ถูกควบคุมโดยตัวแก้ปัญหา mixed-integer programming (MIP) ซึ่งค้นหาการกำหนดค่าที่เหมาะสมที่สุดโดยอิงตามข้อจำกัด เช่น ความเข้ากันได้ของฮาร์ดแวร์ เวลาแฝงสูงสุดที่อนุญาต งบประมาณหน่วยความจำ หรือปริมาณงานอนุมานที่ต้องการ
Vertical Compression และ FFN Fusion
ในโมเดล LN-Ultra นักวิจัยได้แนะนำ FFN Fusion (Feedforward Network Fusion) ซึ่งเป็นเทคนิคการบีบอัดเพิ่มเติมเพื่อลดความลึกของลำดับของโมเดลและปรับปรุงประสิทธิภาพเวลาแฝงในการให้เหตุผล
การลบเลเยอร์ attention บางส่วนของ Puzzle ส่งผลให้เกิดโครงสร้างที่เป็นเอกลักษณ์: บล็อก FFN ที่ต่อเนื่องกันหลายบล็อกมักปรากฏในโครงสร้างโมเดล
FFN Fusion ระบุโครงสร้างต่อเนื่องเหล่านี้และแทนที่ด้วยเลเยอร์ FFN ที่น้อยกว่าแต่กว้างกว่า ซึ่งสามารถดำเนินการแบบขนานได้
วิธีการแทนที่นี้ลดขั้นตอนการคำนวณตามลำดับโดยไม่เสียสละการแสดงออกของโมเดล ปรับปรุงการใช้ทรัพยากรการประมวลผลอย่างมีนัยสำคัญ โดยเฉพาะอย่างยิ่งในสภาพแวดล้อม multi-GPU ซึ่งค่าใช้จ่ายในการสื่อสารข้ามเลเยอร์มีนัยสำคัญ
โมเดล LN-Ultra เหนือกว่า DeepSeek-R1 และ Llama-3.1-405B อย่างสม่ำเสมอในแง่ของความแม่นยำและประสิทธิภาพ โดยบรรลุความสมดุลที่เหมาะสมที่สุด
Post-NAS Training: Knowledge Distillation และ Continued Pre-training
หลังจากขั้นตอน neural architecture search (NAS) ทั้ง LN-Super และ LN-Ultra ได้รับการฝึกอบรมเพิ่มเติมเพื่อปรับปรุงความเข้ากันได้ระหว่างโมดูลและกู้คืนการสูญเสียคุณภาพที่อาจเกิดขึ้นระหว่างการเปลี่ยนโมดูล
- LN-Super ได้รับการฝึกอบรมบนชุดข้อมูล Distillation Mix สำหรับโทเค็น 4 หมื่นล้านโทเค็นภายใต้วัตถุประสงค์ knowledge distillation
- LN-Ultra ได้รับการฝึกอบรมเบื้องต้นบนชุดข้อมูล distillation เดียวกันสำหรับโทเค็น 65 พันล้านโทเค็น ตามด้วยการฝึกอบรมอย่างต่อเนื่องบนชุดข้อมูล pre-training ขั้นที่สี่ของ Nemotron-H สำหรับโทเค็น 88 พันล้านโทเค็น
ขั้นตอน pre-training ขั้นสุดท้ายนี้ทำให้ LN-Ultra ไม่เพียงแต่ตามทันโมเดลอ้างอิง Llama 3.1-405B-Instruct เท่านั้น แต่ยังเหนือกว่าใน benchmark tests ที่สำคัญ
แสดงให้เห็นว่า distillation และ pre-training โดยย่อสามารถบรรลุความเข้ากันได้ระหว่างการเพิ่มประสิทธิภาพทางสถาปัตยกรรมอย่างจริงจังและประสิทธิภาพของโมเดลสูง
Supervised Fine-Tuning: การปรับแต่งความสามารถในการให้เหตุผล
Supervised Fine-Tuning (SFT) ทำหน้าที่เป็น "ผู้ฝึกสอนส่วนตัว" สำหรับโมเดล Llama-Nemotron โดยเฉพาะอย่างยิ่งการกำหนดเป้าหมายขั้นตอนการให้เหตุผลสำหรับงานเฉพาะและการเรียนรู้เทคนิคการอนุมานจากโมเดล "นักเรียนดาวเด่น" เช่น DeepSeek-R1
เพื่อให้ปลูกฝังทักษะการให้เหตุผลที่แท้จริง ข้อมูลการฝึกอบรมการให้เหตุผลขนาดใหญ่และมีคุณภาพสูงเป็นสิ่งจำเป็น
Synthetic Data: ปรับแต่งเพื่อการให้เหตุผล
นักวิจัยได้ดูแลจัดการตัวอย่างข้อมูลที่มีทั้งข้อมูลการให้เหตุผลและไม่ใช่การให้เหตุผลอย่างระมัดระวังสำหรับการ supervised fine-tuning
สำหรับตัวอย่างการให้เหตุผล พวกเขาเพิ่ม "detailed thinking on" ในคำแนะนำของระบบ ในขณะที่สำหรับตัวอย่างที่ไม่ใช่การให้เหตุผล พวกเขาใช้ "detailed thinking off"
การตั้งค่านี้ช่วยให้โมเดลสามารถสลับพฤติกรรมการให้เหตุผลตามพรอมต์ในระหว่างขั้นตอนการให้เหตุผล
ข้อมูลสังเคราะห์สำหรับการให้เหตุผลถูกจัดทำขึ้นในสาขาคณิตศาสตร์ การเขียนโค้ด และสาขาที่เกี่ยวข้อง
เพื่อฝึกอบรมโมเดลให้ปฏิบัติตามคำแนะนำ "สวิตช์การให้เหตุผล" นักวิจัยได้สร้างชุดข้อมูลที่จับคู่ โดยแต่ละพรอมต์สอดคล้องกับการตอบสนองด้วยการให้เหตุผลและอีกชุดหนึ่งที่ไม่มีการให้เหตุผล
การจับคู่นี้ช่วยให้โมเดลเรียนรู้ที่จะปรับพฤติกรรมการให้เหตุผลตามคำแนะนำของระบบ
การกรองการตอบสนองเหล่านี้ในภายหลังจะดำเนินการโดยอิงตามคำตอบมาตรฐานหรือโมเดลรางวัล
Fine-Tuning Process
โมเดลทั้งหมดได้รับการฝึกอบรมเกี่ยวกับข้อมูล instruction fine-tuning โดยใช้การสูญเสีย cross-entropy ระดับโทเค็น
ในการตั้งค่าการฝึกอบรมส่วนใหญ่ ข้อมูลการให้เหตุผลและไม่ใช่การให้เหตุผลจะถูกผสมกันเพื่อสร้างชุดการฝึกอบรม โดยแต่ละพรอมต์จะจับคู่กับการตอบสนองที่สอดคล้องกันตามคำแนะนำของระบบ "detailed thinking on/off"
การขยายการฝึกอบรมไปยังหลายรอบสามารถปรับปรุงประสิทธิภาพได้ โดยเฉพาะอย่างยิ่งสำหรับโมเดลขนาดเล็ก
NeMo-Aligner ถูกใช้สำหรับการฝึกอบรมการเรียนรู้แบบเสริมกำลัง โดยรองรับ GRPO และการฝึกอบรมโมเดลที่ต่างกัน
vLLM ถูกใช้สำหรับขั้นตอนการสร้าง และ Megatron-LM ถูกใช้สำหรับขั้นตอนการฝึกอบรม
ขั้นตอนการฝึกอบรมและการให้เหตุผลใช้ GPU ชุดเดียวกัน ซึ่งเสร็จสมบูรณ์บนอุปกรณ์เดียวกัน
กระบวนการฝึกอบรมทั้งหมดใช้ 72 โหนด โดยแต่ละโหนดติดตั้ง GPU 8 H100
ขั้นตอนการสร้างใช้ ความแม่นยำ FP8 ขั้นตอนการฝึกอบรมใช้ ความแม่นยำ BF16 และสถานะตัวเพิ่มประสิทธิภาพใช้ FP32
แต่ละขั้นตอนรักษาน้ำหนักโมเดลที่เป็นอิสระ ซึ่งซิงโครไนซ์เมื่อเริ่มต้นแต่ละขั้นตอน
Reinforcement Learning: กุญแจสำคัญในการแซงหน้าความสามารถในการให้เหตุผลของ R1
Supervised fine-tuning (SFT) ช่วยให้โมเดลสามารถดึงความรู้จากโมเดลครูที่มีประสิทธิภาพ ทำให้มีความสามารถที่ยอดเยี่ยม
อย่างไรก็ตาม knowledge distillation กำหนดขีดจำกัดให้กับประสิทธิภาพของโมเดลนักเรียนโดยธรรมชาติ โดยเฉพาะอย่างยิ่งเมื่อความสามารถของโมเดลพื้นฐานของโมเดลนักเรียนไม่เกินความสามารถของโมเดลครู
ด้วย supervised fine-tuning ประสิทธิภาพของ LN-Ultra สามารถเข้าใกล้ DeepSeek-R1 ได้ แต่ไม่สามารถเหนือกว่าได้
Large-scale reinforcement learning (RL) เป็นวิธีการที่ใช้ได้จริงเพื่อให้โมเดลนักเรียนสามารถเหนือกว่าโมเดลครูได้ เนื่องจากช่วยให้โมเดลสามารถสำรวจความเป็นไปได้ใหม่ๆ และเรียนรู้ด้วยตนเองได้อย่างต่อเนื่อง
เนื่องจากข้อจำกัดด้านทรัพยากร นักวิจัยจึงใช้ RL การให้เหตุผลกับ LN-Ultra เท่านั้น ส่งผลให้โมเดลนักเรียนเหนือกว่าโมเดลครู
ตลอดกระบวนการฝึกอบรมการเรียนรู้แบบเสริมกำลังการให้เหตุผล ความแม่นยำของ LN-Ultra ในชุดข้อมูล GPQA-Diamond ดีขึ้น
Training Process: มุ่งเน้นไปที่การให้เหตุผลทางวิทยาศาสตร์
สำหรับ LN-Ultra นักวิจัยได้เพิ่มความสามารถในการให้เหตุผลทางวิทยาศาสตร์ผ่าน large-scale reinforcement learning (RL) โดยใช้อัลกอริทึม Grouped Relative Policy Optimization (GRPO) ซึ่งเป็นอัลกอริทึมเดียวกับที่ DeepSeek-R1 ใช้
กระบวนการฝึกอบรมทั้งหมดต้องใช้เวลาประมาณ 140,000 ชั่วโมง H100 โดยฝึกอบรมโมเดลอย่างต่อเนื่องจนกว่าจะบรรลุผลลัพธ์ที่ต้องการในงานการให้เหตุผล
การออกแบบกลไกรางวัลประกอบด้วยสองประเภท:
- Accuracy Reward: ขึ้นอยู่กับคำตอบมาตรฐาน (ตัวเลข/ประโยค/ย่อหน้า) การเรียกโมเดล Llama-3.3-70B-Instruct จะตัดสินระดับการจับคู่ของผลการทำนาย
- Format Reward: ตามรูปแบบของ DeepSeek-AI โมเดลถูกบังคับให้ห่อหุ้มกระบวนการให้เหตุผลด้วยแท็ก <think\> ในโหมด "detailed thinking" และห้ามมิให้แท็กดังกล่าวปรากฏในโหมด non-detailed thinking
ทีมวิจัยยังได้ประมวลผลข้อมูลล่วงหน้า ซึ่งรวมถึงการกรองข้อมูลและการฝึกอบรมหลักสูตร
- Data Screening: LN-Super ถูกใช้ล่วงหน้าเพื่อสร้าง 8 การตอบสนองสำหรับแต่ละคำถาม และตัวอย่างง่ายๆ ที่มีอัตราการส่งผ่าน ≥ 75% จะถูกลบออก
- Curriculum Training: การจัดสรรแบทช์แบบก้าวหน้าตามอัตราการส่งผ่านถูกนำมาใช้
Dynamic Distribution: การสร้างแบบจำลองความยากของแบทช์ด้วยฟังก์ชัน Gaussian โดยเน้นที่ตัวอย่างอัตราการส่งผ่านสูง (อย่างง่าย) ในขั้นต้น และเปลี่ยนไปใช้ตัวอย่างอัตราการส่งผ่านต่ำ (ยาก) ในภายหลัง
Padding Logic: ตัวอย่างจะถูกจัดสรรตามการกระจายเป้าหมายก่อน และความจุที่เหลือจะถูกเสริมจากกลุ่มตัวอย่างที่เหลือที่ใหญ่ที่สุด
Intra-Batch Processing: ตัวอย่างในแบทช์เดียวกันจะถูกสับเปลี่ยนแบบสุ่มเพื่อรักษาความหลากหลาย
Reinforcement Learning สำหรับการเพิ่มประสิทธิภาพความชอบ
หลังจากเสร็จสิ้นการฝึกอบรมการให้เหตุผลทางวิทยาศาสตร์ นักวิจัยได้ดำเนินการระยะการเรียนรู้แบบเสริมกำลังโดยย่อสำหรับโมเดล LN-Super และ LN-Ultra โดยมุ่งเน้นที่การปรับปรุงความสามารถในการปฏิบัติตามคำสั่ง
นักวิจัยยังใช้ RLHF เพื่อเพิ่มประสิทธิภาพความสามารถในการช่วยเหลือทั่วไปและประสิทธิภาพการแชทของโมเดล ในขณะที่รักษาสมรรถนะของโมเดลในด้านคณิตศาสตร์ วิทยาศาสตร์ และสาขาอื่นๆ
LN-Super ทำได้คะแนนสูงถึง 88.3 ในการทดสอบ Arena Hard แซงหน้าโมเดลที่เป็นกรรมสิทธิ์ เช่น Claude 3.5 Sonnet และ GPT-4o-2024-05-13 และยังดีกว่าโมเดลโอเพนซอร์สขนาดใหญ่อีกด้วย
เพื่อให้บรรลุผลลัพธ์นี้ พวกเขาได้นำวิธีการ "OnLine Reward-Policy Optimization" มาใช้ โดยเพิ่มรางวัลการทำนายของโมเดลให้สูงสุดในชุดข้อมูล HelpSteer2 โมเดลรางวัลที่ใช้คือ Llama-3.1-Nemotron-70B-Reward
การฝึกอบรม RPO ออนไลน์สองรอบเพิ่มคะแนน Arena Hard จาก 69.1 เป็น 88.1
สำหรับ LN-Ultra พวกเขาใช้กระบวนการที่คล้ายกัน แต่ใช้ GRPO
สำหรับ LN-Nano พวกเขาดำเนินการการฝึกอบรม RPO ออฟไลน์สองรอบ โดยใช้ข้อมูลการฝึกอบรมที่สร้างขึ้นตามนโยบาย
รอบแรกรวมข้อมูลการให้เหตุผลและไม่ใช่การให้เหตุผลเข้ากับพรอมต์ของระบบที่เหมาะสมเพื่อเพิ่มประสิทธิภาพความสามารถในการควบคุมการให้เหตุผลของโมเดล รอบที่สองมุ่งเน้นไปที่การปรับปรุงความสามารถในการปฏิบัติตามคำสั่ง
Evaluation Results: การประเมินที่ครอบคลุม
นักวิจัยได้ประเมินประสิทธิภาพของโมเดล Llama-Nemotron ทั้งหมดในสองประเภทเกณฑ์มาตรฐาน: งานการให้เหตุผลและงานที่ไม่ใช่การให้เหตุผล
เกณฑ์มาตรฐานการให้เหตุผล ได้แก่: AIME24 และ AIME25, GPQA-Diamond, LiveCodeBench และ MATH500
เกณฑ์มาตรฐานที่ไม่ใช่การให้เหตุผล ได้แก่: IFEval สำหรับการประเมินการปฏิบัติตามคำสั่ง, BFCL V2 Live สำหรับการประเมินการใช้งานเครื่องมือฟังก์ชัน และ Arena-Hard สำหรับการประเมินการจัดตำแหน่งกับความชอบในการสนทนาของมนุษย์
LN-Nano มีประสิทธิภาพที่ยอดเยี่ยมในเกณฑ์มาตรฐานการให้เหตุผลทั้งหมด แม้จะมีขนาดเล็ก
แสดงให้เห็นว่ากระบวนการ supervised fine-tuning และชุดข้อมูลการให้เหตุผลที่ดูแลจัดการอย่างดีนั้นมีประสิทธิภาพในการถ่ายโอนความสามารถในการให้เหตุผลที่มีโครงสร้างไปยังโมเดลขนาดเล็ก
LN-Super แสดงให้เห็นถึงความสามารถในการแข่งขันที่แข็งแกร่งทั้งในงานการให้เหตุผลและงานที่ไม่ใช่การให้เหตุผลเมื่อเทียบกับโมเดลอื่นๆ ที่มีขนาดพารามิเตอร์ใกล้เคียงกัน
ในโหมด "reasoning off" ประสิทธิภาพของ LN-Super เทียบได้กับโมเดลแหล่งที่มาที่ได้รับการกลั่นแล้ว Llama-3.3-70B ในโหมด "reasoning on" แซงหน้าโมเดลคู่แข่งอื่นๆ เช่น DeepSeek-R1-Distilled-Llama-70B แสดงให้เห็นถึงความสามารถในการให้เหตุผลที่แข็งแกร่ง ในขณะที่ยังคงความสามารถในการปฏิบัติตามคำสั่งที่ดี
ผลลัพธ์เหล่านี้บ่งชี้ว่า LN-Super เป็นโมเดลอเนกประสงค์ที่รวมข้อดีของโมเดลที่ปรับให้เหมาะสมกับการให้เหตุผลและโมเดลที่ไม่ใช่การให้เหตุผล ทำให้เหมาะสำหรับงานผู้ช่วยในชีวิตประจำวันและงานการให้เหตุผลที่มีโครงสร้าง
LN-Ultra มีประสิทธิภาพเทียบเท่าหรือดีกว่าโมเดลน้ำหนักโอเพนซอร์สที่มีอยู่ทั้งหมดในเกณฑ์มาตรฐานการให้เหตุผลและที่ไม่ใช่การให้เหตุผล บรรลุระดับที่ทันสมัยที่สุดในโมเดลโอเพนซอร์สบน GPQA ซึ่งแสดงให้เห็นอย่างเต็มที่ถึงประสิทธิภาพของวิธีการฝึกอบรมการเรียนรู้แบบเสริมกำลังขนาดใหญ่ของนักวิจัย Nvidia
แตกต่างจาก DeepSeek-R1 ซึ่งต้องใช้การกำหนดค่าฮาร์ดแวร์ 8×H200 LN-Ultra ได้รับการปรับให้เหมาะสมเพื่อทำงานอย่างมีประสิทธิภาพบนโหนด 8×H100 เดียว ทำให้ได้ปริมาณงานการให้เหตุผลและประสิทธิภาพในการปรับใช้ที่สูงขึ้น
ระยะ SFT ของ LN-Ultra ได้เข้าใกล้หรือเข้าถึงประสิทธิภาพของ DeepSeek-R1 บนเกณฑ์มาตรฐานการให้เหตุผลหลายรายการ (รวมถึง GPQA และ AIME)
นอกเหนือจากความสามารถในการให้เหตุผลและการสนทนาที่โมเดลได้รับการฝึกอบรมมาแต่เดิมแล้ว พวกเขายังได้ทดสอบโมเดลในงานการแจกจ่าย
โดยเฉพาะอย่างยิ่ง โมเดลได้รับการทดสอบบนชุดข้อมูล JudgeBench โดยกำหนดให้แยกแยะระหว่างคำตอบที่มีคุณภาพสูงและคุณภาพต่ำ
โมเดลใหม่มีประสิทธิภาพเหนือกว่าโมเดลที่เป็นกรรมสิทธิ์และโอเพนซอร์สชั้นนำในปัจจุบัน ในงานนี้
LN-Ultra กลายเป็นโมเดลโอเพนซอร์สที่มีประสิทธิภาพดีที่สุด แซงหน้า DeepSeek-R1 อย่างมีนัยสำคัญ เป็นรองเพียงโมเดลที่เป็นกรรมสิทธิ์ o3-mini(high)
นอกจากนี้ ประสิทธิภาพของ LN-Super ยังเกิน o1-mini บ่งชี้ว่าโมเดลใหม่มีความสามารถในการสรุปทั่วไปที่แข็งแกร่ง ในงานต่างๆ