Nvidia แซง DeepSeek-R1 ด้วยโมเดลโอเพนซอร์สใหม่ | th

Nvidia’s Llama-Nemotron series models ได้ก้าวข้าม DeepSeek-R1 อย่างเป็นทางการแล้ว และรายละเอียดเกี่ยวกับการฝึกอบรมของพวกเขาก็ได้รับการเปิดเผยอย่างครบถ้วน ทำให้เราได้เห็นถึงวิธีการพัฒนาโมเดลเหล่านี้เพื่อให้ได้ประสิทธิภาพที่เหนือกว่า

โมเดลเหล่านี้เป็นโอเพนซอร์สอย่างสมบูรณ์ ซึ่งถือเป็นความก้าวหน้าที่สำคัญในด้านเทคโนโลยี AI ที่เข้าถึงได้ง่าย นั่นหมายความว่าชุดของโมเดลอนุมานที่เหนือกว่า DeepSeek-R1 อย่างมากในแง่ของปริมาณงานอนุมานและประสิทธิภาพของหน่วยความจำนั้นพร้อมให้ทุกคนใช้งานและแก้ไขได้แล้ว

เปิดเผยความลับเบื้องหลังความสำเร็จของโมเดล

แล้วโมเดลเหล่านี้ที่เหนือกว่า DeepSeek-R1 ถูกสร้างขึ้นมาได้อย่างไร? รายงานทางเทคนิคของ Nvidia เปิดเผยองค์ประกอบที่สำคัญของกระบวนการฝึกอบรม:

Supervised Fine-Tuning ด้วย Synthetic Data + Reinforcement Learning: การผสมผสานนี้ช่วยเพิ่มความสามารถในการให้เหตุผลของโมเดลได้อย่างมาก
กระบวนการ Post-Training ที่ครอบคลุม: กระบวนการ post-training ที่แข็งแกร่งและออกแบบมาอย่างดีเป็นสิ่งสำคัญสำหรับการเพิ่มประสิทธิภาพของโมเดล

เมื่อเดือนที่แล้ว Nvidia ได้ประกาศเปิดตัว Llama-Nemotron 253B อย่างเป็นทางการ ซึ่งบดบัง Llama 4 อย่างรวดเร็ว (ซึ่งมีอายุเพียงสามวันและเผชิญกับ "วิกฤตความสมบูรณ์" เนื่องจากการจัดการลีดเดอร์บอร์ด) การเปิดตัวโมเดลซีรีส์นี้ก่อให้เกิดความฮือฮาในอุตสาหกรรม

จากข้อมูลของ Artificial Analysis Intelligence Index ปัจจุบัน Llama-Nemotron-Ultra ถือเป็นโมเดลโอเพนซอร์สที่ "ฉลาดที่สุด" ณ เดือนเมษายน 2025

Nvidia เปิดตัวโมเดลสามรุ่นในซีรีส์ Llama-Nemotron: LN-Nano 8B, LN-Super 49B และ LN-Ultra 253B

สิ่งที่น่าสังเกตคือ LN-Ultra ไม่เพียงแต่เหนือกว่า DeepSeek-R1 ในด้านประสิทธิภาพเท่านั้น แต่ยังทำงานบนโหนด 8xH100 เดียว ทำให้ได้ปริมาณงานอนุมานที่สูงขึ้น

โมเดลเหล่านี้ได้รับการปรับให้เหมาะสมสำหรับอนุมานที่มีปริมาณงานสูง ในขณะที่ยังคงความสามารถในการให้เหตุผลที่แข็งแกร่งและความยาวบริบทสูงสุด 128K

นอกจากนี้ Nvidia ยังได้เปิดตัวคุณสมบัติสวิตช์อนุมานที่ปฏิวัติวงการในชุมชนโอเพนซอร์ส AI ทั่วโลก ผู้ใช้สามารถสลับระหว่างโหมดแชทมาตรฐานและโหมดการให้เหตุผลแบบไดนามิกได้โดยใช้พรอมต์ของระบบ "detailed thinking on/off"

การออกแบบนี้ช่วยให้โมเดลสามารถตอบสนองความต้องการทั่วไปในชีวิตประจำวันและจัดการกับงานการให้เหตุผลที่ซับซ้อนและหลายขั้นตอนได้โดยไม่จำเป็นต้องใช้โมเดลหรือสถาปัตยกรรมที่แตกต่างกัน

กระบวนการก่อสร้าง: แนวทางห้าขั้นตอน

การก่อสร้างโมเดล Llama-Nemotron แบ่งออกเป็นห้าขั้นตอนที่แตกต่างกัน:

ขั้นตอนที่ 1: การเพิ่มประสิทธิภาพประสิทธิภาพการให้เหตุผลโดยใช้ neural architecture search (NAS) โดยอิงตามโมเดลซีรีส์ Llama 3 พร้อมกับการแนะนำ Feedforward Network Fusion (FFN Fusion)

ขั้นตอนที่ 2: การกู้คืนประสิทธิภาพของโมเดลผ่าน knowledge distillation และการ pre-training อย่างต่อเนื่อง

ขั้นตอนที่ 3: Supervised fine-tuning (SFT) ซึ่งรวมข้อมูลคำสั่งมาตรฐานเข้ากับกระบวนการให้เหตุผลจากโมเดลครูที่มีประสิทธิภาพ เช่น DeepSeek-R1 ทำให้โมเดลสามารถทำการให้เหตุผลแบบหลายขั้นตอนได้

ขั้นตอนที่ 4: การเรียนรู้แบบเสริมกำลังขนาดใหญ่บนชุดข้อมูลทางคณิตศาสตร์และ STEM ที่ซับซ้อน ซึ่งเป็นสิ่งสำคัญสำหรับโมเดลนักเรียนที่จะเหนือกว่าความสามารถของโมเดลครู สำหรับ LN-Ultra ขั้นตอนนี้ช่วยปรับปรุงประสิทธิภาพบนเกณฑ์มาตรฐาน GPQA-D อย่างมีนัยสำคัญ ทำให้เป็นโมเดลที่แข็งแกร่งที่สุดสำหรับการให้เหตุผลทางวิทยาศาสตร์ในโดเมนโอเพนซอร์ส

เพื่อรองรับการฝึกอบรมการเรียนรู้แบบเสริมกำลังขนาดใหญ่นี้ ทีมงานได้พัฒนาเฟรมเวิร์กการฝึกอบรมใหม่พร้อมมาตรการเพิ่มประสิทธิภาพหลายอย่าง ที่สำคัญที่สุดคือการรองรับความสามารถในการสร้างความแม่นยำ FP8

ขั้นตอนที่ 5: การฝึกอบรมการจัดตำแหน่งโดยย่อโดยเน้นที่การปฏิบัติตามคำสั่งและการยึดมั่นในความชอบของมนุษย์

สถาปัตยกรรมที่เป็นนวัตกรรมใหม่เพื่อประสิทธิภาพการอนุมานที่ปรับให้เหมาะสม

LN-Super และ LN-Ultra ใช้ประโยชน์จากเฟรมเวิร์ก Puzzle สำหรับ neural architecture search เพื่อเพิ่มประสิทธิภาพการอนุมานของโมเดล

Puzzle เปลี่ยนโมเดลภาษาขนาดใหญ่ให้เป็นเวอร์ชันที่ปรับให้เข้ากับฮาร์ดแวร์และมีประสิทธิภาพ ซึ่งปรับให้เหมาะสมสำหรับการปรับใช้

ผ่าน "block-by-block local distillation," นักพัฒนาได้สร้างไลบรารีของโมดูล Transformer ทางเลือกโดยใช้ Llama 3 Instruct

ในกระบวนการนี้ แต่ละโมดูลจะได้รับการฝึกอบรมอย่างอิสระและขนานกัน โดยประมาณการฟังก์ชันการทำงานของโมดูลดั้งเดิม ในขณะที่เพิ่มประสิทธิภาพการประมวลผล

แต่ละโมดูลทางเลือกมีการแลกเปลี่ยน "ความแม่นยำ-ประสิทธิภาพ" ที่เฉพาะเจาะจง โมดูลบางโมดูลมีประสิทธิภาพมากกว่า แต่อาจส่งผลให้คุณภาพลดลงบางส่วน ทำให้เกิดการแลกเปลี่ยนที่ชัดเจนระหว่างต้นทุนการประมวลผลและความแม่นยำของโมเดล

รูปแบบโมดูลเหล่านี้รวมถึง:

การลบกลไก Attention: โมดูลบางโมดูลละเว้นกลไก attention โดยสมบูรณ์ ลดปริมาณการคำนวณและการใช้หน่วยความจำแคช KV

ขนาด FFN ที่แปรผัน: ขนาดกลางของ feedforward networks ได้รับการปรับเปลี่ยน ทำให้สามารถบีบอัดโมเดลได้ในระดับที่แตกต่างกัน

หลังจากสร้างไลบรารีโมดูลแล้ว Puzzle จะเลือกโมดูลจากแต่ละเลเยอร์เพื่อประกอบโมเดลที่สมบูรณ์

กระบวนการเลือกนี้ถูกควบคุมโดยตัวแก้ปัญหา mixed-integer programming (MIP) ซึ่งค้นหาการกำหนดค่าที่เหมาะสมที่สุดโดยอิงตามข้อจำกัด เช่น ความเข้ากันได้ของฮาร์ดแวร์ เวลาแฝงสูงสุดที่อนุญาต งบประมาณหน่วยความจำ หรือปริมาณงานอนุมานที่ต้องการ

Vertical Compression และ FFN Fusion

ในโมเดล LN-Ultra นักวิจัยได้แนะนำ FFN Fusion (Feedforward Network Fusion) ซึ่งเป็นเทคนิคการบีบอัดเพิ่มเติมเพื่อลดความลึกของลำดับของโมเดลและปรับปรุงประสิทธิภาพเวลาแฝงในการให้เหตุผล

การลบเลเยอร์ attention บางส่วนของ Puzzle ส่งผลให้เกิดโครงสร้างที่เป็นเอกลักษณ์: บล็อก FFN ที่ต่อเนื่องกันหลายบล็อกมักปรากฏในโครงสร้างโมเดล

FFN Fusion ระบุโครงสร้างต่อเนื่องเหล่านี้และแทนที่ด้วยเลเยอร์ FFN ที่น้อยกว่าแต่กว้างกว่า ซึ่งสามารถดำเนินการแบบขนานได้

วิธีการแทนที่นี้ลดขั้นตอนการคำนวณตามลำดับโดยไม่เสียสละการแสดงออกของโมเดล ปรับปรุงการใช้ทรัพยากรการประมวลผลอย่างมีนัยสำคัญ โดยเฉพาะอย่างยิ่งในสภาพแวดล้อม multi-GPU ซึ่งค่าใช้จ่ายในการสื่อสารข้ามเลเยอร์มีนัยสำคัญ

โมเดล LN-Ultra เหนือกว่า DeepSeek-R1 และ Llama-3.1-405B อย่างสม่ำเสมอในแง่ของความแม่นยำและประสิทธิภาพ โดยบรรลุความสมดุลที่เหมาะสมที่สุด

Post-NAS Training: Knowledge Distillation และ Continued Pre-training

หลังจากขั้นตอน neural architecture search (NAS) ทั้ง LN-Super และ LN-Ultra ได้รับการฝึกอบรมเพิ่มเติมเพื่อปรับปรุงความเข้ากันได้ระหว่างโมดูลและกู้คืนการสูญเสียคุณภาพที่อาจเกิดขึ้นระหว่างการเปลี่ยนโมดูล

LN-Super ได้รับการฝึกอบรมบนชุดข้อมูล Distillation Mix สำหรับโทเค็น 4 หมื่นล้านโทเค็นภายใต้วัตถุประสงค์ knowledge distillation
LN-Ultra ได้รับการฝึกอบรมเบื้องต้นบนชุดข้อมูล distillation เดียวกันสำหรับโทเค็น 65 พันล้านโทเค็น ตามด้วยการฝึกอบรมอย่างต่อเนื่องบนชุดข้อมูล pre-training ขั้นที่สี่ของ Nemotron-H สำหรับโทเค็น 88 พันล้านโทเค็น

ขั้นตอน pre-training ขั้นสุดท้ายนี้ทำให้ LN-Ultra ไม่เพียงแต่ตามทันโมเดลอ้างอิง Llama 3.1-405B-Instruct เท่านั้น แต่ยังเหนือกว่าใน benchmark tests ที่สำคัญ

แสดงให้เห็นว่า distillation และ pre-training โดยย่อสามารถบรรลุความเข้ากันได้ระหว่างการเพิ่มประสิทธิภาพทางสถาปัตยกรรมอย่างจริงจังและประสิทธิภาพของโมเดลสูง

Supervised Fine-Tuning: การปรับแต่งความสามารถในการให้เหตุผล

Supervised Fine-Tuning (SFT) ทำหน้าที่เป็น "ผู้ฝึกสอนส่วนตัว" สำหรับโมเดล Llama-Nemotron โดยเฉพาะอย่างยิ่งการกำหนดเป้าหมายขั้นตอนการให้เหตุผลสำหรับงานเฉพาะและการเรียนรู้เทคนิคการอนุมานจากโมเดล "นักเรียนดาวเด่น" เช่น DeepSeek-R1

เพื่อให้ปลูกฝังทักษะการให้เหตุผลที่แท้จริง ข้อมูลการฝึกอบรมการให้เหตุผลขนาดใหญ่และมีคุณภาพสูงเป็นสิ่งจำเป็น

Synthetic Data: ปรับแต่งเพื่อการให้เหตุผล

นักวิจัยได้ดูแลจัดการตัวอย่างข้อมูลที่มีทั้งข้อมูลการให้เหตุผลและไม่ใช่การให้เหตุผลอย่างระมัดระวังสำหรับการ supervised fine-tuning

สำหรับตัวอย่างการให้เหตุผล พวกเขาเพิ่ม "detailed thinking on" ในคำแนะนำของระบบ ในขณะที่สำหรับตัวอย่างที่ไม่ใช่การให้เหตุผล พวกเขาใช้ "detailed thinking off"

การตั้งค่านี้ช่วยให้โมเดลสามารถสลับพฤติกรรมการให้เหตุผลตามพรอมต์ในระหว่างขั้นตอนการให้เหตุผล

ข้อมูลสังเคราะห์สำหรับการให้เหตุผลถูกจัดทำขึ้นในสาขาคณิตศาสตร์ การเขียนโค้ด และสาขาที่เกี่ยวข้อง

เพื่อฝึกอบรมโมเดลให้ปฏิบัติตามคำแนะนำ "สวิตช์การให้เหตุผล" นักวิจัยได้สร้างชุดข้อมูลที่จับคู่ โดยแต่ละพรอมต์สอดคล้องกับการตอบสนองด้วยการให้เหตุผลและอีกชุดหนึ่งที่ไม่มีการให้เหตุผล

การจับคู่นี้ช่วยให้โมเดลเรียนรู้ที่จะปรับพฤติกรรมการให้เหตุผลตามคำแนะนำของระบบ

การกรองการตอบสนองเหล่านี้ในภายหลังจะดำเนินการโดยอิงตามคำตอบมาตรฐานหรือโมเดลรางวัล

Fine-Tuning Process

โมเดลทั้งหมดได้รับการฝึกอบรมเกี่ยวกับข้อมูล instruction fine-tuning โดยใช้การสูญเสีย cross-entropy ระดับโทเค็น

ในการตั้งค่าการฝึกอบรมส่วนใหญ่ ข้อมูลการให้เหตุผลและไม่ใช่การให้เหตุผลจะถูกผสมกันเพื่อสร้างชุดการฝึกอบรม โดยแต่ละพรอมต์จะจับคู่กับการตอบสนองที่สอดคล้องกันตามคำแนะนำของระบบ "detailed thinking on/off"

การขยายการฝึกอบรมไปยังหลายรอบสามารถปรับปรุงประสิทธิภาพได้ โดยเฉพาะอย่างยิ่งสำหรับโมเดลขนาดเล็ก

NeMo-Aligner ถูกใช้สำหรับการฝึกอบรมการเรียนรู้แบบเสริมกำลัง โดยรองรับ GRPO และการฝึกอบรมโมเดลที่ต่างกัน

vLLM ถูกใช้สำหรับขั้นตอนการสร้าง และ Megatron-LM ถูกใช้สำหรับขั้นตอนการฝึกอบรม

ขั้นตอนการฝึกอบรมและการให้เหตุผลใช้ GPU ชุดเดียวกัน ซึ่งเสร็จสมบูรณ์บนอุปกรณ์เดียวกัน

กระบวนการฝึกอบรมทั้งหมดใช้ 72 โหนด โดยแต่ละโหนดติดตั้ง GPU 8 H100

ขั้นตอนการสร้างใช้ ความแม่นยำ FP8 ขั้นตอนการฝึกอบรมใช้ ความแม่นยำ BF16 และสถานะตัวเพิ่มประสิทธิภาพใช้ FP32

แต่ละขั้นตอนรักษาน้ำหนักโมเดลที่เป็นอิสระ ซึ่งซิงโครไนซ์เมื่อเริ่มต้นแต่ละขั้นตอน

Reinforcement Learning: กุญแจสำคัญในการแซงหน้าความสามารถในการให้เหตุผลของ R1

Supervised fine-tuning (SFT) ช่วยให้โมเดลสามารถดึงความรู้จากโมเดลครูที่มีประสิทธิภาพ ทำให้มีความสามารถที่ยอดเยี่ยม

อย่างไรก็ตาม knowledge distillation กำหนดขีดจำกัดให้กับประสิทธิภาพของโมเดลนักเรียนโดยธรรมชาติ โดยเฉพาะอย่างยิ่งเมื่อความสามารถของโมเดลพื้นฐานของโมเดลนักเรียนไม่เกินความสามารถของโมเดลครู

ด้วย supervised fine-tuning ประสิทธิภาพของ LN-Ultra สามารถเข้าใกล้ DeepSeek-R1 ได้ แต่ไม่สามารถเหนือกว่าได้

Large-scale reinforcement learning (RL) เป็นวิธีการที่ใช้ได้จริงเพื่อให้โมเดลนักเรียนสามารถเหนือกว่าโมเดลครูได้ เนื่องจากช่วยให้โมเดลสามารถสำรวจความเป็นไปได้ใหม่ๆ และเรียนรู้ด้วยตนเองได้อย่างต่อเนื่อง

เนื่องจากข้อจำกัดด้านทรัพยากร นักวิจัยจึงใช้ RL การให้เหตุผลกับ LN-Ultra เท่านั้น ส่งผลให้โมเดลนักเรียนเหนือกว่าโมเดลครู

ตลอดกระบวนการฝึกอบรมการเรียนรู้แบบเสริมกำลังการให้เหตุผล ความแม่นยำของ LN-Ultra ในชุดข้อมูล GPQA-Diamond ดีขึ้น

Training Process: มุ่งเน้นไปที่การให้เหตุผลทางวิทยาศาสตร์

สำหรับ LN-Ultra นักวิจัยได้เพิ่มความสามารถในการให้เหตุผลทางวิทยาศาสตร์ผ่าน large-scale reinforcement learning (RL) โดยใช้อัลกอริทึม Grouped Relative Policy Optimization (GRPO) ซึ่งเป็นอัลกอริทึมเดียวกับที่ DeepSeek-R1 ใช้

กระบวนการฝึกอบรมทั้งหมดต้องใช้เวลาประมาณ 140,000 ชั่วโมง H100 โดยฝึกอบรมโมเดลอย่างต่อเนื่องจนกว่าจะบรรลุผลลัพธ์ที่ต้องการในงานการให้เหตุผล

การออกแบบกลไกรางวัลประกอบด้วยสองประเภท:

Accuracy Reward: ขึ้นอยู่กับคำตอบมาตรฐาน (ตัวเลข/ประโยค/ย่อหน้า) การเรียกโมเดล Llama-3.3-70B-Instruct จะตัดสินระดับการจับคู่ของผลการทำนาย
Format Reward: ตามรูปแบบของ DeepSeek-AI โมเดลถูกบังคับให้ห่อหุ้มกระบวนการให้เหตุผลด้วยแท็ก <think\> ในโหมด "detailed thinking" และห้ามมิให้แท็กดังกล่าวปรากฏในโหมด non-detailed thinking

ทีมวิจัยยังได้ประมวลผลข้อมูลล่วงหน้า ซึ่งรวมถึงการกรองข้อมูลและการฝึกอบรมหลักสูตร

Data Screening: LN-Super ถูกใช้ล่วงหน้าเพื่อสร้าง 8 การตอบสนองสำหรับแต่ละคำถาม และตัวอย่างง่ายๆ ที่มีอัตราการส่งผ่าน ≥ 75% จะถูกลบออก
Curriculum Training: การจัดสรรแบทช์แบบก้าวหน้าตามอัตราการส่งผ่านถูกนำมาใช้

Dynamic Distribution: การสร้างแบบจำลองความยากของแบทช์ด้วยฟังก์ชัน Gaussian โดยเน้นที่ตัวอย่างอัตราการส่งผ่านสูง (อย่างง่าย) ในขั้นต้น และเปลี่ยนไปใช้ตัวอย่างอัตราการส่งผ่านต่ำ (ยาก) ในภายหลัง

Padding Logic: ตัวอย่างจะถูกจัดสรรตามการกระจายเป้าหมายก่อน และความจุที่เหลือจะถูกเสริมจากกลุ่มตัวอย่างที่เหลือที่ใหญ่ที่สุด

Intra-Batch Processing: ตัวอย่างในแบทช์เดียวกันจะถูกสับเปลี่ยนแบบสุ่มเพื่อรักษาความหลากหลาย

Reinforcement Learning สำหรับการเพิ่มประสิทธิภาพความชอบ

หลังจากเสร็จสิ้นการฝึกอบรมการให้เหตุผลทางวิทยาศาสตร์ นักวิจัยได้ดำเนินการระยะการเรียนรู้แบบเสริมกำลังโดยย่อสำหรับโมเดล LN-Super และ LN-Ultra โดยมุ่งเน้นที่การปรับปรุงความสามารถในการปฏิบัติตามคำสั่ง

นักวิจัยยังใช้ RLHF เพื่อเพิ่มประสิทธิภาพความสามารถในการช่วยเหลือทั่วไปและประสิทธิภาพการแชทของโมเดล ในขณะที่รักษาสมรรถนะของโมเดลในด้านคณิตศาสตร์ วิทยาศาสตร์ และสาขาอื่นๆ

LN-Super ทำได้คะแนนสูงถึง 88.3 ในการทดสอบ Arena Hard แซงหน้าโมเดลที่เป็นกรรมสิทธิ์ เช่น Claude 3.5 Sonnet และ GPT-4o-2024-05-13 และยังดีกว่าโมเดลโอเพนซอร์สขนาดใหญ่อีกด้วย

เพื่อให้บรรลุผลลัพธ์นี้ พวกเขาได้นำวิธีการ "OnLine Reward-Policy Optimization" มาใช้ โดยเพิ่มรางวัลการทำนายของโมเดลให้สูงสุดในชุดข้อมูล HelpSteer2 โมเดลรางวัลที่ใช้คือ Llama-3.1-Nemotron-70B-Reward

การฝึกอบรม RPO ออนไลน์สองรอบเพิ่มคะแนน Arena Hard จาก 69.1 เป็น 88.1

สำหรับ LN-Ultra พวกเขาใช้กระบวนการที่คล้ายกัน แต่ใช้ GRPO

สำหรับ LN-Nano พวกเขาดำเนินการการฝึกอบรม RPO ออฟไลน์สองรอบ โดยใช้ข้อมูลการฝึกอบรมที่สร้างขึ้นตามนโยบาย

รอบแรกรวมข้อมูลการให้เหตุผลและไม่ใช่การให้เหตุผลเข้ากับพรอมต์ของระบบที่เหมาะสมเพื่อเพิ่มประสิทธิภาพความสามารถในการควบคุมการให้เหตุผลของโมเดล รอบที่สองมุ่งเน้นไปที่การปรับปรุงความสามารถในการปฏิบัติตามคำสั่ง

Evaluation Results: การประเมินที่ครอบคลุม

นักวิจัยได้ประเมินประสิทธิภาพของโมเดล Llama-Nemotron ทั้งหมดในสองประเภทเกณฑ์มาตรฐาน: งานการให้เหตุผลและงานที่ไม่ใช่การให้เหตุผล

เกณฑ์มาตรฐานการให้เหตุผล ได้แก่: AIME24 และ AIME25, GPQA-Diamond, LiveCodeBench และ MATH500

เกณฑ์มาตรฐานที่ไม่ใช่การให้เหตุผล ได้แก่: IFEval สำหรับการประเมินการปฏิบัติตามคำสั่ง, BFCL V2 Live สำหรับการประเมินการใช้งานเครื่องมือฟังก์ชัน และ Arena-Hard สำหรับการประเมินการจัดตำแหน่งกับความชอบในการสนทนาของมนุษย์

LN-Nano มีประสิทธิภาพที่ยอดเยี่ยมในเกณฑ์มาตรฐานการให้เหตุผลทั้งหมด แม้จะมีขนาดเล็ก

แสดงให้เห็นว่ากระบวนการ supervised fine-tuning และชุดข้อมูลการให้เหตุผลที่ดูแลจัดการอย่างดีนั้นมีประสิทธิภาพในการถ่ายโอนความสามารถในการให้เหตุผลที่มีโครงสร้างไปยังโมเดลขนาดเล็ก

LN-Super แสดงให้เห็นถึงความสามารถในการแข่งขันที่แข็งแกร่งทั้งในงานการให้เหตุผลและงานที่ไม่ใช่การให้เหตุผลเมื่อเทียบกับโมเดลอื่นๆ ที่มีขนาดพารามิเตอร์ใกล้เคียงกัน

ในโหมด "reasoning off" ประสิทธิภาพของ LN-Super เทียบได้กับโมเดลแหล่งที่มาที่ได้รับการกลั่นแล้ว Llama-3.3-70B ในโหมด "reasoning on" แซงหน้าโมเดลคู่แข่งอื่นๆ เช่น DeepSeek-R1-Distilled-Llama-70B แสดงให้เห็นถึงความสามารถในการให้เหตุผลที่แข็งแกร่ง ในขณะที่ยังคงความสามารถในการปฏิบัติตามคำสั่งที่ดี

ผลลัพธ์เหล่านี้บ่งชี้ว่า LN-Super เป็นโมเดลอเนกประสงค์ที่รวมข้อดีของโมเดลที่ปรับให้เหมาะสมกับการให้เหตุผลและโมเดลที่ไม่ใช่การให้เหตุผล ทำให้เหมาะสำหรับงานผู้ช่วยในชีวิตประจำวันและงานการให้เหตุผลที่มีโครงสร้าง

LN-Ultra มีประสิทธิภาพเทียบเท่าหรือดีกว่าโมเดลน้ำหนักโอเพนซอร์สที่มีอยู่ทั้งหมดในเกณฑ์มาตรฐานการให้เหตุผลและที่ไม่ใช่การให้เหตุผล บรรลุระดับที่ทันสมัยที่สุดในโมเดลโอเพนซอร์สบน GPQA ซึ่งแสดงให้เห็นอย่างเต็มที่ถึงประสิทธิภาพของวิธีการฝึกอบรมการเรียนรู้แบบเสริมกำลังขนาดใหญ่ของนักวิจัย Nvidia

แตกต่างจาก DeepSeek-R1 ซึ่งต้องใช้การกำหนดค่าฮาร์ดแวร์ 8×H200 LN-Ultra ได้รับการปรับให้เหมาะสมเพื่อทำงานอย่างมีประสิทธิภาพบนโหนด 8×H100 เดียว ทำให้ได้ปริมาณงานการให้เหตุผลและประสิทธิภาพในการปรับใช้ที่สูงขึ้น

ระยะ SFT ของ LN-Ultra ได้เข้าใกล้หรือเข้าถึงประสิทธิภาพของ DeepSeek-R1 บนเกณฑ์มาตรฐานการให้เหตุผลหลายรายการ (รวมถึง GPQA และ AIME)

นอกเหนือจากความสามารถในการให้เหตุผลและการสนทนาที่โมเดลได้รับการฝึกอบรมมาแต่เดิมแล้ว พวกเขายังได้ทดสอบโมเดลในงานการแจกจ่าย

โดยเฉพาะอย่างยิ่ง โมเดลได้รับการทดสอบบนชุดข้อมูล JudgeBench โดยกำหนดให้แยกแยะระหว่างคำตอบที่มีคุณภาพสูงและคุณภาพต่ำ

โมเดลใหม่มีประสิทธิภาพเหนือกว่าโมเดลที่เป็นกรรมสิทธิ์และโอเพนซอร์สชั้นนำในปัจจุบัน ในงานนี้

LN-Ultra กลายเป็นโมเดลโอเพนซอร์สที่มีประสิทธิภาพดีที่สุด แซงหน้า DeepSeek-R1 อย่างมีนัยสำคัญ เป็นรองเพียงโมเดลที่เป็นกรรมสิทธิ์ o3-mini(high)

นอกจากนี้ ประสิทธิภาพของ LN-Super ยังเกิน o1-mini บ่งชี้ว่าโมเดลใหม่มีความสามารถในการสรุปทั่วไปที่แข็งแกร่ง ในงานต่างๆ

อัปเดตเมื่อ 2025-05-07

# Nvidia # Nemotron # Fine-Tuning