ความปรารถนาที่จะสร้างปัญญาประดิษฐ์ที่สามารถ*ใช้เหตุผล*ได้อย่างแท้จริงนั้น เป็นเป้าหมายหลักในการพัฒนาด้านนี้มาอย่างยาวนาน ความตื่นเต้นในช่วงแรก ๆ เกี่ยวกับโมเดล "o1" ของ OpenAI ได้จุดประกายความสนใจอย่างกว้างขวางในการใช้เทคนิคการเรียนรู้แบบเสริมกำลัง (RL) ขนาดใหญ่ เพื่อสร้างระบบที่สามารถใช้เหตุผลที่ซับซ้อนได้ หลังจากนั้น การตัดสินใจของ DeepSeek-R1 ที่จะเปิดตัวโมเดลเป็นโอเพนซอร์ส ได้กระตุ้นความกระตือรือร้นมากยิ่งขึ้น และส่งเสริมให้ชุมชน AI พัฒนาโมเดลการใช้เหตุผลที่ทันสมัยอย่างแข็งขัน
อย่างไรก็ตาม การเริ่มต้นที่กระตือรือร้นนี้ก็ถูกลดทอนลงอย่างรวดเร็วด้วยอุปสรรคสำคัญ นั่นคือ รายละเอียดทางเทคนิคที่สำคัญอย่างยิ่งต่อการทำซ้ำที่ประสบความสำเร็จ โดยเฉพาะอย่างยิ่ง กลยุทธ์ที่แม่นยำที่ใช้สำหรับการดูแลจัดการข้อมูล และสูตรที่ซับซ้อนที่ควบคุมการฝึกอบรม RL นั้น ขาดหายไปอย่างเห็นได้ชัดจากรายงานต้นฉบับของ DeepSeek-R1 การละเลยนี้ทำให้เกิดความผิดหวังอย่างมากแก่นักวิจัย ซึ่งต้องเผชิญกับความท้าทายในการสร้างความสำเร็จที่รายงานไว้ใหม่ ผลที่ตามมาคือ ภูมิทัศน์การวิจัยที่ค่อนข้างกระจัดกระจาย โดยมีความพยายามอิสระมากมายที่สำรวจขนาดโมเดลที่แตกต่างกัน จุดตรวจสอบเริ่มต้นที่หลากหลาย และโดเมนเป้าหมายที่หลากหลาย แม้จะมีกิจกรรมที่เข้มข้นนี้ แต่สูตรการฝึกอบรมที่ครอบคลุมและมีประสิทธิภาพอย่างสม่ำเสมอก็ยังคงเข้าใจยาก
แนวทางดั้งเดิมในการฝึกอบรมโมเดลภาษาสำหรับการใช้เหตุผล ส่วนใหญ่มุ่งเน้นไปที่โดเมนของคณิตศาสตร์และโค้ดคอมพิวเตอร์ วิธีการเหล่านี้โดยทั่วไปอาศัยการผสมผสานระหว่างการฝึกอบรมล่วงหน้าบนชุดข้อมูลขนาดใหญ่ และการปรับแต่งภายใต้การดูแล เพื่อปรับโมเดลให้เชี่ยวชาญสำหรับงานเฉพาะเหล่านี้ ความพยายามในช่วงแรก ๆ ที่จะรวมการเรียนรู้แบบเสริมกำลังเข้ากับกระบวนการนี้ โดยทั่วไปโดยใช้โมเดลรางวัลเฉพาะโดเมน ให้ผลลัพธ์ที่จำกัดเท่านั้น สิ่งนี้เกิดจากความท้าทายโดยธรรมชาติที่เกี่ยวข้องกับงานทางคณิตศาสตร์และการเขียนโค้ด ซึ่งข้อผิดพลาดเล็กน้อยอาจนำไปสู่ผลลัพธ์ที่ไม่ถูกต้องอย่างมาก
การตรวจสอบเมื่อเร็ว ๆ นี้ ซึ่งได้รับการกระตุ้นจากการเปิดตัว DeepSeek-R1 ได้สำรวจการใช้วิธีการตรวจสอบตามกฎ ในขอบเขตของคณิตศาสตร์ วิธีการเหล่านี้มักเกี่ยวข้องกับการกำหนดรูปแบบเอาต์พุตเฉพาะที่ช่วยให้การตรวจสอบโซลูชันที่แม่นยำและอัตโนมัติเป็นไปได้ ในทำนองเดียวกัน ในบริบทของโค้ด นักวิจัยได้ใช้ประโยชน์จากกลไกการตอบกลับโดยธรรมชาติของการคอมไพล์และการดำเนินการ เพื่อนำกระบวนการเรียนรู้ อย่างไรก็ตาม แนวทางเหล่านี้โดยทั่วไปมุ่งเน้นไปที่แต่ละโดเมนอย่างแคบ ๆ โดยขาดความสามารถในการจัดการกับข้อความแจ้งที่แตกต่างกันซึ่งผสมผสานปัญหาสูตรคณิตศาสตร์และการเขียนโค้ดได้อย่างมีประสิทธิภาพ นอกจากนี้ การประเมินมักจะถูกจำกัดไว้ที่เกณฑ์มาตรฐานเฉพาะ เช่น AIME และ LiveCodeBench ซึ่งจำกัดความสามารถในการสรุปผล การฝึกอบรมที่ไม่เสถียรยังคงเป็นปัญหาที่เกิดขึ้นอย่างต่อเนื่อง ซึ่งมักจะต้องใช้เทคนิคที่ซับซ้อน เช่น การเพิ่มความยาวการตอบสนองแบบก้าวหน้าและการลดการยุบตัวของเอนโทรปี
ขณะนี้นักวิจัยที่ NVIDIA กำลังเปลี่ยนแปลงเกม เนื่องจากพวกเขาแสดงให้เห็นถึงศักยภาพที่สำคัญของการเรียนรู้แบบเสริมกำลังขนาดใหญ่ เพื่อปรับปรุงความสามารถในการใช้เหตุผลของโมเดลขนาดเล็กและขนาดกลางอย่างมาก วิธีการของพวกเขาบรรลุระดับประสิทธิภาพที่เหนือกว่าแนวทางที่ทันสมัยที่ใช้เทคนิคการกลั่น แนวทางของ NVIDIA ใช้กลยุทธ์การฝึกอบรมแบบลำดับ: ขั้นแรก ดำเนินการฝึกอบรม RL เฉพาะสำหรับข้อความแจ้งที่เกี่ยวข้องกับคณิตศาสตร์เท่านั้น และต่อมาเปลี่ยนไปใช้ข้อความแจ้งที่เน้นเฉพาะโค้ด
วิธีการตามลำดับเพื่อการใช้เหตุผลขั้นสูง
ผลการวิจัย? การฝึกอบรม RL เบื้องต้นเกี่ยวกับปัญหาทางคณิตศาสตร์ ไม่เพียงแต่ปรับปรุงประสิทธิภาพบนเกณฑ์มาตรฐานทางคณิตศาสตร์อย่างมากเท่านั้น แต่ยังก่อให้เกิดการเพิ่มขึ้นอย่างมีนัยสำคัญในความสามารถในการใช้เหตุผลของโค้ดอีกด้วย นอกจากนี้ การวนซ้ำที่ยาวนานของการฝึกอบรม RL ที่เน้นเฉพาะโค้ด ยังช่วยเพิ่มประสิทธิภาพของโค้ดเพิ่มเติม โดยมีการลดลงเล็กน้อยในด้านประสิทธิภาพทางคณิตศาสตร์ แนวทางนี้เน้นย้ำถึงประเด็นสำคัญ: การฝึกอบรมทางคณิตศาสตร์สามารถทำหน้าที่เป็นรากฐานที่แข็งแกร่งสำหรับงานที่ซับซ้อนมากขึ้น เช่น การเขียนโค้ด
ส่วนสำคัญต่อความสำเร็จของแนวทาง NVIDIA คือไปป์ไลน์การดูแลจัดการข้อมูลที่แข็งแกร่ง ไปป์ไลน์นี้ได้รับการออกแบบมาอย่างพิถีพิถันเพื่อรวบรวมข้อความแจ้งที่ท้าทายซึ่งมีลักษณะเฉพาะคือความยากลำบากสูงและความพร้อมใช้งานของคำตอบและกรณีทดสอบที่ตรวจสอบได้คุณภาพสูง สิ่งนี้ช่วยให้สามารถใช้ RL ที่ใช้การตรวจสอบได้อย่างมีประสิทธิภาพทั้งในโดเมนคณิตศาสตร์และการเขียนโค้ด
การดูแลจัดการข้อมูลสำหรับคณิตศาสตร์และโค้ด
วิธีการดูแลจัดการข้อมูลที่ใช้โดยนักวิจัย NVIDIA แยกแยะอย่างระมัดระวังระหว่างข้อกำหนดสำหรับ RL ที่ใช้คณิตศาสตร์เท่านั้นและ RL ที่ใช้โค้ดเท่านั้น
RL ที่ใช้คณิตศาสตร์เท่านั้น: การสร้างข้อมูลการฝึกอบรมสำหรับ RL ที่ใช้คณิตศาสตร์เท่านั้นเกี่ยวข้องกับการรวมข้อมูลจากชุดข้อมูล DeepScaler และ NuminaMath ชุดข้อมูลเหล่านี้ครอบคลุมหัวข้อทางคณิตศาสตร์ที่หลากหลาย รวมถึงพีชคณิต การจัดหมู่ ทฤษฎีจำนวน และเรขาคณิต เพื่อรักษาความสมบูรณ์ของข้อมูล จะมีการใช้กระบวนการกรองที่เข้มงวด โดยใช้ตัวกรอง 9 แกรมเพื่อลบเนื้อหาที่ซ้ำซ้อนหรือไม่เหมาะสม และใช้กฎการยกเว้นที่เข้มงวดเพื่อกำจัดรายการที่อาจมีปัญหา โมเดล DeepSeek-R1 มีบทบาทสำคัญในการตรวจสอบคุณภาพของคำถาม จากนั้นคำถามแต่ละข้อจะถูกส่งไปยังความพยายามที่เป็นอิสระแปดครั้งโดยแบบจำลอง และเฉพาะโซลูชันที่ได้รับการโหวตส่วนใหญ่ว่าถูกต้องผ่านการตรวจสอบตามกฎเท่านั้นที่จะถูกเก็บไว้เพื่อรวมไว้ในชุดข้อมูลสุดท้าย
RL ที่ใช้โค้ดเท่านั้น: ชุดข้อมูลสำหรับ RL ที่ใช้โค้ดเท่านั้นถูกสร้างขึ้นโดยใช้ข้อมูลที่มาจากแพลตฟอร์มการเขียนโปรแกรมการแข่งขันสมัยใหม่ แพลตฟอร์มเหล่านี้เป็นแหล่งปัญหาการเขียนโค้ดที่หลากหลายซึ่งครอบคลุมหัวข้ออัลกอริทึมที่หลากหลาย ปัญหาได้รับการจัดรูปแบบให้สอดคล้องกับการเรียกใช้ฟังก์ชันและอนุสัญญาอินพุต/เอาต์พุตมาตรฐาน (stdin/stdout) ที่ใช้กันทั่วไปในสภาพแวดล้อมเหล่านี้ นักวิจัยดำเนินการกระบวนการกรองอย่างพิถีพิถันเพื่อกำจัดปัญหาที่ไม่เข้ากันและดูแลกรณีทดสอบที่ครอบคลุมอย่างพิถีพิถันซึ่งออกแบบมาเพื่อครอบคลุมกรณีขอบและเงื่อนไขขอบเขต นอกจากนี้ แต่ละปัญหายังได้รับการกำหนดคะแนนความยากที่กำหนดโดยการประเมินโดยโมเดล DeepSeek-R1-671B กระบวนการที่เข้มงวดนี้ส่งผลให้ชุดข้อมูลคุณภาพสูงประกอบด้วยปัญหาการเขียนโค้ดที่ได้รับการยืนยันแล้ว 8,520 รายการ
AceReason-Nemotron: ผลลัพธ์และเกณฑ์มาตรฐาน
ผลการวิจัยของ NVIDIA นั้นน่าสนใจ โมเดล AceReason-Nemotron-7B บรรลุการปรับปรุงความแม่นยำอย่างมีนัยสำคัญที่ 14.5% และ 14.6% ในการแข่งขัน AIME 2024 และ 2025 ที่ท้าทายตามลำดับ เมื่อเทียบกับโมเดล SFT เริ่มต้น นอกจากนี้ ยังแสดงให้เห็นถึงผลกำไรจำนวนมากที่ 14.2% และ 8% ในเกณฑ์มาตรฐาน LiveCodeBench v5 และ v6 ตามลำดับ รูปแบบ 14B ที่ใหญ่กว่าของโมเดลแสดงให้เห็นถึงประสิทธิภาพที่ดียิ่งขึ้น โดยมีประสิทธิภาพเหนือกว่าโมเดลที่ใหญ่กว่า เช่น DeepSeek-R1-Distill-Qwen-32B และ DeepSeek-R1-Distill-Llama-70B สิ่งนี้บรรลุผลลัพธ์ที่ดีที่สุดในระดับเดียวกันในบรรดาโมเดลการใช้เหตุผลตาม RL แบบเปิด
เมื่อเทียบกับโมเดลที่ใช้การกลั่นที่ทันสมัย AceReason-Nemotron-14B มีประสิทธิภาพเหนือกว่า OpenMath-14B/32B โดย 2.1%/4.4% ในเกณฑ์มาตรฐาน AIME และ OpenCodeReasoning-14B โดย 1.7%/0.8% ใน LiveCodeBench สิ่งนี้แสดงให้เห็นอย่างน่าเชื่อถือว่า RL สามารถบรรลุขอบเขตบนประสิทธิภาพที่สูงขึ้นกว่าวิธีการกลั่น ในขณะที่ยังคงรักษาประสิทธิภาพในการแข่งขันกับโมเดลแนวหน้าที่ทันสมัย เช่น QWQ-32B และ o3-mini
ผลกระทบของผลลัพธ์เหล่านี้มีความสำคัญ พวกเขาแนะนำว่า RL ขนาดใหญ่มีศักยภาพในการปลดล็อกระดับใหม่ของความสามารถในการใช้เหตุผลในโมเดล AI ซึ่งเหนือกว่าข้อจำกัดของแนวทางดั้งเดิม กลยุทธ์การฝึกอบรมเฉพาะโดเมนตามลำดับเมื่อรวมกับไปป์ไลน์การดูแลจัดการข้อมูลที่แข็งแกร่งให้พิมพ์เขียวสำหรับการวิจัยในอนาคตในด้านนี้
การเรียนรู้แบบเสริมกำลังขับเคลื่อนขีดจำกัดการใช้เหตุผล
การวิจัยนี้เน้นย้ำถึงศักยภาพที่สำคัญของการเรียนรู้แบบเสริมกำลังในการผลักดันขอบเขตของความสามารถในการใช้เหตุผลของโมเดล โดยการใช้การฝึกอบรมเฉพาะโดเมนอย่างมีกลยุทธ์และการดูแลจัดการข้อมูลคุณภาพสูงอย่างพิถีพิถัน สิ่งนี้จะช่วยให้โมเดล AI สามารถแก้ปัญหาที่ไม่สามารถแก้ไขได้ก่อนหน้านี้และสร้างเกณฑ์มาตรฐานใหม่สำหรับการพัฒนาโมเดลการใช้เหตุผล และนำไปสู่ระบบ AI รุ่นใหม่ที่สามารถจัดการกับความท้าทายในโลกแห่งความเป็นจริงด้วยความแม่นยำและประสิทธิภาพที่ไม่เคยมีมาก่อน ความสามารถในการใช้เหตุผลอย่างมีประสิทธิภาพเป็นรากฐานที่สำคัญของสติปัญญา และความก้าวหน้าที่ NVIDIA ประสบความสำเร็จเป็นก้าวสำคัญในการตระหนักถึงศักยภาพสูงสุดของปัญญาประดิษฐ์ การวิจัยในอนาคตมีแนวโน้มที่จะมุ่งเน้นไปที่การปรับขนาดเทคนิคเหล่านี้ให้เป็นโมเดลที่ใหญ่ขึ้นและสำรวจกลยุทธ์การดูแลจัดการข้อมูลใหม่ ๆ เพื่อปรับปรุงประสิทธิภาพการใช้เหตุผลต่อไป การพัฒนาฟังก์ชันรางวัลและกลยุทธ์การสำรวจที่ซับซ้อนมากขึ้นจะมีความสำคัญอย่างยิ่งต่อการเอาชนะความท้าทายที่เกี่ยวข้องกับการฝึกอบรมโมเดล AI สำหรับงานที่ซับซ้อน ที่สุดแล้ว เป้าหมายคือการสร้างระบบ AI ที่สามารถใช้เหตุผล เรียนรู้ และปรับตัวในลักษณะเดียวกับมนุษย์ ทำให้พวกเขาสามารถแก้ปัญหาที่ซับซ้อนและตัดสินใจอย่างชาญฉลาดในโดเมนที่หลากหลาย
นอกจากนี้ การใช้ RL ยังมีข้อดีนอกเหนือจากความแม่นยำดิบ ๆ ตัวแทน RL สามารถเรียนรู้ที่จะปรับให้เหมาะสมสำหรับวัตถุประสงค์ที่หลากหลาย เช่น ประสิทธิภาพ ความแข็งแกร่ง และความสามารถในการตีความ ตัวอย่างเช่น ตัวแทน RL สามารถรับการฝึกอบรมเพื่อสร้างโค้ดที่ไม่เพียงแต่ถูกต้อง แต่ยังมีประสิทธิภาพและเข้าใจง่ายอีกด้วย ความสามารถนี้มีความสำคัญอย่างยิ่งในการใช้งานที่สำคัญต่อความปลอดภัย ซึ่งจำเป็นอย่างยิ่งที่จะต้องตรวจสอบให้แน่ใจว่าระบบ AI มีความน่าเชื่อถือและคาดการณ์ได้
งานของ NVIDIA เน้นย้ำถึงความสำคัญที่เพิ่มขึ้นของการดูแลจัดการข้อมูลในการวิจัย AI คุณภาพของข้อมูลการฝึกอบรมมีผลกระทบอย่างมากต่อประสิทธิภาพของโมเดล AI และชุดข้อมูลที่ได้รับการดูแลจัดการอย่างรอบคอบเป็นสิ่งจำเป็นเพื่อให้ได้ผลลัพธ์ที่ทันสมัย ไปป์ไลน์การดูแลจัดการข้อมูลที่พัฒนาโดย NVIDIA เป็นแหล่งข้อมูลที่มีค่าสำหรับนักวิจัยที่ทำงานเกี่ยวกับโมเดลการใช้เหตุผล และสามารถปรับให้เข้ากับการใช้งานในโดเมนอื่น ๆ ได้เช่นกัน
การรวมกันของการ RL ขนาดใหญ่ การฝึกอบรมเฉพาะโดเมน และการดูแลจัดการข้อมูลที่แข็งแกร่งได้พิสูจน์แล้วว่าเป็นสูตรที่ประสบความสำเร็จในการปรับปรุงความสามารถในการใช้เหตุผลของโมเดล AI ในขณะที่เทคนิคเหล่านี้ยังคงพัฒนาอย่างต่อเนื่อง เราสามารถคาดหวังได้ว่าจะได้เห็นความก้าวหน้าที่น่าประทับใจยิ่งขึ้นในสาขา AI และเราหวังว่าจะได้เห็นความก้าวหน้าอย่างต่อเนื่องของโมเดล AI ในอนาคตอันใกล้นี้