ปฏิวัติการใช้เครื่องมือ LLM: Nemotron-Tool-N1

การปฏิวัติการใช้เครื่องมือ LLM: แนวทางการเสริมกำลังการเรียนรู้ของ Nemotron-Tool-N1

การผสานรวม Large Language Models (LLMs) กับเครื่องมือภายนอกได้กลายเป็นกลยุทธ์การเปลี่ยนแปลง ปลดล็อกความสามารถที่ไม่เคยมีมาก่อนในหลากหลายแอปพลิเคชัน อย่างไรก็ตาม ระเบียบวิธีแบบดั้งเดิมส่วนใหญ่พึ่งพาการสร้างชุดข้อมูลสังเคราะห์จำนวนมากของสถานการณ์การใช้เครื่องมือ ตามด้วย Supervised Fine-Tuning (SFT) เพื่อให้ LLM มีความสามารถในการใช้เครื่องมือเหล่านี้อย่างมีประสิทธิภาพ ข้อจำกัดพื้นฐานของแนวทางนี้คือความไม่สามารถของชุดข้อมูลสังเคราะห์ในการแสดงกระบวนการให้เหตุผลที่ซับซ้อนที่เกี่ยวข้องกับการใช้เครื่องมือได้อย่างแม่นยำ ส่งผลให้เกิดการเรียนรู้ผิวเผินและการขาดความเข้าใจที่แท้จริง บ่อยครั้งที่ขั้นตอนการให้เหตุผลที่จำเป็นจะขาดหายไปโดยสิ้นเชิงระหว่างการฝึกอบรม หรือถูกลดทอนลงไปสู่การอนุมานผ่านเทคนิคการกระตุ้นที่ซับซ้อน นี่เป็นการนำเสนอปรากฏการณ์ของ "การให้เหตุผลเทียม" ซึ่งแบบจำลองแทนที่จะเข้าใจกลไกการตัดสินใจที่เป็นรากฐาน เพียงแค่เลียนแบบรูปแบบระดับพื้นผิว

การจัดการกับข้อจำกัดของการฝึกอบรมการใช้เครื่องมือแบบดั้งเดิม

ความพยายามในการวิจัยที่มีอยู่เพื่อเพิ่มขีดความสามารถในการใช้เครื่องมือของ LLM ได้สำรวจวิธีการที่หลากหลาย โดยเน้นที่สองกลยุทธ์หลัก ได้แก่ การดูแลจัดการชุดข้อมูลและการปรับปรุงแบบจำลอง และการปรับปรุงการให้เหตุผล

การดูแลจัดการชุดข้อมูลและการปรับปรุงแบบจำลอง: แนวทางนี้เกี่ยวข้องกับการสร้างชุดข้อมูลภายใต้การดูแลขนาดใหญ่ ควบคู่ไปกับเทคนิคการฝึกอบรมขั้นสูง เช่น SFT และ DPO (Direct Preference Optimization) reinforcement learning LLM ได้รับการเสริมด้วยเครื่องมือภายนอกที่หลากหลาย รวมถึงเครื่องมือค้นหา เครื่องคิดเลข เครื่องมือการมองเห็น และ Python interpreters เพื่อขยายขีดความสามารถในการทำงานของพวกเขาอย่างมีนัยสำคัญ กลยุทธ์นี้เน้นย้ำถึงความสำคัญของการให้ LLM มีตัวอย่างมากมาย และปรับปรุงความสามารถในการสรุปจากตัวอย่างเหล่านี้ อย่างไรก็ตาม ความท้าทายอยู่ที่ข้อจำกัดของข้อมูลสังเคราะห์

การปรับปรุงการให้เหตุผล: ตระหนักถึงข้อบกพร่องของการพึ่งพาชุดข้อมูลขนาดใหญ่อย่างเดียว นักวิจัยยังได้มุ่งเน้นไปที่กลยุทธ์สำหรับการปรับปรุงความสามารถในการให้เหตุผลของ LLM ซึ่งเกี่ยวข้องกับการเปลี่ยนจากการปรับขนาดเวลาฝึกอบรมแบบดั้งเดิมไปสู่กลยุทธ์การปรับขนาดเวลาทดสอบที่ซับซ้อนยิ่งขึ้น วิธีการก่อนหน้านี้มักจะอาศัยการกำกับดูแลระดับขั้นตอน และเรียนรู้แบบจำลองรางวัลเพื่อนำทางการให้เหตุผล วิธีการเหล่านี้มีจุดมุ่งหมายเพื่อให้แบบจำลองสัมผัสกับกระบวนการให้เหตุผลด้วยตนเอง ส่งเสริมความเข้าใจที่ลึกซึ้งยิ่งขึ้นเกี่ยวกับเหตุผลเบื้องหลังการเลือกและการใช้เครื่องมือ

Nemotron-Tool-N1: การเปลี่ยนแปลงกระบวนทัศน์ในการใช้เครื่องมือ LLM

นักวิจัยที่ NVIDIA, Pennsylvania State University และ University of Washington ได้เปิดตัว Nemotron-Research-Tool-N1 series ซึ่งเป็นแนวทางที่เป็นนวัตกรรมใหม่ที่ออกแบบมาเพื่อเอาชนะข้อจำกัดของวิธีการใช้เครื่องมือที่มีอยู่ แตกต่างจากเทคนิค SFT แบบดั้งเดิมและการกลั่นร่องรอยการให้เหตุผล Nemotron-Research-Tool-N1 ใช้กระบวนทัศน์ reinforcement learning (RL) ที่ไม่เหมือนใคร แรงบันดาลใจจากความสำเร็จของ DeepSeek-R1 แนวทางนี้ใช้ วิธีการกำกับดูแลน้ำหนักเบา เน้นที่การประเมินความถูกต้องของโครงสร้างและความถูกต้องในการทำงานของการเรียกใช้เครื่องมือ แบบจำลอง Nemotron-Research-Tool-N1 ใช้กลไกรางวัลแบบไบนารีที่ช่วยให้แบบจำลองสามารถพัฒนากลยุทธ์การให้เหตุผลได้ด้วยตนเอง โดยไม่ต้องอาศัยการอธิบายร่องรอยการให้เหตุผลอย่างชัดเจน

แนวทางนี้แสดงถึงการเปลี่ยนแปลงครั้งสำคัญจากระเบียบวิธีแบบเดิมๆ ซึ่งนำเสนอศักยภาพสำหรับความสามารถในการใช้เครื่องมือที่แข็งแกร่งและเป็นสากลมากขึ้น การมุ่งเน้นไปที่ความถูกต้องของการเรียกใช้เครื่องมือมากกว่าการกำหนดขั้นตอนการให้เหตุผลอย่างชัดเจน ทำให้แบบจำลองได้รับการสนับสนุนให้สำรวจและเรียนรู้กลยุทธ์การให้เหตุผลที่เหมาะสมที่สุดด้วยตนเอง

การเตรียมข้อมูลและสถาปัตยกรรมแบบจำลอง

นักวิจัยได้รวมและประมวลผลข้อมูลล่วงหน้าจากชุดข้อมูลการเรียกใช้เครื่องมือที่มีอยู่ รวมถึง xLAM และส่วนย่อยของ ToolACE ซึ่งให้ทั้งร่องรอยการเรียกใช้เครื่องมือสังเคราะห์แบบ single-turn และ multi-turn เพื่อแนะนำการสร้างการเรียกใช้เครื่องมือ สร้างเทมเพลตการกระตุ้นน้ำหนักเบา ซึ่งมีคำแนะนำที่ชัดเจนสำหรับการให้เหตุผลขั้นกลางภายในแท็ก <think>…</think> และการเรียกใช้เครื่องมือที่อยู่ในแท็ก <tool_call>…</tool_call> เทมเพลตนี้ได้รับการออกแบบมาเพื่อลดข้อจำกัดในการจัดรูปแบบที่เข้มงวด และลดความเสี่ยงของการปรับมากเกินไปสำหรับรูปแบบการกระตุ้นที่เฉพาะเจาะจง

แบบจำลองแบ็กโบนหลักที่ใช้ในการวิจัยนี้คือ Qwen2.5-7B/14B-Instruct เพื่อประเมินความสามารถในการสรุปของวิธีการที่นำเสนอ การประเมินยังดำเนินการกับแบบจำลองแบ็กโบนอื่น ๆ รวมถึงตัวแปรหลายตัวจากตระกูล LLaMA การประเมินที่เข้มงวดนี้ในสถาปัตยกรรมแบบจำลองที่แตกต่างกัน ทำให้มั่นใจได้ถึงความแข็งแกร่งและการใช้งานของแนวทาง Nemotron-Tool-N1

การเปรียบเทียบประสิทธิภาพ: BFCL และ API-Bank

ประสิทธิภาพของ Nemotron-Research-Tool-N1 ได้รับการประเมินอย่างเข้มงวดโดยใช้เกณฑ์มาตรฐาน BFCL และ API-Bank ผลลัพธ์แสดงให้เห็นถึงประสิทธิภาพที่เหนือกว่าของแบบจำลอง Nemotron-Research-Tool-N1 เมื่อเทียบกับวิธีการที่มีอยู่

BFCL Benchmark: ในเกณฑ์มาตรฐาน BFCL แบบจำลอง Tool-N1-7B/14B แสดงให้เห็นถึงประสิทธิภาพที่เหนือกว่าแบบจำลอง closed-source เช่น GPT-4o และแบบจำลอง fine-tuned เฉพาะทาง เช่น xLAM-2-70B และ ToolACE-8B นอกจากนี้ แบบจำลองยังทำงานได้ดีกว่า SFT baselines ที่ได้รับการฝึกอบรมจากแหล่งข้อมูลที่เหมือนกัน โดยเน้นถึงประสิทธิภาพของแนวทาง RL สไตล์ R1 ที่ใช้ใน Nemotron-Research-Tool-N1 เกณฑ์มาตรฐานนี้เน้นถึงความถนัดของแบบจำลองในการปรับตัวในสถานการณ์ที่ต้องการการให้เหตุผลที่ซับซ้อนและการใช้เครื่องมือ BFCL (Big Five Command Lines) benchmark มุ่งเน้นไปที่การประเมินความสามารถของ LLM ในการทำความเข้าใจและดำเนินการตามคำแนะนำบรรทัดคำสั่งที่ซับซ้อน ซึ่งต้องใช้การให้เหตุผลและการใช้เครื่องมือในระดับสูง

API-Bank Benchmark: API-Bank benchmark ยังตรวจสอบความถูกต้องของผลลัพธ์เหล่านี้เพิ่มเติม โดย Tool-N1-7B/14B ให้ความแม่นยำสูงกว่า GPT-4o 4.12% และ 5.03% เกณฑ์มาตรฐานนี้ประเมินความเชี่ยวชาญของ LLM ในการใช้ API (Application Programming Interfaces) ต่างๆ เพื่อทำงานที่เฉพาะเจาะจง การปรับปรุงที่ Nemotron-Research-Tool-N1 ได้รับในเกณฑ์มาตรฐานนี้ ตอกย้ำถึงศักยภาพของวิธีการในการเพิ่มขีดความสามารถในการเรียกใช้เครื่องมือของ large language models ผ่านกระบวนทัศน์ reinforcement learning ที่แปลกใหม่

การปรับปรุงที่สอดคล้องกันในทั้งสองเกณฑ์มาตรฐาน แสดงให้เห็นถึงประสิทธิภาพของแนวทาง Nemotron-Research-Tool-N1 ในการเพิ่มขีดความสามารถในการใช้เครื่องมือของ LLM การมุ่งเน้นไปที่แนวทาง RL ที่อิงตามกฎเกณฑ์ และการเปิดใช้งานแบบจำลองเพื่อพัฒนากลยุทธ์การให้เหตุผลของตนเอง Nemotron-Research-Tool-N1 ปลดล็อกศักยภาพสำหรับ language models ที่ปรับตัวได้และชาญฉลาดมากขึ้น

นวัตกรรมที่สำคัญของ Nemotron-Tool-N1

การมีส่วนร่วมหลักของ Nemotron-Research-Tool-N1 มาจากแนวทางใหม่ในการเพิ่มประสิทธิภาพการใช้เครื่องมือใน LLM แทนที่จะพึ่งพาวิธีการ SFT มาตรฐาน แต่จะรวมกรอบ RL ที่อิงตามกฎเกณฑ์ที่ไม่เหมือนใคร หัวใจหลักของสถาปัตยกรรมคือกลไกรางวัลแบบไบนารี่ที่มุ่งเน้นไปที่การประเมินความถูกต้องของโครงสร้างและความถูกต้องในการทำงานของการเรียกใช้เครื่องมือ แนวทางนี้ช่วยให้แบบจำลองสร้างกลยุทธ์การให้เหตุผลได้อย่างอิสระ โดยไม่จำเป็นต้องมีเส้นทางการให้เหตุผลที่มีคำอธิบายประกอบไว้อย่างระมัดระวังล่วงหน้า

ข้อดีของ Nemotron-Research-Tool-N1 มีหลายประการ ข้อมูลการฝึกอบรมสำหรับการใช้เครื่องมือโดยทั่วไปจะไม่รวมถึงการให้เหตุผลที่ชัดเจน ระบบรางวัลจะเพิ่มขีดความสามารถของแบบจำลองโดยการค้นหาความสัมพันธ์ระหว่างเครื่องมือกับปัญหาด้วยตนเอง นอกจากนี้ RL ยังช่วยปรับปรุงความสามารถในการสรุป เนื่องจากแบบจำลองต้องปรับตัวให้เข้ากับสถานการณ์ที่แตกต่างกัน

Nemotron-Research-Tool-N1 มีแม่แบบที่แข็งแกร่งในการรวมการให้เหตุผลภายในแท็กพิเศษ (think และ /think) เช่นเดียวกับการเรียกใช้เครื่องมือ (tool_call และ /tool_call) การทำเช่นนี้ Nemotron-Research-Tool-N1 จะลดความเสี่ยงจากแบบจำลองที่ปรับมากเกินไปสำหรับรูปแบบของพรอมต์

ความสามารถในการเรียกใช้เครื่องมือได้สำเร็จได้รับการประเมินในสองเกณฑ์มาตรฐาน ซึ่งเน้นถึงความสามารถของ Nemotron-Research-Tool-N1:

  • Big Five Command Lines (BFCL): BFCL เน้นถึงความจำเป็นที่ LLM ต้องเข้าใจและดำเนินการตามคำแนะนำบรรทัดคำสั่งที่ซับซ้อน Nemotron-Research-Tool-N1 เก่งในด้านนี้ด้วยวิธีการ reinforcement learning
  • API-Bank Benchmark: API-Bank benchmark ยืนยันผลลัพธ์เหล่านี้แล้ว แบบจำลองมีอัตราความแม่นยำสูงกว่า GPT-4o 4.12% และ 5.03%

การวิเคราะห์เปรียบเทียบกับแนวทางที่มีอยู่

Nemotron-Research-Tool-N1 แสดงให้เห็นถึงการปรับปรุงที่สำคัญเหนือวิธีการ fine-tuning ที่มีอยู่สำหรับการใช้เครื่องมือ Fine-tuning มักจะต้องใช้ข้อมูลที่ได้รับการดูแลจัดการอย่างระมัดระวังจำนวนมาก และมักจะนำไปสู่การที่แบบจำลองเลียนแบบรูปแบบที่มีอยู่ ในฐานะที่เป็นวิธีการ reinforcement learning Nemotron-Research-Tool-N1 แบบจำลองสามารถสร้างกลยุทธ์การให้เหตุผลได้อย่างอิสระ และยังช่วยลดการพึ่งพาชุดข้อมูลเฉพาะ Nemotron มีประสิทธิภาพเหนือกว่าเกณฑ์มาตรฐานที่มีอยู่โดยไม่มีความท้าทายเดียวกันกับที่วิธีการที่มีอยู่ประสบ

เกณฑ์มาตรฐานหลายอย่างพิสูจน์การปรับปรุงนี้ BFCL benchmark แสดงให้เห็นโดยตรงว่าแบบจำลอง tool-N1 ปรับปรุงแนวทางที่มีอยู่ นอกจากนี้ยังปรับปรุงระบบโอเพนซอร์ส เช่น xLAM-2-70B และ ToolACE-8B และมีประสิทธิภาพเหนือกว่าแบบจำลอง closedsource เช่น GPT-4o API-Bank benchmark ตรวจสอบความถูกต้องของผลลัพธ์เหล่านี้ ซึ่งแสดงให้เห็นว่าสามารถเพิ่มความแม่นยำได้อย่างมากเมื่อปรับปรุงการเรียกใช้เครื่องมือใน language models ที่มีอยู่

ผลกระทบและทิศทางในอนาคต

นักวิจัยได้เปิดตัว Nemotron-Research-Tool-N1 ซึ่งเป็นการพัฒนาที่สำคัญในเครื่องมือ LLM การวิจัยแสดงให้เห็นถึงการเปลี่ยนแปลงจากวิธีการ SFT แบบดั้งเดิมโดยการใช้ วิธี RL ที่อิงตามกฎเกณฑ์ที่ทันสมัย วิธีการที่แนะนำช่วยให้แบบจำลองสามารถกำหนดกลวิธีในการให้เหตุผลที่ละเอียดอ่อนได้ โดยทั้งหมดนี้ไม่ได้ขึ้นอยู่กับเส้นทางการให้เหตุผลที่มีคำอธิบายประกอบโดยเฉพาะ ความสามารถของวิธีการนี้แสดงให้เห็นผ่านการประเมินเกณฑ์มาตรฐานที่มีประสิทธิภาพใน BFCL และ API-Bank นอกจากนี้ยังแสดงการปรับปรุงประสิทธิภาพที่วัดได้เมื่อเทียบกับ baselines ปัจจุบัน สิ่งนี้เปิดโอกาสสำหรับ language models ที่ปรับตัวได้และชาญฉลาดมากขึ้น ซึ่งสร้างกลยุทธ์การให้เหตุผลด้วยตนเอง

ผลการวิจัยเปิดช่องทางใหม่สำหรับการพัฒนา language models ที่ปรับตัวได้และชาญฉลาดมากขึ้น การใช้กลไกรางวัลแบบไบนารีจะทำให้ language models สามารถแสดงและมีประสิทธิภาพมากขึ้นในแอปพลิเคชันในโลกแห่งความเป็นจริงหลายอย่าง Nemotron-Research-Tool-N1 จะนำไปสู่การให้เหตุผลอัตโนมัติมากขึ้น ซึ่งจะปรับปรุงขีดความสามารถในการใช้เครื่องมือของ language models

การวิจัยแสดงให้เห็นถึงกระบวนทัศน์ใหม่ในเครื่องมือ LLM นอกจากนี้ยังเน้นทิศทางใหม่ว่า language models ในอนาคตถูกสร้างขึ้นอย่างไร การมุ่งเน้นไปที่ระบบอัตโนมัติในการให้เหตุผลจะมีความสำคัญอย่างยิ่งในการมี language models ที่ชาญฉลาดมากขึ้นในอนาคต