แนวทางใหม่ในการฝึกอบรมตัวแทน AI ที่น่าเชื่อถือ: RAGEN
ความคาดหวังเกี่ยวกับตัวแทน AI เพิ่มขึ้นในช่วงหลายปีที่ผ่านมา โดยผู้เชี่ยวชาญหลายคนคาดการณ์ว่าปี 2025 จะเป็นปีที่การใช้งาน AI เฉพาะงานเหล่านี้ ซึ่งขับเคลื่อนโดยภาษาขนาดใหญ่ขั้นสูงและแบบจำลองหลายรูปแบบ (LLM) จะเริ่มใช้งานจริง อย่างไรก็ตาม ความเป็นจริงก็คือตัวแทน AI ส่วนใหญ่ยังคงอยู่ในสถานะของการทดลอง ซึ่งพยายามที่จะเปลี่ยนจากห้องปฏิบัติการวิจัยไปสู่การใช้งานจริง
ตอนนี้ ความพยายามร่วมกันจากนักวิจัยจาก Northwestern University, Microsoft, Stanford และ University of Washington รวมถึงนักวิจัย DeepSeek อดีตชื่อ Zihan Wang ได้แนะนำระบบใหม่ที่เรียกว่า RAGEN กรอบงานใหม่นี้มีเป้าหมายเพื่อฝึกอบรมและประเมินตัวแทน AI ทำให้พวกเขามีความน่าเชื่อถือและยืดหยุ่นมากขึ้นสำหรับการใช้งานระดับองค์กรในทางปฏิบัติ
แตกต่างจากงาน AI แบบดั้งเดิมที่มุ่งเน้นไปที่ปัญหาคงที่ เช่น คณิตศาสตร์หรือการเขียนโค้ด RAGEN จัดการกับสถานการณ์โต้ตอบแบบหลายรอบ ซึ่งตัวแทนต้องปรับตัว เรียนรู้ และให้เหตุผลภายในสภาพแวดล้อมที่ไม่แน่นอน แนวทางนี้มีความสำคัญอย่างยิ่งสำหรับการพัฒนา AI ที่สามารถจัดการกับความซับซ้อนของสถานการณ์ในโลกแห่งความเป็นจริง
หัวใจสำคัญของ RAGEN คือกรอบงานการเรียนรู้แบบเสริมกำลัง (RL) ที่กำหนดเองที่รู้จักกันในชื่อ StarPO (State-Thinking-Actions-Reward Policy Optimization) ระบบนี้สำรวจว่า LLM สามารถเรียนรู้ผ่านประสบการณ์ได้อย่างไร แทนที่จะพึ่งพาการท่องจำเพียงอย่างเดียว StarPO มุ่งเน้นไปที่กระบวนการตัดสินใจทั้งหมด โดยพิจารณาไม่เพียงแต่การตอบสนองแต่ละรายการ แต่ยังรวมถึงวิถีการโต้ตอบทั้งหมด
StarPO ทำงานผ่านสองขั้นตอนที่แตกต่างกันซึ่งทำงานร่วมกัน ขั้นตอนแรกที่เรียกว่าขั้นตอนการโรลเอาต์ (rollout) เกี่ยวข้องกับการสร้างลำดับการโต้ตอบที่สมบูรณ์โดย LLM โดยมีคำแนะนำจากการให้เหตุผล ขั้นตอนที่สอง ขั้นตอนการอัปเดต ปรับแบบจำลองให้เหมาะสมโดยใช้รางวัลสะสมที่เป็นมาตรฐาน โครงสร้างนี้สร้างวงจรการเรียนรู้ที่เสถียรและโปร่งใสมากขึ้นเมื่อเทียบกับวิธีการปรับปรุงนโยบายมาตรฐาน
นักวิจัยได้นำไปใช้และทดสอบกรอบงานอย่างเข้มงวดโดยใช้เวอร์ชันที่ปรับแต่งอย่างละเอียดของโมเดล Qwen ของ Alibaba โดยเฉพาะ Qwen 1.5 และ Qwen 2.5 โมเดลเหล่านี้ได้รับการคัดเลือกสำหรับน้ำหนักที่เปิดอยู่และความสามารถในการปฏิบัติตามคำแนะนำได้อย่างมีประสิทธิภาพ ซึ่งช่วยให้สามารถทำซ้ำได้และการเปรียบเทียบเกณฑ์มาตรฐานที่สอดคล้องกันในงานสัญลักษณ์ต่างๆ
การเอาชนะ ‘Echo Trap’: Reinforcement Learning และ Reasoning Loss
Zihan Wang เน้นถึงความท้าทายหลักในเธรด X ที่แชร์กันอย่างแพร่หลาย: “ทำไมการฝึก RL ของคุณถึงพังทลายลงเสมอ?” ตามที่ทีมระบุ ตัวแทน LLM สร้างการตอบสนองเชิงสัญลักษณ์ที่มีเหตุผลที่ดีในขั้นต้น อย่างไรก็ตาม ระบบ RL มีแนวโน้มที่จะให้รางวัลแก่ทางลัดเมื่อเวลาผ่านไป ซึ่งนำไปสู่พฤติกรรมซ้ำๆ ที่ลดประสิทธิภาพโดยรวมลงในที่สุด ปรากฏการณ์นี้คือสิ่งที่พวกเขาเรียกว่า ‘Echo Trap’
การถดถอยนี้เกิดขึ้นเนื่องจากวงจรป้อนกลับที่วลีหรือกลยุทธ์บางอย่างให้ผลตอบแทนสูงตั้งแต่เนิ่นๆ ซึ่งนำไปสู่การใช้งานมากเกินไปและขัดขวางการสำรวจแนวทางใหม่ Wang ชี้ให้เห็นว่าสิ่งนี้สามารถวัดปริมาณได้ โดยมีการวัดความแปรปรวนของรางวัล ความชันของการไล่ระดับสี และการหายไปของร่องรอยการให้เหตุผล
ในการตรวจสอบพฤติกรรมเหล่านี้ในการตั้งค่าที่มีการควบคุม RAGEN ใช้สภาพแวดล้อมเชิงสัญลักษณ์สามแบบ:
- Bandit: นี่คืองาน stochastic แบบรอบเดียวที่ประเมินการให้เหตุผลเชิงสัญลักษณ์เกี่ยวกับความเสี่ยงและผลตอบแทน
- Sokoban: ปริศนา deterministic แบบหลายรอบที่เกี่ยวข้องกับการตัดสินใจที่ไม่สามารถย้อนกลับได้
- Frozen Lake: นี่คืองาน stochastic แบบหลายรอบที่ต้องการการวางแผนที่ปรับเปลี่ยนได้
แต่ละสภาพแวดล้อมได้รับการออกแบบอย่างพิถีพิถันเพื่อลดอคติในโลกแห่งความเป็นจริง โดยมุ่งเน้นไปที่กลยุทธ์การตัดสินใจที่เกิดขึ้นระหว่างการฝึกอบรมแทน
ในสภาพแวดล้อม Bandit ตัวอย่างเช่น ตัวแทนจะได้รับแจ้งว่าอาร์ม ‘Dragon’ และ ‘Phoenix’ แสดงถึงการกระจายรางวัลที่แตกต่างกัน แทนที่จะให้ความน่าจะเป็นโดยตรง ตัวแทนจะต้องให้เหตุผลเชิงสัญลักษณ์ โดยตีความ ‘Dragon’ ว่าเป็น ‘ความแข็งแกร่ง’ และ ‘Phoenix’ ว่าเป็น ‘ความหวัง’ เพื่อทำนายผลลัพธ์ การตั้งค่าแบบนี้ส่งเสริมให้แบบจำลองสร้างการให้เหตุผลเชิงเปรียบเทียบที่อธิบายได้
ทำให้ Reinforcement Learning มีเสถียรภาพด้วย StarPO-S
เพื่อแก้ไขปัญหาการล่มสลายของการฝึกอบรม นักวิจัยได้พัฒนา StarPO-S ซึ่งเป็นเวอร์ชันที่มีเสถียรภาพของกรอบงานเดิม StarPO-S ผสมผสานการแทรกแซงหลักสามประการ:
- การกรองโรลเอาต์ตามความไม่แน่นอน: สิ่งนี้จัดลำดับความสำคัญของโรลเอาต์ที่ตัวแทนแสดงให้เห็นถึงความไม่แน่นอนเกี่ยวกับผลลัพธ์
- การลบค่าปรับ KL: อนุญาตให้แบบจำลองเบี่ยงเบนไปจากนโยบายเดิมได้อย่างอิสระมากขึ้นและสำรวจพฤติกรรมใหม่ๆ
- Asymmetric PPO clipping: สิ่งนี้ขยายวิถีที่มีรางวัลสูงมากกว่าวิถีที่มีรางวัลต่ำเพื่อเพิ่มประสิทธิภาพการเรียนรู้
การปรับเปลี่ยนเหล่านี้ชะลอหรือกำจัดการล่มสลายของการฝึกอบรม นำไปสู่ประสิทธิภาพที่ดีขึ้นในทั้งสามงาน ตามที่ Wang กล่าวว่า “StarPO-S… ทำงานได้ดีในทั้ง 3 งาน บรรเทาการล่มสลาย รางวัลที่ดีกว่า”
ความสำเร็จของการฝึกอบรม RL ไม่เพียงขึ้นอยู่กับสถาปัตยกรรมเท่านั้น แต่ยังขึ้นอยู่กับคุณภาพของข้อมูลที่สร้างโดยตัวแทนเองด้วย ทีมงานระบุสามมิติที่สำคัญซึ่งส่งผลกระทบอย่างมากต่อการฝึกอบรม:
- ความหลากหลายของงาน: การเปิดเผยแบบจำลองต่อสถานการณ์เริ่มต้นที่หลากหลายช่วยเพิ่มประสิทธิภาพในการทั่วไป
- รายละเอียดการโต้ตอบ: การอนุญาตให้ดำเนินการหลายอย่างต่อรอบทำให้การวางแผนมีความหมายมากขึ้น
- ความสดใหม่ของโรลเอาต์: การทำให้ข้อมูลการฝึกอบรมสอดคล้องกับนโยบายแบบจำลองปัจจุบันจะหลีกเลี่ยงสัญญาณการเรียนรู้ที่ล้าสมัย
ปัจจัยเหล่านี้รวมกันทำให้กระบวนการฝึกอบรมมีความเสถียรและมีประสิทธิภาพมากขึ้น
เปิดเผยกระบวนการคิดของตัวแทน
ไซต์สาธิตแบบโต้ตอบที่สร้างขึ้นโดยนักวิจัยบน GitHub แสดงภาพโรลเอาต์ของตัวแทนเป็นการสนทนาแบบเต็มรูปแบบ โดยเผยให้เห็นไม่เพียงแต่การดำเนินการที่ทำ แต่ยังรวมถึงกระบวนการคิดทีละขั้นตอนเบื้องหลังพวกเขาด้วย
ตัวอย่างเช่น เมื่อแก้ปัญหาทางคณิตศาสตร์ ตัวแทนอาจ ‘คิด’ ก่อนเกี่ยวกับการแยกตัวแปรออกจากกันก่อนที่จะส่งคำตอบเช่น ‘x = 5’ ความคิดระหว่างกลางเหล่านี้สามารถมองเห็นและติดตามได้ ซึ่งให้ความโปร่งใสเกี่ยวกับวิธีการที่ตัวแทนตัดสินใจ
ในขณะที่การให้เหตุผลอย่างชัดเจนปรับปรุงประสิทธิภาพในงานง่ายๆ แบบรอบเดียว เช่น Bandit แต่มีแนวโน้มที่จะลดลงระหว่างการฝึกอบรมแบบหลายรอบ แม้จะใช้พรอมต์และโทเค็นที่มีโครงสร้าง ร่องรอยการให้เหตุผลมักจะหดตัวหรือหายไปเว้นแต่จะได้รับรางวัลอย่างชัดเจน
สิ่งนี้เน้นถึงข้อจำกัดในการออกแบบรางวัลแบบดั้งเดิม: การมุ่งเน้นไปที่การทำงานให้เสร็จสิ้นอาจมองข้ามคุณภาพของกระบวนการไป ทีมงานได้ทดลองใช้ค่าปรับตามรูปแบบเพื่อส่งเสริมการให้เหตุผลที่มีโครงสร้างที่ดีขึ้น แต่ยอมรับว่าการปรับรูปร่างรางวัลที่ละเอียดยิ่งขึ้นน่าจะเป็นสิ่งจำเป็น
เครื่องมือโอเพนซอร์สสำหรับการพัฒนาตัวแทน AI
RAGEN พร้อมด้วยกรอบงาน StarPO และ StarPO-S พร้อมใช้งานแล้วในรูปแบบโครงการโอเพนซอร์ส สิ่งนี้เป็นรากฐานที่สำคัญสำหรับผู้ที่สนใจในการพัฒนาตัวแทน AI ที่ไม่เพียงแต่ทำงานให้เสร็จสิ้น แต่ยังคิด วางแผน และพัฒนาด้วย
ในขณะที่ AI ก้าวหน้าไปสู่ความเป็นอิสระที่มากขึ้น โครงการอย่าง RAGEN ก็ให้ความกระจ่างว่าต้องทำอย่างไรในการฝึกอบรมแบบจำลองที่เรียนรู้จากทั้งข้อมูลและผลที่ตามมาจากการกระทำของตนเอง
คำถามสำคัญสำหรับการใช้งานจริง
ในขณะที่เอกสาร RAGEN ให้กรอบทางเทคนิคโดยละเอียด คำถามเชิงปฏิบัติหลายข้อยังคงอยู่สำหรับผู้ที่กำลังพิจารณาการใช้งานในสภาพแวดล้อมระดับองค์กร ตัวอย่างเช่น แนวทางของ RAGEN แปลงไปได้ดีเพียงใดเกินกว่างานสัญลักษณ์ที่มีสไตล์เหล่านี้ บริษัทจะต้องสร้างสภาพแวดล้อมและฟังก์ชันรางวัลใหม่ทั้งหมดเพื่อใช้ระบบนี้ในเวิร์กโฟลว์ เช่น การประมวลผลใบแจ้งหนี้หรือการสนับสนุนลูกค้าหรือไม่
ข้อพิจารณาที่สำคัญอีกประการหนึ่งคือความสามารถในการปรับขนาด แม้ว่าจะมี