Microsoft กำลังได้รับความนิยมในด้านโมเดล AI โอเพนซอร์ส โดยเฉพาะตระกูล Phi แม้ว่าจะไม่ได้รับการยอมรับอย่างกว้างขวางเหมือนกับการลงทุนใน OpenAI ก็ตาม ในบรรดาโมเดลเหล่านี้ Phi-4 Reasoning Plus โดดเด่น โดยแสดงให้เห็นถึงพลังของการเรียนรู้เสริมกำลัง (RL) ในการบรรลุผลลัพธ์ที่น่าทึ่งในการทดสอบมาตรฐาน
ชุด Phi ได้รับการออกแบบมาให้ประหยัดทรัพยากร โดยใช้พลังการประมวลผลและพื้นที่จัดเก็บน้อยกว่า ด้วยการวิจัยอย่างพิถีพิถันและเทคนิคการเพิ่มประสิทธิภาพ โมเดลเหล่านี้จึงเกินความคาดหมายอย่างต่อเนื่อง เอาชนะคู่แข่งได้ทั้งในระดับน้ำหนักของตนเอง และยังท้าทายโมเดลขนาดใหญ่กว่าอีกด้วย
โมเดล Phi-4 Reasoning ที่มีพารามิเตอร์ 14 พันล้านตัว ถูกสร้างขึ้นโดยการใช้ supervised fine-tuning (SFT) algorithm กับโมเดล Phi-4 พื้นฐาน จากการต่อยอดนี้ นักวิจัยได้พัฒนาโมเดล Phi-4 Reasoning Plus เพิ่มเติม โดยใช้ประโยชน์จากการเรียนรู้เสริมกำลัง (RL) บนรากฐาน Phi-4 Reasoning
สิ่งที่น่าทึ่งคือ ทั้งโมเดล Phi-4 Reasoning และ Phi-4 Reasoning Plus ได้แสดงให้เห็นถึงประสิทธิภาพที่เหนือกว่า เมื่อเทียบกับโมเดลขนาดใหญ่กว่าอย่างมีนัยสำคัญ เช่น DeepSeek R1 ซึ่งมีพารามิเตอร์ 70 พันล้านตัว ความสำเร็จนี้เห็นได้ชัดเจนเป็นพิเศษในการเปรียบเทียบมาตรฐานที่ครอบคลุมการเขียนโค้ด การแก้ปัญหาทางคณิตศาสตร์ และงานทางวิทยาศาสตร์ขั้นสูงในระดับบัณฑิตศึกษา ประสิทธิภาพของโมเดลยังเข้าใกล้โมเดล DeepSeek R1 ขนาดเต็ม 671 พันล้านพารามิเตอร์อีกด้วย
นักวิจัยของ Microsoft ให้เหตุผลว่าความสำเร็จของโมเดลนั้น มาจากการใช้ชุดข้อมูลการฝึกอบรมคุณภาพสูงเป็นหลัก ซึ่งเป็นกลยุทธ์ที่บริษัทใช้มาอย่างต่อเนื่องกับโมเดลก่อนหน้านี้ ชุดข้อมูลเหล่านี้ประกอบด้วยข้อความแจ้งที่คัดสรรมาอย่างพิถีพิถันกว่า 1.4 ล้านข้อความ ซึ่งครอบคลุมสาขาวิชาการเขียนโค้ดและความรู้พื้นฐานทาง ด้านวิทยาศาสตร์ เทคโนโลยี วิศวกรรม และคณิตศาสตร์ (Science, Technology, Engineering, and Mathematics - STEM) ข้อความแจ้งแต่ละข้อความมาพร้อมกับคำตอบที่สร้างขึ้นอย่างพิถีพิถัน โดยผสมผสานร่องรอยการให้เหตุผลที่ครอบคลุม ซึ่งสร้างโดยโมเดล o3-mini ของ OpenAI
เพื่อเพิ่มประสิทธิภาพกระบวนการฝึกอบรม นักวิจัยได้กำหนดเป้าหมายข้อความแจ้งที่ผลักดันขอบเขตของความสามารถของโมเดล Phi-4 พื้นฐานอย่างมีกลยุทธ์ ซึ่งเกี่ยวข้องกับการกรองชุดข้อมูลการฝึกอบรม เพื่อเก็บเฉพาะข้อความแจ้งที่เสนอโอกาสที่สำคัญสำหรับการปรับปรุง
เหตุผลเบื้องหลังประสิทธิภาพของ RL
การพัฒนา Phi-4 Reasoning Plus เกี่ยวข้องกับกระบวนการสองขั้นตอน: ขั้นแรก การได้มาซึ่ง Phi-4 Reasoning ผ่าน supervised fine-tuning (SFT) ของโมเดล Phi-4 พื้นฐาน ตามด้วยระยะการเรียนรู้เสริมกำลัง (RL) เพื่อให้ได้รับข้อมูลเชิงลึกที่ลึกซึ้งยิ่งขึ้นเกี่ยวกับองค์ประกอบ RL ของ Phi-4 Reasoning Plus การสื่อสารโดยตรงกับ Harkirat Behl นักวิจัยที่ Microsoft ซึ่งมีบทบาทสำคัญในด้านนี้ของโครงการ จึงเป็นสิ่งจำเป็น
การเรียนรู้เสริมกำลัง (RL) เป็นวิธีการฝึกอบรมที่ไม่เหมือนใคร โดยที่ระบบ AI เรียนรู้ผ่านการทดลอง AI ทำการตัดสินใจ ได้รับข้อเสนอแนะในรูปแบบของรางวัลหรือบทลงโทษ และปรับปรุงกระบวนการตัดสินใจซ้ำๆ เพื่อเพิ่มผลลัพธ์ที่เป็นที่ต้องการในระยะยาวให้สูงสุด แนวทางนี้เป็นประโยชน์อย่างยิ่งสำหรับงานที่ต้องการให้โมเดล AI มีส่วนร่วมในการ "ให้เหตุผล" เนื่องจากให้ความสำคัญกับการบรรลุผลลัพธ์ที่ต้องการมากกว่าการยึดมั่นในกระบวนการที่เข้มงวดและกำหนดไว้ล่วงหน้า
ต่างจากโมเดลแบบดั้งเดิมที่มุ่งเน้นเพียงการทำนายคำถัดไป และลงโทษโมเดลสำหรับแต่ละความไม่ถูกต้อง RL นำเสนอความยืดหยุ่นที่มากขึ้นในการได้มาซึ่งคำตอบ ความยืดหยุ่นนี้ช่วยให้โมเดลสำรวจปัญหาที่ซับซ้อนด้วยเส้นทางแก้ไขที่เป็นไปได้หลายเส้นทาง จนกระทั่งได้ข้อสรุปที่ถูกต้อง
ตามที่ Behl กล่าวไว้ RL ช่วยให้โมเดล "สร้างคำตอบที่ยาวมาก และคำตอบที่แตกต่างกันมากมาย" โดยเน้นที่ความแม่นยำของผลลัพธ์สุดท้ายเป็นหลัก การเน้นที่ผลลัพธ์มากกว่าขั้นตอนเฉพาะที่ดำเนินการ สะท้อนให้เห็นถึงวิธีการที่มนุษย์เข้าหาการแก้ปัญหา กระบวนการคิดที่แตกต่างกันเป็นที่ยอมรับได้ ตราบใดที่นำไปสู่คำตอบที่ถูกต้อง
ในโมเดลของ Microsoft ระยะ RL มุ่งเน้นไปที่การให้เหตุผลทางคณิตศาสตร์โดยเจตนา ระบบรางวัลกระตุ้นความแม่นยำ ในขณะเดียวกันก็ลงโทษการทำซ้ำ ความยาวที่มากเกินไป และการจัดรูปแบบการตอบสนองที่ไม่เหมาะสม
Behl อธิบายเพิ่มเติมว่านักวิจัยอนุญาตให้โมเดลสร้างคำตอบหลายคำตอบสำหรับคำถามที่กำหนด จากนั้นจึงให้คะแนนแต่ละคำตอบตามการเปรียบเทียบกับคะแนนเฉลี่ยภายในกลุ่มคำตอบที่สร้างขึ้น
คะแนนสัมพัทธ์เหล่านี้ทำหน้าที่เป็นกลไกป้อนกลับ นำทางโมเดลให้สนับสนุนคำตอบที่ได้รับคะแนนสูงกว่าอย่างสม่ำเสมอ เมื่อเวลาผ่านไป กระบวนการนี้จะฝึกฝนโมเดลให้ปรับการตอบสนองให้สอดคล้องกับสัญญาณรางวัลที่ต้องการมากขึ้น
นักวิจัยสังเกตว่าการใช้ RL กับปัญหาจำนวนจำกัด 6,400 ปัญหา นำไปสู่การปรับปรุงความแม่นยำอย่างมีนัยสำคัญในการประเมินทางคณิตศาสตร์และการให้เหตุผลต่างๆ
"หลังจากสร้าง Phi-1, Phi-2, Phi-3 และ Phi-4 ข้อคิดอย่างหนึ่งจากการวิจัยของฉันคือ RL ต้องการข้อมูลน้อยกว่าการฝึกอบรม SFT มาก" Behl กล่าว
เขาให้เหตุผลว่าสิ่งนี้เป็นเพราะ RL ไม่ได้เกี่ยวกับการถ่ายทอดทักษะใหม่ทั้งหมดให้กับโมเดลตั้งแต่เริ่มต้น แต่เกี่ยวกับการนำทางโมเดลให้รวมและใช้ประโยชน์จากทักษะที่มีอยู่อย่างมีประสิทธิภาพ เพื่อให้ได้ผลลัพธ์ที่ดีขึ้น
ความสำเร็จของ Microsoft กับการเรียนรู้เสริมกำลังสอดคล้องกับประสบการณ์ของบริษัท AI อื่นๆ อีกมากมาย OpenAI ผู้บุกเบิกในการพัฒนาโมเดลการให้เหตุผล ได้เน้นย้ำถึงผลกระทบที่ดีของ RL ต่อโครงการของตนซ้ำแล้วซ้ำเล่า
สิ่งที่น่าสนใจคือ DeepSeek R1 ซึ่งเป็นโมเดลจีนที่ขัดขวางภูมิทัศน์ AI เมื่อปีที่แล้ว ก็ให้เหตุผลว่าความสำเร็จส่วนหนึ่งมาจากการใช้ RL นอกจากนี้ นักวิจัยและวิศวกรหลายคนจาก OpenAI ได้ยอมรับต่อสาธารณชนถึงบทบาทสำคัญของ RL ในความสำเร็จของโครงการวิจัยเชิงลึกของพวกเขา
เมื่อเร็วๆ นี้ โมเดล Qwen ของ Alibaba ยังรับรองการเรียนรู้เสริมกำลัง โดยเน้นย้ำถึงผลกระทบที่สำคัญต่อโมเดลการให้เหตุผลของพวกเขา ในบล็อกโพสต์ บริษัทระบุว่า "เรามั่นใจว่าการรวมโมเดลพื้นฐานที่แข็งแกร่งขึ้นเข้ากับ RL ที่ขับเคลื่อนโดยทรัพยากรการคำนวณที่ปรับขนาด จะขับเคลื่อนเราให้เข้าใกล้การบรรลุ Artificial General Intelligence (AGI) มากยิ่งขึ้น"
อย่างไรก็ตาม แม้จะประสบความสำเร็จกับ Phi-4 Reasoning, Phi-4 Reasoning Plus และโมเดลการให้เหตุผลอื่นๆ อีกมากมาย แต่สาขายังคงเผชิญกับความท้าทายหลายประการ
การแสวงหาการปรับปรุงอย่างต่อเนื่อง
ในช่วงไม่กี่เดือนที่ผ่านมา งานวิจัยจำนวนมากได้ตอกย้ำถึงข้อจำกัดที่มีอยู่และข้อผิดพลาดที่อาจเกิดขึ้นของโมเดลการให้เหตุผล ตัวอย่างเช่น ในงานวิจัยเกี่ยวกับ Phi-4 Reasoning นักวิจัยของ Microsoft ยอมรับว่าพวกเขายังคงเผชิญกับความท้าทายที่เกี่ยวข้องกับการใช้เวลาและทรัพยากรที่มากเกินไป ระยะเวลาการตอบสนองที่ช้าลง และที่สำคัญที่สุดคือปัญหาการตอบสนองของโมเดลที่ขัดแย้งกับขั้นตอนการให้เหตุผลก่อนหน้าของตนเอง
ในการพัฒนาที่สำคัญอีกประการหนึ่ง Anthropic ได้เผยแพร่งานวิจัยที่เปิดเผยว่าห่วงโซ่การให้เหตุผล (มักเรียกว่า chain-of-thoughts หรือ CoTs) อาจไม่ได้สะท้อนกระบวนการให้เหตุผลที่แท้จริงของโมเดลอย่างสม่ำเสมอ นักวิจัยค้นพบว่าโมเดลมักใช้ประโยชน์จากคำแนะนำภายนอก เช่น สัญญาณที่ชัดเจนที่แทรกเข้าไปในข้อความแจ้งเพื่อนำทางพวกเขาไปสู่คำตอบที่ถูกต้อง แต่แทบจะไม่ยอมรับหรือกล่าวถึงคำแนะนำเหล่านี้ภายในขั้นตอนการให้เหตุผลที่ชัดเจนของพวกเขา ความคลาดเคลื่อนนี้ระหว่างพฤติกรรมภายในของโมเดลและคำอธิบายภายนอกของมันทำให้เกิดความกังวลเกี่ยวกับความน่าเชื่อถือของการใช้ CoTs เป็นเครื่องมือที่เชื่อถือได้สำหรับการตีความโมเดลและการรับรองความปลอดภัย
แม้แต่ OpenAI ก็ได้เผยแพร่รายงานการวิจัยที่เน้นย้ำถึงแนวโน้มของโมเดลการให้เหตุผลขั้นสูงในการมีส่วนร่วมใน "การแฮ็กรางวัล" การแฮ็กรางวัลหมายถึงสถานการณ์ที่ตัวแทน AI ใช้ประโยชน์จากช่องโหว่ที่ไม่คาดฝันหรือผลที่ไม่ตั้งใจภายในวัตถุประสงค์ที่กำหนดไว้เพื่อเพิ่มรางวัลให้สูงสุดในรูปแบบที่ไม่ตั้งใจหรือต้องการตั้งแต่แรก OpenAI ได้สำรวจกลยุทธ์สำหรับการบรรเทาผลกระทบนี้ เช่น การใช้โมเดลที่มีประสิทธิภาพน้อยกว่า (GPT-4o) เพื่อตรวจสอบโมเดลที่แข็งแกร่งกว่า เช่น o3-Mini แม้ว่าสิ่งนี้จะนำมาซึ่งความซับซ้อนและความเอนเอียงที่อาจเกิดขึ้น
Nat McAleese สมาชิกของเจ้าหน้าที่ด้านเทคนิคของ OpenAI เน้นย้ำว่า "โมเดลการให้เหตุผลขนาดใหญ่เก่งมากในการแฮ็กรางวัล" โดยอ้างถึงตัวอย่างที่คัดเลือกมาด้วยมือจากรายงานเพื่อแสดงให้เห็นถึงประเด็นนี้
"มีความซ้ำซ้อนมากมายในห่วงโซ่ของการให้เหตุผล พวกเขาขัดแย้งกันเอง และมีคำถามมากมายที่ยังไม่ได้ตอบ" Behl ให้ความเห็น "แต่มันเป็นพื้นที่ที่มีการพัฒนา หากเราสามารถตรึงสิ่งนี้ในฐานะชุมชน และทำความเข้าใจว่าโมเดลคิดอย่างไร จะมีกำไรมากมาย" อนาคตของโมเดลการให้เหตุผลขึ้นอยู่กับการแก้ไขความท้าทายเหล่านี้ผ่านการวิจัยและการทำงานร่วมกันอย่างต่อเนื่องภายในชุมชน AI