Phi-4: โมเดลเล็กจิ๋วแต่แจ๋ว Microsoft

การผงาดขึ้นของโมเดล Phi-4 Reasoning

โลกของ AI กำลังให้ความสนใจกับโมเดลที่เน้นการให้เหตุผล และ Microsoft ได้เปิดตัวตระกูลโมเดล inference ที่ชื่อว่า Phi-4 ซึ่งประกอบด้วย Phi-4-reasoning, Phi-4-reasoning-plus และ Phi-4-mini-reasoning สิ่งที่น่าสนใจเป็นพิเศษคือ แม้แต่โมเดลที่ใหญ่ที่สุดในกลุ่มนี้ ซึ่งมีพารามิเตอร์เพียง 14 พันล้าน ก็สามารถทำงานได้อย่างราบรื่นบนแล็ปท็อปประสิทธิภาพสูง นอกจากนี้ Phi-4-mini-reasoning ที่มีพารามิเตอร์ 3.8 พันล้าน ยังเหนือกว่าโมเดล DeepSeek-R1 distilled ที่มีพารามิเตอร์ 8 พันล้าน ในด้านการให้เหตุผลทางคณิตศาสตร์ ซึ่งเน้นย้ำถึงพลังของโมเดลขนาดเล็กในงาน inference

แทนที่จะรอการเปิดตัวโมเดล DeepSeek-R2 reasoning รุ่นที่สองในเดือนเมษายน Microsoft ได้เปิดตัวซีรีส์ใหม่ของโมเดล Phi-4 reasoning โมเดลเหล่านี้แสดงให้เห็นถึงประสิทธิภาพที่ยอดเยี่ยมในการให้เหตุผลทางคณิตศาสตร์ เหนือกว่าโมเดล DeepSeek-R1 distilled แม้ว่า Phi-4-Mini-Reasoning จะมีขนาดพารามิเตอร์ที่เล็กกว่า

Ahmed Awadallah, Partner Research Manager ที่ Microsoft AI Frontiers laboratory ได้อธิบายถึง Phi-4-reasoning และสรุปคุณสมบัติของโมเดลใหม่ดังนี้

  • โมเดลได้รับการฝึกฝนด้วย Supervised Fine-tuning (โดยใช้ชุดข้อมูลตัวอย่างการให้เหตุผลที่คัดเลือกมาอย่างดี) และ Reinforcement Learning
  • มีประสิทธิภาพที่ดีใน benchmarks การ inference และสามารถเทียบเคียงได้กับโมเดลขนาดใหญ่ชั้นนำ เช่น DeepSeek R1
  • ยังคงทำงานได้ดีในการทดสอบใหม่ ๆ (เช่น AIME 2025, HMMT)
  • ความสามารถในการให้เหตุผลมีความสามารถในการถ่ายโอน/การ generalization ที่แข็งแกร่ง แม้หลังจากการ supervised fine-tuning เพียงอย่างเดียว ก็สามารถปรับตัวเข้ากับงานใหม่ ๆ ได้ (เช่น k-SAT, การแก้สมการทางคณิตศาสตร์, การจัดตารางเวลา ฯลฯ)
  • ยังคงรักษาและปรับปรุงความสามารถทั่วไปอย่างมาก (เช่น ความเข้าใจและการดำเนินการตามคำสั่ง)

เขากล่าวว่า Phi-4 ยังมีหลายด้านที่ต้องปรับปรุง โดยเฉพาะอย่างยิ่งในด้านความยาวของ context, ความสามารถในการ encoding และการรวม tool

นอกเหนือจากตัวโมเดลแล้ว Microsoft ยังได้แชร์รายงานทางเทคนิคโดยละเอียด ซึ่งให้การวิเคราะห์เชิงลึกเกี่ยวกับกระบวนการฝึกฝนและการประเมินโมเดล

บน X, Dimitris Papailiopoulos, Principal Researcher ที่ Microsoft Research AI Frontiers laboratory และ Associate Professor ที่ University of Wisconsin ได้แนะนำข้อมูลเพิ่มเติมเกี่ยวกับโมเดล Phi-4 reasoning

เขาเชื่อว่า Phi-4-reasoning ได้ไปถึงระดับบัณฑิตศึกษาอย่างสมบูรณ์และสามารถทำงานบน PC ในเครื่องได้

สิ่งนี้เกินความคาดหมายของเขาสำหรับการพัฒนา AI

โมเดลใหม่มีพารามิเตอร์น้อยแต่มีประสิทธิภาพที่แข็งแกร่ง

ขุมพลังด้านประสิทธิภาพ

แม้จะมีขนาดเล็ก แต่โมเดลนี้ก็มีความเป็นเลิศใน mathematics benchmarks เช่น AIME, HMMT และ OmniMath ทำงานได้เทียบเท่าหรือเหนือกว่าโมเดล open-weight ขนาดใหญ่ เช่น QwQ-32B, R1-70B และ R1 และโมเดล closed เช่น o1-mini และ sonnet 3.7

โมเดลนี้มีขนาดเล็กและเหมาะสำหรับการทำงานอย่างราบรื่นบนแล็ปท็อปประสิทธิภาพสูง

ในขณะเดียวกัน ก็สามารถแก้ปัญหาปริศนามากมายที่แม้แต่โมเดลที่ไม่ใช่ reasoning ขนาดใหญ่และโมเดล reasoning บางตัวก็ไม่สามารถแก้ไขได้

นอกจากนี้ยังผ่านการทดสอบ DimitrisEval อีกด้วย!

น่าแปลกใจที่การให้เหตุผลดูเหมือนจะเป็น ‘meta-skill’ ที่สามารถถ่ายโอนได้อย่างแท้จริง ซึ่งสามารถเรียนรู้ได้แม้ผ่าน supervised fine-tuning SFT!

หลักฐาน 1: แม้จะไม่มีการฝึกฝนเฉพาะทางในงานที่ไม่ใช่ reasoning นักวิจัยยังคงสังเกตเห็นการปรับปรุงประสิทธิภาพอย่างมีนัยสำคัญใน IFEval, FlenQA และ PhiBench ภายใน (เพิ่มขึ้นมากกว่า 10 คะแนน!)

นอกจากนี้ ยังมีข้อมูลที่เกี่ยวข้องกับการ coding น้อยมากในช่วง SFT stage (และไม่มีเลยในช่วง RL stage) แต่โมเดลยังคงทำงานได้ดีในเรื่องนี้

นอกจากนี้ Dimitris Papailiopoulos ยังเปิดเผยว่า programming เป็นจุดสนใจหลักสำหรับรุ่นต่อ ๆ ไป

หลักฐาน 2: ในกรณีของปัญหาเฉพาะบางอย่างที่ไม่ได้ฝึกฝนอย่างชัดเจน (ทั้ง SFT หรือ RL stage) เช่น ปัญหาการเดินทางของพนักงานขาย, การแก้ปัญหาเขาวงกต, k-SAT, การวางแผนแบบมีข้อจำกัด ฯลฯ โมเดลทำงานได้ดีมากในงานเหล่านี้!

และ Phi-4 (และแม้แต่ GPT-4) ไม่สามารถทำได้

สิ่งนี้แสดงให้เห็นอย่างเต็มที่ว่า ความสามารถในการให้เหตุผลสามารถถ่ายโอนเป็น skill ได้จริง ๆ!

หลังจากการ reinforcement learning รอบสั้น ๆ มาก (โดยใช้เพียง 6,000 ตัวอย่าง เทียบกับ 1.4 ล้านตัวอย่างสำหรับ SFT) กลไกการให้เหตุผลของโมเดลดูเหมือนจะ ‘ถูกล็อค’

สิ่งนี้ทำให้ Dimitris Papailiopoulos ตกใจเป็นพิเศษ

เขารู้สึกว่าเหมือนกับว่า reinforcement learning ได้สอนให้โมเดลให้เหตุผลใน ‘ภาษาของตัวเอง’ เพิ่มความแม่นยำประมาณ 10% ใน AIME และ HMMT และเพิ่มความยาวของคำตอบเฉลี่ย 50% ในปัญหาที่ยาก

Reinforcement learning มีประสิทธิภาพจริง ๆ!!

ปรากฏการณ์ของกลไกการให้เหตุผลที่ ‘ถูกล็อค’ มักจะทำให้การกระจายผลลัพธ์ของโมเดลมีความเข้มข้นมากขึ้น และความแม่นยำก็สูงขึ้นด้วย

ข้อเท็จจริงที่ว่า reinforcement learning สามารถปรับปรุงความสามารถของโมเดลได้อย่างมีนัยสำคัญนั้นได้รับการสะท้อนให้เห็นในการวิจัยก่อนหน้านี้โดย Microsoft

ใน reinforcement learning stage โมเดลใหม่ไม่ได้ถูกปรับให้เหมาะสมเป็นพิเศษสำหรับข้อมูล: 6,000 คำถามถูกสุ่มเลือกจากตัวเลือกชุดข้อมูลที่ใหญ่กว่า

เหตุใด Microsoft จึงไม่ทำการฝึกฝน reinforcement learning มากขึ้น?

เนื่องจากโมเดลสร้างคำตอบสำหรับคำถามที่เกินความยาว context 32k (ความยาวที่โมเดลไม่ได้ฝึกฝน) พวกเขาจึงทำได้เพียงตัดทอน

นอกจากนี้ ด้วยความช่วยเหลือของการคำนวณ reasoning แบบขนาน (เช่น Maj@N) โมเดล reasoning ใหม่ได้เข้าใกล้ขีดจำกัดด้านประสิทธิภาพบน AIME 2025 เกือบทั้งหมด และยังเหนือกว่าประสิทธิภาพ pass@1 ของโมเดลครู (o3-mini)

และรวบรวมข้อมูลทั้งหมดเสร็จสิ้นก่อนเดือนกุมภาพันธ์ 2025 และเช่นเดียวกับ HMMT

ในงานอื่น ๆ นักวิจัยยังได้สังเกตปรากฏการณ์ ‘เหนือกว่าครู’ เช่น งาน OmniMath และ Calendar Planning

การออกแบบ prompt ใน SFT stage ควบคู่ไปกับกระบวนการ reinforcement learning ในภายหลัง ดูเหมือนจะทำให้โมเดลมีความสามารถในการ ‘ปรับปรุงตนเอง’ เกินขอบเขตของความรู้ที่ได้รับจากโมเดลครู

ในรูปด้านล่าง สีม่วงแดงแสดงถึง o3-mini และสีเขียวแสดงถึง Phi

ปรากฏการณ์ที่น่าสนใจคือ: ข้อความยาวที่มีความยาวในการตอบสนองใน 25% แรก มักจะมีความสัมพันธ์อย่างมากกับคำตอบที่ผิด!

อย่างไรก็ตาม ในทางกลับกัน ใน การประเมินส่วนใหญ่ ความยาวของคำตอบโดยเฉลี่ย โดยรวม จะยาวขึ้นและความแม่นยำจะสูงขึ้น

กล่าวอีกนัยหนึ่ง การเพิ่ม computing resources ระหว่างการทดสอบจะช่วยได้ แต่โมเดลก็มีแนวโน้มที่จะ ‘เรื่อยเปื่อย’ เมื่อ ‘ติดขัด’

เกี่ยวกับข้อจำกัดของโมเดล ก็มีบางสิ่งที่ต้องให้ความสนใจด้วย:

  • ความสามารถในการจัดการกับ context lengths ที่เกิน 32k ยังไม่ได้รับการขยายหรือทดสอบอย่างเต็มที่
  • โมเดลมีแนวโน้มที่จะ ‘คิดมากเกินไป’ เมื่อจัดการกับปัญหาที่ง่าย และอาจดู verbose เกินไปในการประเมินตนเอง
  • ความสามารถของ multi-turn dialogues ยังไม่ได้รับการทดสอบอย่างกว้างขวาง

แน่นอนว่ายังมี ‘จุดบอด’ อีกมากมายที่ต้องค้นพบ แต่โดยรวมแล้ว ทีมวิจัยรู้สึกว่าพวกเขากำลังมาถูกทางแล้ว!

ความประหลาดใจในการฝึกฝน

Suriya Gunasekar, Principal Research Manager ที่ Microsoft Research และอยู่ในทีม ‘AGI Physics’ ที่รับผิดชอบในการพัฒนา Phi series ของโมเดล ได้มุ่งเน้นไปที่การแนะนำหลักการสำคัญของงาน

ในครั้งนี้ ทีม Microsoft Phi ได้มุ่งเน้นไปที่ post-training stage และเปิดตัว Phi-4-reasoning (ใช้ SFT เท่านั้น) และ Phi-4-reasoning-plus (SFT + RL จำนวนเล็กน้อย)

ทั้งสองเป็นโมเดล 14B ที่แสดงให้เห็นถึงความสามารถที่แข็งแกร่งในด้าน reasoning และ general task benchmarks

หัวใจสำคัญของงานนี้อยู่ที่การเลือก prompt และการสำรวจเชิงทดลองของ transferable, self-improving reasoning skills

มีสองสิ่งที่น่าประหลาดใจที่ค้นพบระหว่างกระบวนการฝึกฝน:

ประการแรก ตราบใดที่ใช้ domain-trained long-chain reasoning (CoT) trajectories จำนวนน้อย Phi-4 สามารถบรรลุการปรับปรุงประสิทธิภาพอย่างมีนัยสำคัญในหลายงาน เช่น การจัดตารางเวลา, การแก้ปัญหาเขาวงกต (ไม่มี visual input), IFEva, FlenQA, KITAB (lookup-based question answering) และ PhiBench ภายใน

ประการที่สอง แม้ว่า จะใช้เพียง 6,000 ตัวอย่างทางคณิตศาสตร์สำหรับการฝึกฝน RL น้อยที่สุด ประสิทธิภาพของโมเดลก็ได้รับการปรับปรุงอย่างมีนัยสำคัญใน benchmarks บางส่วน โดยมีการปรับปรุงสูงสุดถึง 10% (แต่การใช้ token เพิ่มขึ้นประมาณ 1.5 เท่า) และมีการสังเกตการถ่ายโอน skills ข้ามโดเมนในช่วง RL stage ด้วย

กล่าวอีกนัยหนึ่ง เมื่อเทียบกับคู่แข่งรายใหญ่ เช่น OpenAI และ Google Microsoft Phi-4 reasoning series แสดงให้เห็นถึงความเป็นไปได้ใหม่ ๆ: โมเดลขนาดเล็กสามารถเทียบเท่าหรือเหนือกว่าโมเดลขนาดใหญ่ในงานเฉพาะได้โดยใช้ข้อมูลคุณภาพสูงและกลยุทธ์การฝึกฝนที่ละเอียด

วิธีการหลัก

โมเดล Reasoning Phi-4-reasoning มีพารามิเตอร์ 14 พันล้านและทำงานได้อย่างแข็งแกร่งในงาน reasoning ที่ซับซ้อน

โมเดลนี้ใช้ Phi-4 สำหรับ supervised fine-tuning training โดยใช้ชุด ‘teachable’ prompts ที่คัดเลือกมาอย่างดี ซึ่งมีความซับซ้อนและความหลากหลายที่เหมาะสม ตัวอย่าง reasoning ที่สร้างโดย o3-mini ถูกใช้เป็นข้อมูลอ้างอิงระหว่างกระบวนการฝึกฝน

Phi-4-reasoning สามารถสร้าง detailed reasoning chains และใช้ computing resources อย่างเต็มที่ระหว่างกระบวนการ reasoning

บนพื้นฐานนี้ Microsoft ได้พัฒนา Phi-4-reasoning-plus เพิ่มเติม

ได้รับการปรับปรุงบนพื้นฐานของโมเดลดั้งเดิมผ่าน outcome-based reinforcement learning stage เล็กน้อย และสร้าง reasoning chains ที่ยาวขึ้นและมีประสิทธิภาพมากขึ้น

การวิจัยแสดงให้เห็นว่า ชุดข้อมูล SFT ที่ออกแบบมาอย่างดีสามารถปรับปรุงผลกระทบของ reasoning language models ได้อย่างมีนัยสำคัญ และ reinforcement learning (RL) สามารถขยายการปรับปรุงนี้เพิ่มเติมบนพื้นฐานนี้ได้

ในการทดลอง SFT แม้ในการตั้งค่าการสร้างที่ค่อนข้างง่ายนี้ การ เลือกอย่างระมัดระวังและการกรองปัญหา seed อย่างเข้มงวด ยังคงเป็นกุญแจสำคัญสู่ความสำเร็จของโมเดล

พวกเขาได้นำชุดข้อมูลการฝึกฝนทั้งหมดไปสู่ กระบวนการ de-pollution ที่เข้มงวด เพื่อให้แน่ใจว่าไม่มีข้อมูลที่ทับซ้อนกันอย่างมากกับคำถาม benchmark reasoning หรือ general ที่ใช้กันอย่างแพร่หลาย รวมถึง benchmarks บางส่วนที่ไม่ได้กล่าวถึงในรายงานนี้

รายการ benchmark tests ที่ได้รับการ decontaminated อย่างสมบูรณ์มีดังนี้:

  • Mathematics and Reasoning: AIME-2024, MATH, GPQA, OmniMATH, GSM8k
  • Programming: LiveCodeBench, Codeforces, HumanEval, MBPP
  • Question Answering and General Knowledge: SimpleQA, DROP, AGIEval, ARC-Challenge, ARC-Easy, CommonsenseQA, OpenBookQA, PIQA, WinoGrande
  • Other Evaluation Tasks: SWE-Bench Verified, ArenaHard, MT-Bench, PhiBench

ผ่าน Supervised Finetuning (SFT) ของโมเดล Phi-4 ที่มีพารามิเตอร์ 14 พันล้าน นักวิจัยได้รับ Phi-4-reasoning โดยไม่มี reinforcement learning ใด ๆ ก่อนหน้านั้น

เป้าหมาย SFT คือการปรับปรุงความสามารถในการ reasoning ที่มีโครงสร้างซึ่งมีอยู่ในโมเดลพื้นฐาน

สถาปัตยกรรมของ Phi-4-reasoning เหมือนกับของโมเดล Phi-4 แต่มีการปรับเปลี่ยนที่สำคัญสองประการ:

  • Reasoning tokens: โทเค็น placeholder สองตัวในโมเดลพื้นฐานถูกนำมาใช้ซ้ำเป็น และโทเค็น ซึ่งใช้เพื่อทำเครื่องหมายจุดเริ่มต้นและจุดสิ้นสุดของกระบวนการ reasoning (‘thinking’)
  • Increased Token Length: ความยาวโทเค็นสูงสุดที่โมเดลพื้นฐาน (Phi-4) รองรับในขั้นต้นคือ 16K เพื่อรองรับโทเค็น reasoning เพิ่มเติม ความถี่พื้นฐานของ RoPE ถูกเพิ่มเป็นสองเท่า และโมเดลได้รับการฝึกฝนที่ความยาวโทเค็นสูงสุด 32K

พวกเขาใช้วิธีสังเคราะห์เพื่อสร้าง chain-of-thought reasoning examples จำนวนมาก

ชุดข้อมูล SFT ที่ใช้มี prompt-response pairs มากกว่า 1.4 ล้านคู่ รวมเป็นโทเค็นที่ไม่ซ้ำกัน 8.3 พันล้านรายการ ครอบคลุม reasoning fields เช่น mathematics และ programming รวมถึง alignment data สำหรับ AI ที่ปลอดภัยและมีความรับผิดชอบ

รูปที่ 4a แสดงการเปลี่ยนแปลงใน key indicators ตลอดกระบวนการ SFT iteration

ในช่วงต้นของการฝึกฝน โมเดลเริ่มใช้โทเค็น ‘thinking’ ที่ชัดเจน ซึ่งบ่งชี้ว่าโมเดลได้เรียนรู้รูปแบบที่มีโครงสร้างตื้น ๆ นี้อย่างรวดเร็ว

อย่างไรก็ตาม ดังที่แสดงในรูปที่ 4a ประสิทธิภาพของ chain-of-thought module และความสามารถในการ reasoning ของโมเดลกำลังปรับปรุงตลอดกระบวนการฝึกฝน ซึ่งบ่งชี้ว่าโมเดลไม่ได้เพียงแค่คัดลอกรูปแบบ แต่กำลังเรียนรู้ skills reasoning จริง ๆ

สิ่งที่น่าสนใจคือ ไม่เหมือนกับ reinforcement learning นักวิจัยไม่เห็นความยาวในการตอบสนองเพิ่มขึ้นในช่วง SFT process

ในความเป็นจริง ดังที่แสดงในรูปที่ 4b ความยาวในการตอบสนองโดยเฉลี่ยลดลงเล็กน้อย

สิ่งนี้แสดงให้เห็นว่าเมื่อการฝึกฝนดำเนินไป โมเดลกำลังเรียนรู้ที่จะใช้ token budget อย่างมีประสิทธิภาพมากขึ้น

เพื่อประเมินกลยุทธ์การฝึกฝนที่แตกต่างกันอย่างเป็นระบบ พวกเขาใช้ benchmark ที่ตายตัว - AIME 2024 และ GPQA diamond - เป็นตัวบ่งชี้ความคืบหน้า

โดยรวมแล้ว วิธีการทดลองสามารถแบ่งออกเป็นสอง stages: exploration และ scaling

ใน exploration stage นักวิจัยใช้ shorter training cycles และ limited data sources and fields เพื่อ iterate อย่างรวดเร็วและ extract robust training methods

ใน subsequent expansion phase นักวิจัยสรุปผลการทดลองลดความเสี่ยงในระยะเริ่มต้นและสรุปการตั้งค่า SFT

รูปที่ 5 สรุปความคืบหน้านี้ โดยเน้น ablation experiments สำหรับ key design choices หลายประการ

รูปที่ 5 แสดงภาพรวมระดับสูงของ Phi-4-reasoning supervised fine-tuning (SFT) experimental cycle รวมถึง exploration และ expansion phases โดยใช้ some example experiments เพื่อเป็นตัวแทน แต่ละ dot cluster แสดงถึงผลการทดลองของ specific training design choice

รูปที่ 7 แสดง key findings ของโมเดล Phi-4-reasoning-plus ในระหว่างกระบวนการ GRPO training

เริ่มต้นจาก supervised fine-tuning (SFT) base model Phi-4-reasoning GRPO training เพียง 90 ขั้นตอน เพิ่ม AIME performance มากกว่า 10% (รูปที่ 7a)

การเพิ่มจำนวน training steps อย่างต่อเนื่องไม่ได้นำมาซึ่ง benefits เพิ่มเติม ซึ่งบ่งชี้ว่า potential ของ strong SFT model ใกล้เคียงกับ performance ceiling ควรสังเกตว่า output ใน GRPO training จำกัดอยู่ที่ภายใน 31k tokens ซึ่งจำกัด optimization space ของ GRPO อย่างเป็นกลาง

ดังที่แสดงในรูปที่ 7c response length มีความสัมพันธ์อย่างมากกับ AIME performance ในขณะที่ความสัมพันธ์ระหว่าง reward score และ AIME score อ่อนแอ ผลกระทบ response length growth นี้เป็นผลกระทบที่คาดหวังของ GRPO training - โมเดลปรับปรุงความสามารถในการ reasoning โดยการเพิ่ม ‘thinking time’

รูปที่ 7d เปิดเผยเพิ่มเติมว่าเนื่องจากการออกแบบ reward model ความยาวในการสร้างคำตอบที่ผิดเติบโตเร็วกว่าคำตอบที่ถูกต้องอย่างมีนัยสำคัญ (เมื่อคำตอบปัจจุบันของโมเดลผิด ระบบจะสนับสนุนให้คิดนานขึ้น)

ในความเป็นจริง การดำเนินการ rejection sampling โดยพิจารณาจาก response length เพียงอย่างเดียว (โดยเฉพาะอย่างยิ่ง responses ยาวที่เกิน median อย่างมีนัยสำคัญ) อาจปรับปรุง GRPO performance เพิ่มเติม

ดังที่แสดงในรูปที่ 7d แนวโน้มการเติบโตของ shorter responses (length อยู่ใน bottom 25% quantile) ระหว่างกระบวนการฝึกฝนคล้ายกับความยาวเฉลี่ยของคำตอบที่ถูกต้อง ในขณะที่ความยาวของคำตอบที่ผิดใกล้เคียงกับ 75% quantile ของ overall response length

ปรากฏการณ์ differentiation นี้บ่งชี้ว่า length-based rejection sampling สามารถปรับปรุง model efficiency ได้โดยการระงับ overly long incorrect outputs