Microsoft ได้เปิดตัว SLM (Small Language Models) รุ่นใหม่ล่าสุดในชื่อ Phi-4-reasoning, Phi-4-reasoning-plus และ Phi-4-mini-reasoning ซึ่งเป็นการพัฒนาต่อยอดจาก Phi-3 ที่เปิดตัวไปก่อนหน้านี้บน Azure AI Foundry เมื่อปีที่แล้ว นวัตกรรมเหล่านี้ถือเป็นจุดเปลี่ยนสำคัญสำหรับ SLM โดยเป็นการกำหนดนิยามใหม่ของสิ่งที่สามารถทำได้ด้วย AI ขนาดกะทัดรัดและมีประสิทธิภาพ
การถือกำเนิดของ Phi-Reasoning Models
Phi-reasoning models รุ่นใหม่ได้รับการออกแบบมาเพื่อใช้ประโยชน์จากการปรับขนาดเวลาอนุมานสำหรับงานที่ซับซ้อน ซึ่งต้องมีการแยกส่วนหลายขั้นตอนและการไตร่ตรองภายใน โมเดลเหล่านี้แสดงให้เห็นถึงความสามารถที่โดดเด่นในการให้เหตุผลเชิงคณิตศาสตร์ โดยสร้างตัวเองให้เป็นรากฐานสำหรับแอปพลิเคชันที่เหมือนตัวแทน ซึ่งจัดการกับงานที่ซับซ้อนและมีหลายแง่มุม ในอดีต ความสามารถดังกล่าวเป็นเอกสิทธิ์เฉพาะของโมเดลที่มีขนาดใหญ่กว่ามาก Phi-reasoning models แนะนำ SLM ประเภทใหม่ที่ใช้ประโยชน์จากการกลั่น การเรียนรู้แบบเสริมกำลัง และข้อมูลคุณภาพสูง เพื่อสร้างสมดุลระหว่างขนาดและประสิทธิภาพ ขนาดที่กะทัดรัดทำให้เหมาะสำหรับสภาพแวดล้อมที่มีความหน่วงต่ำ ในขณะที่ความสามารถในการให้เหตุผลที่แข็งแกร่งเทียบได้กับโมเดลที่มีขนาดใหญ่กว่ามาก การผสมผสานระหว่างประสิทธิภาพและความสามารถนี้ ช่วยให้อุปกรณ์ที่มีข้อจำกัดด้านทรัพยากรสามารถดำเนินการงานให้เหตุผลที่ซับซ้อนได้อย่างมีประสิทธิภาพ
Phi-4-Reasoning และ Phi-4-Reasoning-Plus: เจาะลึกรายละเอียด
Phi-4-Reasoning: โมเดลให้เหตุผลแบบ Open-Weight
Phi-4-reasoning โดดเด่นในฐานะโมเดลให้เหตุผลแบบ open-weight ที่มีพารามิเตอร์ 14 พันล้านตัว ได้รับการออกแบบมาเพื่อแข่งขันกับโมเดลที่มีขนาดใหญ่กว่าอย่างมากในงานให้เหตุผลที่ซับซ้อน โมเดลนี้ได้รับการฝึกฝนผ่านการปรับแต่งแบบ supervised fine-tuning ของ Phi-4 บนตัวอย่างการให้เหตุผลที่คัดสรรมาอย่างพิถีพิถัน ซึ่งได้มาจาก o3-mini ของ OpenAI Phi-4-reasoning สร้างห่วงโซ่การให้เหตุผลโดยละเอียด โดยใช้เวลาในการคำนวณเพิ่มเติมอย่างมีประสิทธิภาพระหว่างการอนุมาน ความสำเร็จนี้เน้นย้ำว่าการดูแลจัดการข้อมูลที่แม่นยำและชุดข้อมูลสังเคราะห์คุณภาพสูง ช่วยให้โมเดลขนาดเล็กสามารถเทียบเคียงกับโมเดลขนาดใหญ่กว่าได้
Phi-4-Reasoning-Plus: เพิ่มประสิทธิภาพการให้เหตุผลด้วย Reinforcement Learning
เมื่อสร้างขึ้นบนความสามารถของ Phi-4-reasoning แล้ว Phi-4-reasoning-plus จะได้รับการฝึกอบรมเพิ่มเติมด้วย reinforcement learning เพื่อใช้ประโยชน์จากเวลาในการคำนวณเพิ่มเติมระหว่างการอนุมาน ประมวลผลโทเค็นมากกว่า Phi-4-reasoning ถึง 1.5 เท่า ส่งผลให้มีความแม่นยำสูงขึ้น
เกณฑ์มาตรฐานประสิทธิภาพ
แม้จะมีขนาดเล็กกว่าอย่างมาก แต่ทั้ง Phi-4-reasoning และ Phi-4-reasoning-plus ก็มีประสิทธิภาพเหนือกว่า o1-mini ของ OpenAI และ DeepSeek-R1-Distill-Llama-70B ในเกณฑ์มาตรฐานต่างๆ รวมถึงการให้เหตุผลเชิงคณิตศาสตร์และการสอบถามทางวิทยาศาสตร์ระดับปริญญาเอก ที่น่าประทับใจคือ พวกเขายังเหนือกว่าโมเดล DeepSeek-R1 แบบเต็ม (ที่มีพารามิเตอร์ 671 พันล้านตัว) ในการทดสอบ AIME 2025 ซึ่งใช้เป็นการแข่งขันรอบคัดเลือกสำหรับ USA Math Olympiad ปี 2025 ทั้งสองรุ่นสามารถเข้าถึงได้ง่ายบน Azure AI Foundry และ Hugging Face
Phi-4-Mini-Reasoning: ขุมพลังขนาดกะทัดรัดสำหรับสภาพแวดล้อมที่มีข้อจำกัด
Phi-4-mini-reasoning ได้รับการออกแบบมาโดยเฉพาะเพื่อตอบสนองความต้องการสำหรับโมเดลให้เหตุผลขนาดกะทัดรัด โมเดลภาษาที่ใช้ Transformer นี้ได้รับการปรับให้เหมาะสมสำหรับการให้เหตุผลเชิงคณิตศาสตร์ และนำเสนอความสามารถในการแก้ปัญหาทีละขั้นตอนคุณภาพสูงในสภาพแวดล้อมที่จำกัดกำลังการประมวลผลหรือความหน่วงแฝง ปรับแต่งอย่างละเอียดโดยใช้ข้อมูลสังเคราะห์ที่สร้างโดยโมเดล Deepseek-R1 โดยสร้างสมดุลระหว่างประสิทธิภาพและความสามารถในการให้เหตุผลขั้นสูงได้อย่างมีประสิทธิภาพ ทำให้เหมาะสำหรับแอปพลิเคชันด้านการศึกษา ระบบการสอนแบบฝัง และการปรับใช้ที่มีน้ำหนักเบาบนระบบ Edge หรือ Mobile โมเดลนี้ได้รับการฝึกฝนจากปัญหาทางคณิตศาสตร์ที่หลากหลายกว่าล้านปัญหา ซึ่งมีความยากตั้งแต่ระดับกลางถึงระดับปริญญาเอก ทำให้มั่นใจได้ถึงความสามารถรอบด้านและประสิทธิภาพในบริบททางการศึกษาที่หลากหลาย
Phi ในการปฏิบัติ: ขยายขอบเขต
วิวัฒนาการของ Phi ในช่วงปีที่ผ่านมา ได้ผลักดันขอบเขตของคุณภาพอย่างต่อเนื่องเมื่อเทียบกับขนาด โดยครอบครัวขยายออกไปเพื่อครอบคลุมคุณสมบัติใหม่ที่ปรับให้เหมาะกับความต้องการที่หลากหลาย โมเดลเหล่านี้สามารถทำงานได้ในเครื่องบนทั้ง CPU และ GPU บนอุปกรณ์ Windows 11 ที่หลากหลาย ทำให้ผู้ใช้มีความยืดหยุ่นและการเข้าถึงด้วยการกำหนดค่าฮาร์ดแวร์ที่แตกต่างกัน
การบูรณาการกับ Copilot+ PCs: ยุคใหม่ของการประมวลผลที่ขับเคลื่อนด้วย AI
Phi models เป็นส่วนสำคัญของ Copilot+ PCs โดยใช้ประโยชน์จาก Phi Silica variant ที่ปรับให้เหมาะสมกับ NPU Phi รุ่นที่มีประสิทธิภาพสูงนี้ ซึ่งจัดการโดยระบบปฏิบัติการ ได้รับการออกแบบมาให้โหลดไว้ล่วงหน้าในหน่วยความจำ โดยให้เวลาตอบสนองที่รวดเร็วและปริมาณงานโทเค็นที่ประหยัดพลังงาน ทำให้สามารถเรียกใช้พร้อมกันกับแอปพลิเคชันอื่นๆ บน PC ได้ ซึ่งจะช่วยเพิ่มความสามารถในการทำงานหลายอย่างพร้อมกันและประสิทธิภาพของระบบโดยรวม
การใช้งานจริง
Phi models ถูกนำไปใช้แล้วในประสบการณ์หลัก เช่น Click to Do ซึ่งมีเครื่องมือข้อความอัจฉริยะสำหรับเนื้อหาทั้งหมดบนหน้าจอ นอกจากนี้ยังมีให้ใช้งานเป็น API สำหรับนักพัฒนาสำหรับการบูรณาการเข้ากับแอปพลิเคชันอย่างราบรื่น ขณะนี้โมเดลดังกล่าวถูกใช้ในแอปพลิเคชันเพิ่มประสิทธิภาพต่างๆ เช่น Outlook ซึ่งมีคุณสมบัติสรุป Copilot แบบออฟไลน์ Phi-4-reasoning และ Phi-4-mini-reasoning models ใช้ประโยชน์จากการปรับแต่ง Low-Bit สำหรับ Phi Silica และจะพร้อมใช้งานในเร็วๆ นี้เพื่อทำงานบน Copilot+ PC NPUs
ความมุ่งมั่นของ Microsoft ต่อ Responsible AI และ Safety
ที่ Microsoft, responsible AI เป็นหลักการพื้นฐานที่นำทางการพัฒนาและการปรับใช้ระบบ AI รวมถึง Phi models Phi models ได้รับการพัฒนาโดยสอดคล้องกับหลักการ Microsoft AI: ความรับผิดชอบ ความโปร่งใส ความเป็นธรรม ความน่าเชื่อถือและความปลอดภัย ความเป็นส่วนตัวและความปลอดภัย และการไม่แบ่งแยก Phi family of models ใช้แนวทางที่แข็งแกร่งเพื่อความปลอดภัยหลังการฝึกอบรม โดยใช้การผสมผสานระหว่างเทคนิค Supervised Fine-Tuning (SFT), Direct Preference Optimization (DPO) และ Reinforcement Learning from Human Feedback (RLHF) เพื่อให้มั่นใจถึงการใช้งานที่มีความรับผิดชอบและมีจริยธรรม
พื้นฐานทางเทคนิคของ Phi Models: การตรวจสอบโดยละเอียด
Microsoft’s Phi models แสดงถึงความก้าวหน้าครั้งสำคัญในด้าน small language models โดยเฉพาะอย่างยิ่งในความสามารถในการทำงานให้เหตุผลที่ซับซ้อนด้วยพารามิเตอร์ที่ค่อนข้างน้อย ส่วนนี้เจาะลึกรายละเอียดทางเทคนิคที่ช่วยให้โมเดลเหล่านี้บรรลุประสิทธิภาพที่น่าประทับใจเช่นนี้
Architectural Innovations
Phi models มีพื้นฐานมาจาก Transformer architecture ซึ่งเป็น deep learning model ที่ปฏิวัติ natural language processing Transformers มีความโดดเด่นในการจับภาพ dependencies ในระยะยาวในข้อความ ทำให้ models เข้าใจบริบทและความแตกต่างของภาษาได้
Attention Mechanism: หัวใจสำคัญของ Transformer architecture คือ Attention Mechanism ซึ่งช่วยให้ model สามารถโฟกัสไปที่ส่วนที่เกี่ยวข้องมากที่สุดของอินพุตเมื่อสร้างเอาต์พุต สิ่งนี้สำคัญอย่างยิ่งสำหรับงานให้เหตุผล ซึ่ง model ต้องระบุข้อมูลและความสัมพันธ์ที่สำคัญ เพื่อให้ได้ข้อสรุปที่ถูกต้อง
Scaled Dot-Product Attention: Phi models ใช้ Scaled Dot-Product Attention ซึ่งเป็นเวอร์ชันที่ปรับปรุงของ Attention Mechanism ซึ่งรวมถึง Scaled Factor เพื่อป้องกันไม่ให้ Dot Product มีขนาดใหญ่เกินไป ซึ่งอาจนำไปสู่ความไม่เสถียรในระหว่างการฝึกอบรม
Multi-Head Attention: เพื่อจับภาพแง่มุมต่างๆ ของอินพุต Phi models ใช้ Multi-Head Attention ซึ่ง Attention Mechanism หลายรายการทำงานแบบขนานกัน แต่ละ Head โฟกัสไปที่ชุดย่อยของอินพุตที่แตกต่างกัน ทำให้ model สามารถเรียนรู้ Representations ที่ซับซ้อนมากขึ้น
Feed-Forward Networks: หลังจาก Attention Layers แล้ว Transformer architecture จะมี Feed-Forward Networks ที่ประมวลผลข้อมูลเพิ่มเติม Networks เหล่านี้ประกอบด้วย neurons หลาย Layers ที่เรียนรู้ที่จะ Extract Features จาก Attention Outputs
Training Methodologies: แนวทางที่หลากหลาย
การฝึกอบรม Phi models เกี่ยวข้องกับการผสมผสานระหว่างเทคนิคต่างๆ รวมถึง Supervised Fine-Tuning, Reinforcement Learning และ Data Distillation
Supervised Fine-Tuning (SFT): Supervised Fine-Tuning เกี่ยวข้องกับการฝึกอบรม Model บน Data Set ที่มี Label โดยอินพุตคือคำถามหรือปัญหา และเอาต์พุตคือคำตอบหรือวิธีแก้ปัญหาที่ถูกต้อง สิ่งนี้ช่วยให้ Model เรียนรู้ที่จะเชื่อมโยงอินพุตเฉพาะกับเอาต์พุตที่สอดคล้องกัน
Reinforcement Learning (RL): Reinforcement Learning เป็นเทคนิคที่ Model เรียนรู้ที่จะตัดสินใจโดยการโต้ตอบกับสภาพแวดล้อมและรับรางวัลหรือบทลงโทษสำหรับการกระทำ ในบริบทของ Language Models สภาพแวดล้อมอาจเป็นชุดของกฎหรือข้อจำกัด และรางวัลอาจขึ้นอยู่กับความแม่นยำของการตอบสนองของ Model
Data Distillation: Data Distillation เป็นเทคนิคที่ Model ที่มีขนาดเล็กกว่าได้รับการฝึกฝนให้เลียนแบบพฤติกรรมของ Model ที่มีขนาดใหญ่กว่าและซับซ้อนกว่า สิ่งนี้ช่วยให้ Model ที่มีขนาดเล็กกว่าบรรลุประสิทธิภาพที่เทียบได้กับ Model ที่มีขนาดใหญ่กว่า ในขณะที่ต้องใช้ทรัพยากรน้อยกว่า
Data Curation: หัวใจสำคัญของประสิทธิภาพ
ประสิทธิภาพของ Phi models ขึ้นอยู่กับคุณภาพของ Data ที่ใช้สำหรับการฝึกอบรมเป็นอย่างมาก Microsoft ได้ลงทุนความพยายามอย่างมากในการดูแลจัดการ Data Sets คุณภาพสูงที่ได้รับการออกแบบมาโดยเฉพาะสำหรับงานให้เหตุผล
Synthetic Data Generation: เพื่อเพิ่ม Data ที่มีอยู่ Microsoft ได้พัฒนาเทคนิคสำหรับการสร้าง Synthetic Data ที่เลียนแบบลักษณะของ Data ในโลกแห่งความเป็นจริง สิ่งนี้ช่วยให้ Models ได้รับการฝึกฝนใน Data Set ที่ใหญ่ขึ้นและมีความหลากหลายมากขึ้น ซึ่งจะช่วยปรับปรุงความสามารถในการ Generalization
Data Filtering: Microsoft ใช้เทคนิค Data Filtering ที่เข้มงวดเพื่อลบ Data ที่มีสัญญาณรบกวนหรือไม่เกี่ยวข้องออกจาก Data Set การฝึกอบรม สิ่งนี้ทำให้มั่นใจได้ว่า Models ได้รับการฝึกฝนบน Data ที่สะอาดและแม่นยำ ซึ่งนำไปสู่ประสิทธิภาพที่ดีขึ้น
Data Augmentation: เทคนิค Data Augmentation ใช้เพื่อเพิ่มความหลากหลายของ Data Set การฝึกอบรมโดยการใช้การแปลงกับ Data ที่มีอยู่ สิ่งนี้ช่วยให้ Models มีความ Robust มากขึ้นต่อ Variations ในอินพุต
Optimization Techniques: สร้างสมดุลระหว่างประสิทธิภาพและความแม่นยำ
Phi models ได้รับการปรับให้เหมาะสมสำหรับทั้งประสิทธิภาพและความแม่นยำ ช่วยให้สามารถทำงานบนอุปกรณ์ที่มีข้อจำกัดด้านทรัพยากรได้โดยไม่สูญเสียประสิทธิภาพ
Quantization: Quantization เป็นเทคนิคที่ความแม่นยำของพารามิเตอร์ของ Model จะลดลง ซึ่งจะช่วยลด Memory Footprint และข้อกำหนดด้านการคำนวณของ Model
Pruning: Pruning เป็นเทคนิคที่ Connections ที่มีความสำคัญน้อยกว่าใน Model จะถูกลบออก ซึ่งจะช่วยลดขนาดและความซับซ้อนของ Model
Knowledge Distillation: Knowledge Distillation เกี่ยวข้องกับการถ่ายโอน Knowledge จาก Model ที่มีขนาดใหญ่กว่าและซับซ้อนกว่าไปยัง Model ที่มีขนาดเล็กกว่า สิ่งนี้ช่วยให้ Model ที่มีขนาดเล็กกว่าบรรลุประสิทธิภาพที่เทียบได้กับ Model ที่มีขนาดใหญ่กว่า ในขณะที่ต้องใช้ทรัพยากรน้อยกว่า
The Phi Silica NPU: แนวทางที่ส่งเสริม Hardware-Software
Microsoft’s Phi models ได้รับการออกแบบมาให้รวมเข้ากับ Phi Silica NPU (Neural Processing Unit) อย่างแน่นหนา ซึ่งเป็น Hardware Accelerator เฉพาะที่ได้รับการปรับให้เหมาะสมสำหรับ Deep Learning Workloads
Low-Bit Optimization: Phi Silica NPU รองรับ Low-Bit Optimization ซึ่งช่วยให้ Models ทำงานด้วยความแม่นยำที่ลดลง ซึ่งจะช่วยลด Memory Footprint และข้อกำหนดด้านการคำนวณ
Pre-Loading into Memory: Phi models ได้รับการออกแบบมาให้โหลดไว้ล่วงหน้าใน Memory ซึ่งช่วยให้สามารถเรียกใช้ได้อย่างรวดเร็วและมีประสิทธิภาพ
Operating System Management: Phi Silica NPU ได้รับการจัดการโดย Operating System ซึ่งช่วยให้สามารถรวมเข้ากับ User Experience ได้อย่างราบรื่น
โดยสรุป Microsoft’s Phi models แสดงถึงความสำเร็จครั้งสำคัญในด้าน Small Language Models ด้วยการผสมผสานการออกแบบ Architectural ที่เป็นนวัตกรรม วิธีการฝึกอบรมที่เข้มงวด การดูแลจัดการ Data อย่างระมัดระวัง และการออกแบบร่วม Hardware-Software Microsoft ได้สร้าง Family of Models ที่ทั้งทรงพลังและมีประสิทธิภาพ ช่วยให้สามารถใช้งานแอปพลิเคชันที่ขับเคลื่อนด้วย AI ได้หลากหลาย