Microsoft Phi-4: โมเดลภาษาขนาดเล็กสำหรับเหตุผลทางคณิตศาสตร์ที่ซับซ้อน

Microsoft Research ได้เปิดตัว Phi-4 ซึ่งเป็นโมเดลภาษาขนาดเล็กที่มีพารามิเตอร์ 14 พันล้านตัว ออกแบบมาเพื่อยกระดับความสามารถในการให้เหตุผลทางคณิตศาสตร์ โมเดลนี้เปิดตัวครั้งแรกบน Azure AI Foundry และเพิ่งเปิดตัวบน Hugging Face ภายใต้ใบอนุญาต MIT

นวัตกรรมของ Phi-4

จากข้อมูลของ Microsoft Phi-4 มีประสิทธิภาพในการให้เหตุผลทางคณิตศาสตร์ดีกว่าโมเดลที่เทียบเท่าและใหญ่กว่า ซึ่งเป็นผลมาจากเทคนิคที่เป็นนวัตกรรมหลายอย่างที่ใช้ในระหว่างการฝึกอบรม รวมถึง:

  • การฝึกอบรมล่วงหน้าและการฝึกอบรมระยะกลางด้วยข้อมูลสังเคราะห์: การใช้ข้อมูลสังเคราะห์สำหรับการฝึกอบรมล่วงหน้าและการฝึกอบรมระยะกลางทำให้โมเดลมีเส้นทางการเรียนรู้ที่มีโครงสร้างมากขึ้น
  • การจัดการข้อมูลอินทรีย์: การคัดสรรและกรองข้อมูลอินทรีย์อย่างพิถีพิถันเพื่อให้มั่นใจในคุณภาพของข้อมูลการฝึกอบรม
  • รูปแบบการฝึกอบรมหลังการฝึกอบรมใหม่: การใช้แนวทางการฝึกอบรมหลังการฝึกอบรมใหม่เพื่อปรับปรุงประสิทธิภาพของโมเดล

นวัตกรรมเหล่านี้ทำให้ Phi-4 มีประสิทธิภาพเหนือกว่าโมเดลครู GPT-4o ในด้านความสามารถในการตอบคำถามที่เน้น STEM ซึ่งแสดงให้เห็นว่าเทคนิคการสร้างข้อมูลและการฝึกอบรมหลังการฝึกอบรมของ Microsoft ไม่ใช่แค่การกลั่นความรู้

ข้อได้เปรียบเฉพาะของข้อมูลสังเคราะห์

การใช้ข้อมูลสังเคราะห์ในการฝึกอบรมโมเดลภาษาขนาดใหญ่ (LLM) ไม่ใช่เรื่องใหม่ และโมเดล Phi ก็เคยใช้แนวทางนี้มาก่อน Microsoft ชี้ให้เห็นว่าข้อมูลสังเคราะห์ไม่ใช่ทางเลือกราคาถูก แต่มีข้อดีกว่าข้อมูลอินทรีย์ในด้านต่อไปนี้:

  • เส้นทางการเรียนรู้ที่ค่อยเป็นค่อยไป: ข้อมูลสังเคราะห์สามารถนำทาง LLM ให้เรียนรู้ทีละขั้นตอน ตั้งแต่การนำเสนอคำถามเริ่มต้นไปจนถึงวิธีแก้ปัญหาขั้นสุดท้าย ทำให้เข้าใจกระบวนการให้เหตุผลง่ายขึ้น
  • การจัดแนวกับสภาพแวดล้อมการให้เหตุผลที่ดีกว่า: ข้อมูลสังเคราะห์สามารถให้กระบวนการให้เหตุผลทีละขั้นตอนโดยละเอียดมากกว่า ซึ่งสอดคล้องกับสถานการณ์การให้เหตุผลจริงมากกว่าข้อมูลอินทรีย์ที่มีคำถามและการแก้ปัญหาขั้นสุดท้าย

ข้อมูลอินทรีย์ที่คัดสรรอย่างพิถีพิถัน

นอกเหนือจากข้อมูลสังเคราะห์แล้ว Microsoft ยังใช้ข้อมูลอินทรีย์ที่คัดสรรอย่างพิถีพิถัน ซึ่งรวมถึงปัญหาทางคณิตศาสตร์และวิธีแก้ปัญหาคุณภาพสูงหลายสิบล้านรายการที่รวบรวมจากเว็บไซต์สาธารณะและชุดข้อมูลภายนอก สำหรับกรณีที่ไม่มีวิธีแก้ปัญหาที่ถูกต้อง พวกเขาใช้วิธีการลงคะแนนเสียงส่วนใหญ่เพื่อสังเคราะห์วิธีแก้ปัญหาเพื่อเพิ่มความถูกต้อง นอกจากนี้ พวกเขายังรวบรวมบทความทางวิชาการ ฟอรัมการศึกษา และบทช่วยสอนการเขียนโปรแกรม

Microsoft เน้นย้ำถึงบทบาทสำคัญของข้อมูลธรรมชาติคุณภาพสูงในการสร้างข้อมูลสังเคราะห์ โดยชี้ว่าแม้แต่ข้อผิดพลาดเล็กน้อยก็อาจทำให้คุณภาพของเอกสารสังเคราะห์ที่ได้มาลดลงอย่างมาก ดังนั้น พวกเขาจึงทุ่มเทความพยายามอย่างมากในการปรับปรุงการจัดการข้อมูลเครือข่าย

ขั้นตอนการฝึกอบรมหลังการฝึกอบรมของ Phi-4

ขั้นตอนการฝึกอบรมหลังการฝึกอบรมของ Phi-4 มีจุดมุ่งหมายเพื่อเปลี่ยนให้เป็นผู้ช่วย AI ที่เชื่อถือได้ ขั้นตอนนี้ประกอบด้วยขั้นตอนต่อไปนี้:

  1. การปรับแต่ง: การปรับแต่งโมเดลโดยใช้ข้อมูลคุณภาพสูงที่สร้างจากโดเมนต่างๆ เช่น คณิตศาสตร์ การเขียนโค้ด การให้เหตุผล การสนทนา เอกลักษณ์ของโมเดล และความปลอดภัย
  2. การเพิ่มประสิทธิภาพความชอบโดยตรง (DPO): การดำเนินการ DPO สองขั้นตอนเพื่อให้โมเดลสอดคล้องกับความชอบของมนุษย์ได้ดียิ่งขึ้นและกำจัดพฤติกรรมที่ไม่พึงประสงค์
    • การค้นหาโทเค็นสำคัญ: ในขั้นตอนแรก Microsoft ใช้เทคนิคใหม่ที่เรียกว่า Pivotal Token Search เพื่อสร้างคู่ผลลัพธ์ที่ต้องการ/ไม่ต้องการ
    • GPT-4o ในฐานะผู้ให้คะแนน: ในขั้นตอนที่สอง พวกเขาใช้ GPT-4o ในฐานะผู้ให้คะแนนเพื่อติดป้ายผลลัพธ์แต่ละคู่ด้วยป้ายกำกับบวกหรือลบ

การประเมิน Phi-4

Phi-4 ได้รับการประเมินโดยใช้เฟรมเวิร์ก SIMPLE-EVALS ของ OpenAI และมีประสิทธิภาพเหนือกว่า Llama-3.1-405B ในเกณฑ์มาตรฐานหลายรายการ นอกจากนี้ ยังมีประสิทธิภาพเหนือกว่าโมเดลครู GPT-4o ในเกณฑ์มาตรฐาน GPQA (การตอบคำถาม STEM ระดับบัณฑิตศึกษา) และ MATH (การแข่งขันคณิตศาสตร์)

รายละเอียดข้อมูลการฝึกอบรมของโมเดล Phi-4

ในการฝึกอบรมโมเดล Phi-4 Microsoft ใช้กลยุทธ์ข้อมูลที่ออกแบบมาอย่างพิถีพิถัน ซึ่งเน้นที่ข้อมูลสังเคราะห์และข้อมูลจริงที่คัดสรรมา วิธีการผสมผสานนี้มีจุดมุ่งหมายเพื่อเพิ่มประสิทธิภาพกระบวนการเรียนรู้ของโมเดลและทำให้มีประสิทธิภาพในการให้เหตุผลทางคณิตศาสตร์

การสร้างข้อมูลสังเคราะห์

ข้อมูลสังเคราะห์มีบทบาทสำคัญในการฝึกอบรมของ Phi-4 ทีมงานของ Microsoft ไม่ได้มองว่าข้อมูลสังเคราะห์เป็นเพียงตัวแทนของข้อมูลจริง แต่เป็นเครื่องมือที่สามารถนำทางโมเดลให้เรียนรู้ทีละขั้นตอน กระบวนการสร้างข้อมูลสังเคราะห์มักเป็นไปตามขั้นตอนต่อไปนี้:

  1. การสร้างปัญหา: ขั้นแรก สร้างปัญหาทางคณิตศาสตร์ต่างๆ ตามกฎและเทมเพลตที่กำหนดไว้ล่วงหน้า ปัญหาเหล่านี้ครอบคลุมสาขาคณิตศาสตร์และระดับความยากต่างๆ เพื่อให้มั่นใจว่าโมเดลมีการเรียนรู้อย่างครอบคลุม
  2. วิธีแก้ปัญหาทีละขั้นตอน: สำหรับแต่ละปัญหาที่สร้างขึ้น จะมีการสร้างวิธีแก้ปัญหาทีละขั้นตอน ซึ่งอธิบายรายละเอียดกระบวนการให้เหตุผลตั้งแต่การนำเสนอคำถามไปจนถึงคำตอบสุดท้าย วิธีแก้ปัญหาทีละขั้นตอนนี้ไม่เพียงแต่รวมถึงคำตอบสุดท้าย แต่ยังรวมถึงขั้นตอนกลางและตรรกะการให้เหตุผล ซึ่งจะช่วยให้โมเดลเข้าใจกระบวนการแก้ปัญหา
  3. การเพิ่มข้อมูล: เพื่อเพิ่มความหลากหลายของข้อมูล ข้อมูลสังเคราะห์จะได้รับการปรับปรุง เช่น การเปลี่ยนคำถาม การปรับตัวเลข หรือการใช้วิธีแก้ปัญหาที่แตกต่างกัน

ข้อมูลจริงที่คัดสรร

นอกเหนือจากข้อมูลสังเคราะห์แล้ว การฝึกอบรมของ Phi-4 ยังใช้ข้อมูลจริงที่คัดสรรมาจำนวนมาก ข้อมูลเหล่านี้มาจากเว็บไซต์สาธารณะต่างๆ บทความทางวิชาการ ฟอรัมการศึกษา และบทช่วยสอนการเขียนโปรแกรม ซึ่งรวมถึงประเภทต่อไปนี้:

  • ปัญหาและวิธีแก้ปัญหาทางคณิตศาสตร์: รวบรวมปัญหาทางคณิตศาสตร์คุณภาพสูงหลายล้านรายการและวิธีแก้ปัญหาจากเว็บไซต์สาธารณะและชุดข้อมูลภายนอก ปัญหาเหล่านี้ครอบคลุมสาขาคณิตศาสตร์และระดับความยากต่างๆ
  • บทความทางวิชาการ: เพื่อปรับปรุงความเข้าใจและความสามารถในการให้เหตุผลของโมเดล บทความทางวิชาการจำนวนมากยังได้รับการรวบรวม ซึ่งให้แนวคิดและทฤษฎีทางคณิตศาสตร์เชิงลึก
  • ฟอรัมการศึกษา: รวบรวมคำถามที่นักเรียนถามและคำตอบที่ผู้เชี่ยวชาญให้จากฟอรัมการศึกษา เพื่อให้โมเดลสามารถเข้าใจปัญหาทางคณิตศาสตร์จากมุมมองที่แตกต่างกัน
  • บทช่วยสอนการเขียนโปรแกรม: เพื่อปรับปรุงความสามารถในการเขียนโปรแกรมของโมเดล บทช่วยสอนการเขียนโปรแกรมจำนวนมากยังได้รับการรวบรวม ซึ่งครอบคลุมภาษาโปรแกรมและอัลกอริทึมต่างๆ

การควบคุมคุณภาพข้อมูล

Microsoft ได้ทุ่มเทความพยายามอย่างมากในการควบคุมคุณภาพข้อมูลเพื่อให้มั่นใจในความถูกต้องและความสอดคล้องของข้อมูลการฝึกอบรม พวกเขาได้ใช้มาตรการต่อไปนี้:

  • การตรวจสอบด้วยตนเอง: สำหรับชุดข้อมูลที่สำคัญบางชุด จะมีการตรวจสอบด้วยตนเองเพื่อให้มั่นใจในความถูกต้องและคุณภาพของข้อมูล
  • การลงคะแนนเสียงส่วนใหญ่: สำหรับปัญหาที่ไม่มีวิธีแก้ปัญหาที่ถูกต้อง จะใช้วิธีการลงคะแนนเสียงส่วนใหญ่เพื่อสร้างวิธีแก้ปัญหา ซึ่งจะช่วยเพิ่มความถูกต้อง
  • การทำความสะอาดข้อมูล: ข้อมูลทั้งหมดจะได้รับการทำความสะอาดเพื่อลบข้อมูลที่ซ้ำกัน ข้อมูลที่ผิดพลาด และข้อมูลที่ไม่เกี่ยวข้อง

การวิเคราะห์โดยละเอียดของกลยุทธ์การฝึกอบรมหลังการฝึกอบรม

ขั้นตอนการฝึกอบรมหลังการฝึกอบรมของ Phi-4 มีจุดมุ่งหมายเพื่อเปลี่ยนให้เป็นผู้ช่วย AI ที่เชื่อถือได้ ซึ่งประกอบด้วยการปรับแต่งและการเพิ่มประสิทธิภาพความชอบโดยตรง (DPO) เป็นหลัก

ขั้นตอนการปรับแต่ง

เป้าหมายของขั้นตอนการปรับแต่งคือการปรับโมเดลให้เข้ากับงานและโดเมนที่แตกต่างกัน ในขั้นตอนนี้ Microsoft ใช้ข้อมูลคุณภาพสูงที่สร้างจากโดเมนต่อไปนี้:

  • คณิตศาสตร์: รวมถึงปัญหาและวิธีแก้ปัญหาทางคณิตศาสตร์ต่างๆ ซึ่งมีจุดมุ่งหมายเพื่อปรับปรุงความสามารถในการให้เหตุผลทางคณิตศาสตร์ของโมเดล
  • การเขียนโค้ด: รวมถึงปัญหาและวิธีแก้ปัญหาการเขียนโปรแกรมต่างๆ ซึ่งมีจุดมุ่งหมายเพื่อปรับปรุงความสามารถในการสร้างและทำความเข้าใจโค้ดของโมเดล
  • การให้เหตุผล: รวมถึงปัญหาการให้เหตุผลเชิงตรรกะต่างๆ ซึ่งมีจุดมุ่งหมายเพื่อปรับปรุงความสามารถในการคิดเชิงตรรกะของโมเดล
  • การสนทนา: รวมถึงข้อมูลการสนทนาต่างๆ ซึ่งมีจุดมุ่งหมายเพื่อปรับปรุงความเข้าใจและการสร้างภาษาธรรมชาติของโมเดล
  • เอกลักษณ์ของโมเดล: รวมถึงคำอธิบายเอกลักษณ์ของโมเดลต่างๆ ซึ่งมีจุดมุ่งหมายเพื่อปรับปรุงความเข้าใจของโมเดลเกี่ยวกับความสามารถของตนเอง
  • ความปลอดภัย: รวมถึงปัญหาและวิธีแก้ปัญหาด้านความปลอดภัยต่างๆ ซึ่งมีจุดมุ่งหมายเพื่อปรับปรุงความปลอดภัยของโมเดล

ขั้นตอนการเพิ่มประสิทธิภาพความชอบโดยตรง (DPO)

เป้าหมายของขั้นตอนการเพิ่มประสิทธิภาพความชอบโดยตรง (DPO) คือการทำให้พฤติกรรมของโมเดลสอดคล้องกับความชอบของมนุษย์ได้ดียิ่งขึ้นและกำจัดพฤติกรรมที่ไม่พึงประสงค์ ขั้นตอนนี้ประกอบด้วยสองขั้นตอน:

  1. การค้นหาโทเค็นสำคัญ: ในขั้นตอนแรก Microsoft ใช้เทคนิคใหม่ที่เรียกว่า Pivotal Token Search เพื่อสร้างคู่ผลลัพธ์ที่ต้องการ/ไม่ต้องการ เทคนิคนี้ใช้การค้นหาพื้นที่เอาต์พุตของโมเดลเพื่อค้นหาโทเค็นสำคัญที่สามารถแยกแยะพฤติกรรมที่ต้องการและไม่ต้องการได้
  2. GPT-4o ในฐานะผู้ให้คะแนน: ในขั้นตอนที่สอง พวกเขาใช้ GPT-4o ในฐานะผู้ให้คะแนนเพื่อติดป้ายผลลัพธ์แต่ละคู่ด้วยป้ายกำกับบวกหรือลบ GPT-4o สามารถประเมินเอาต์พุตของโมเดลตามความชอบของมนุษย์ ซึ่งจะช่วยให้โมเดลเรียนรู้ความชอบของมนุษย์ได้ดีขึ้น

การประเมินประสิทธิภาพของ Phi-4

เพื่อประเมินประสิทธิภาพของ Phi-4 Microsoft ได้ใช้เฟรมเวิร์ก SIMPLE-EVALS ของ OpenAI ซึ่งมีเกณฑ์มาตรฐานต่างๆ ที่สามารถประเมินประสิทธิภาพของโมเดลในงานต่างๆ ได้

เกณฑ์มาตรฐาน

Phi-4 มีประสิทธิภาพที่โดดเด่นในเกณฑ์มาตรฐานต่อไปนี้:

  • GPQA (การตอบคำถาม STEM ระดับบัณฑิตศึกษา): ในเกณฑ์มาตรฐานนี้ Phi-4 มีประสิทธิภาพเหนือกว่าโมเดลครู GPT-4o ซึ่งแสดงให้เห็นว่ามีความสามารถในการตอบคำถามในสาขา STEM ที่แข็งแกร่งมาก
  • MATH (การแข่งขันคณิตศาสตร์): ในเกณฑ์มาตรฐานนี้ Phi-4 ยังมีประสิทธิภาพเหนือกว่าโมเดลครู GPT-4o ซึ่งแสดงให้เห็นว่ามีความสามารถในการแก้ปัญหาทางคณิตศาสตร์ที่ซับซ้อนที่โดดเด่นมาก
  • การเปรียบเทียบกับโมเดลอื่น: ในเกณฑ์มาตรฐานหลายรายการ Phi-4 มีประสิทธิภาพเหนือกว่า Llama-3.1-405B ซึ่งแสดงให้เห็นว่ามีประสิทธิภาพโดยรวมที่แข็งแกร่งมาก

การวิเคราะห์ประสิทธิภาพ

จากการประเมินประสิทธิภาพของ Phi-4 สามารถสรุปได้ดังนี้:

  • ความสามารถในการให้เหตุผลทางคณิตศาสตร์ที่แข็งแกร่ง: Phi-4 มีประสิทธิภาพที่โดดเด่นในการให้เหตุผลทางคณิตศาสตร์ ซึ่งเป็นผลมาจากวิธีการที่เป็นนวัตกรรมที่ใช้ในระหว่างการฝึกอบรม รวมถึงข้อมูลสังเคราะห์ ข้อมูลจริงที่คัดสรร และกลยุทธ์การฝึกอบรมหลังการฝึกอบรม
  • เหนือกว่าโมเดลครู: ในเกณฑ์มาตรฐานหลายรายการ Phi-4 มีประสิทธิภาพเหนือกว่าโมเดลครู GPT-4o ซึ่งแสดงให้เห็นว่าประสิทธิภาพไม่ใช่แค่การกลั่นความรู้
  • การเปรียบเทียบกับโมเดลอื่น: Phi-4 มีประสิทธิภาพเหนือกว่า Llama-3.1-405B ในเกณฑ์มาตรฐานหลายรายการ ซึ่งแสดงให้เห็นว่ามีประสิทธิภาพโดยรวมที่แข็งแกร่งมาก

แนวโน้มการประยุกต์ใช้ Phi-4

Phi-4 เป็นโมเดลภาษาขนาดเล็กที่ออกแบบมาโดยเฉพาะสำหรับการให้เหตุผลทางคณิตศาสตร์ที่ซับซ้อน จึงมีแนวโน้มการประยุกต์ใช้ที่กว้างขวาง สามารถนำไปใช้ในสาขาต่อไปนี้:

  • การศึกษา: สามารถใช้เป็นเครื่องมือช่วยสอนคณิตศาสตร์ ช่วยเหลือนักเรียนในการแก้ปัญหาทางคณิตศาสตร์ และมอบประสบการณ์การเรียนรู้ส่วนบุคคล
  • การวิจัย: สามารถใช้เป็นเครื่องมือวิจัย ช่วยเหลือนักวิจัยในการสร้างแบบจำลองทางคณิตศาสตร์และการวิเคราะห์ข้อมูล
  • วิศวกรรม: สามารถใช้เป็นเครื่องมือทางวิศวกรรม ช่วยเหลือวิศวกรในการออกแบบและการวิเคราะห์
  • การเงิน: สามารถใช้เป็นเครื่องมือทางการเงิน ช่วยเหลือนักวิเคราะห์ทางการเงินในการประเมินความเสี่ยงและการตัดสินใจลงทุน
  • สาขาอื่นๆ: สามารถนำไปใช้ในสาขาอื่นๆ ที่ต้องการการให้เหตุผลทางคณิตศาสตร์ที่ซับซ้อน เช่น การแพทย์ โลจิสติกส์ และการผลิต

บทสรุป

การปรากฏตัวของ Microsoft Phi-4 เป็นสัญลักษณ์ของการก้าวหน้าครั้งสำคัญในด้านการให้เหตุผลทางคณิตศาสตร์สำหรับโมเดลภาษาขนาดเล็ก กลยุทธ์การฝึกอบรมข้อมูลที่เป็นเอกลักษณ์และวิธีการฝึกอบรมหลังการฝึกอบรมทำให้มีประสิทธิภาพเหนือกว่าโมเดลที่เทียบเท่าและใหญ่กว่า และให้แนวคิดใหม่สำหรับการพัฒนา AI ในอนาคต เมื่อ Phi-4 เปิดให้ใช้งานบน Hugging Face เชื่อว่าจะเป็นประโยชน์ต่อผู้ที่สนใจและนักพัฒนาจำนวนมากขึ้น และส่งเสริมการประยุกต์ใช้เทคโนโลยี AI ในสาขาต่างๆ