Phi-4 ของ Microsoft: AI ขนาดเล็ก ประสิทธิภาพสูง

นิยามใหม่ของประสิทธิภาพใน AI: แนวทางของ Phi-4

Phi-4 ซีรีส์ ซึ่งรวมถึง Phi-4-multimodal (5.6 พันล้านพารามิเตอร์) และ Phi-4-Mini (3.8 พันล้านพารามิเตอร์) แสดงถึงความก้าวหน้าครั้งสำคัญในการพัฒนา small language models (SLMs) โมเดลเหล่านี้ไม่ได้เป็นเพียงรุ่นย่อของโมเดลขนาดใหญ่ แต่ได้รับการออกแบบมาอย่างพิถีพิถันเพื่อมอบประสิทธิภาพที่ในบางกรณีเทียบเท่าหรือเหนือกว่าโมเดลที่มีขนาดใหญ่กว่าถึงสองเท่า ประสิทธิภาพนี้ไม่ได้เป็นเพียงความสำเร็จทางเทคนิคเท่านั้น แต่ยังเป็นข้อได้เปรียบเชิงกลยุทธ์ในโลกที่มุ่งเน้นไปที่ edge computing และความเป็นส่วนตัวของข้อมูลมากขึ้น

Weizhu Chen รองประธานฝ่าย Generative AI ของ Microsoft เน้นย้ำถึงลักษณะการเสริมพลังของโมเดลเหล่านี้: ‘โมเดลเหล่านี้ได้รับการออกแบบมาเพื่อเพิ่มขีดความสามารถให้กับนักพัฒนาด้วยความสามารถ AI ขั้นสูง’ เขาเน้นย้ำถึงศักยภาพของ Phi-4-multimodal ด้วยความสามารถในการจัดการหลายรูปแบบ เพื่อปลดล็อก ‘ความเป็นไปได้ใหม่ๆ ในการสร้างแอปพลิเคชันที่เป็นนวัตกรรมและรับรู้บริบท’

ความต้องการโมเดลที่มีประสิทธิภาพดังกล่าวได้รับแรงผลักดันจากความต้องการ AI ที่เพิ่มขึ้น ซึ่งสามารถทำงานนอกขอบเขตของศูนย์ข้อมูลขนาดใหญ่ องค์กรต่างๆ กำลังมองหาโซลูชัน AI ที่สามารถทำงานบนฮาร์ดแวร์มาตรฐาน หรือที่ ‘edge’ – บนอุปกรณ์โดยตรง แนวทางนี้ช่วยลดต้นทุน ลดเวลาแฝง และที่สำคัญคือเพิ่มความเป็นส่วนตัวของข้อมูลโดยให้การประมวลผลอยู่ในเครื่อง

นวัตกรรมเบื้องหลังประสิทธิภาพ: Mixture of LoRAs

นวัตกรรมสำคัญที่สนับสนุนความสามารถของ Phi-4-multimodal คือเทคนิค ‘Mixture of LoRAs’ แนวทางนี้ช่วยให้โมเดลสามารถรวมการประมวลผลข้อความ รูปภาพ และเสียงพูดเข้าด้วยกันได้อย่างราบรื่นภายในสถาปัตยกรรมเดียว ซึ่งแตกต่างจากวิธีการดั้งเดิมที่การเพิ่มรูปแบบอาจทำให้ประสิทธิภาพลดลง Mixture of LoRAs ช่วยลดการรบกวนระหว่างรูปแบบอินพุตต่างๆ เหล่านี้

เอกสารการวิจัยที่ให้รายละเอียดเกี่ยวกับเทคนิคนี้อธิบายว่า: ‘ด้วยการใช้ประโยชน์จาก Mixture of LoRAs ทำให้ Phi-4-Multimodal ขยายความสามารถ multimodal ในขณะที่ลดการรบกวนระหว่าง modalities แนวทางนี้ช่วยให้สามารถผสานรวมได้อย่างราบรื่นและรับประกันประสิทธิภาพที่สม่ำเสมอในงานที่เกี่ยวข้องกับข้อความ รูปภาพ และเสียงพูด/เสียง’

ผลลัพธ์ที่ได้คือโมเดลที่รักษาความสามารถในการเข้าใจภาษาที่แข็งแกร่ง ในขณะเดียวกันก็มีความเป็นเลิศในการจดจำภาพและเสียงพูด นี่เป็นการเปลี่ยนแปลงที่สำคัญจากการประนีประนอมที่มักเกิดขึ้นเมื่อปรับโมเดลสำหรับอินพุตหลายประเภท

ความสำเร็จในการวัดประสิทธิภาพ: จุดเด่นด้านประสิทธิภาพของ Phi-4

โมเดล Phi-4 ไม่เพียงแต่ให้ประสิทธิภาพเท่านั้น แต่ยังให้ผลลัพธ์ที่แสดงให้เห็นได้จริงอีกด้วย Phi-4-multimodal ได้รับตำแหน่งสูงสุดใน Hugging Face OpenASR leaderboard โดยมีอัตราความผิดพลาดของคำเพียง 6.14% ซึ่งเหนือกว่าระบบรู้จำเสียงพูดเฉพาะทางอย่าง WhisperV3 นอกเหนือจากเสียงพูดแล้ว โมเดลยังแสดงประสิทธิภาพที่แข่งขันได้ในงานด้านการมองเห็น โดยเฉพาะอย่างยิ่งงานที่เกี่ยวข้องกับการใช้เหตุผลทางคณิตศาสตร์และวิทยาศาสตร์ด้วยภาพ

Phi-4-mini แม้จะมีขนาดที่เล็กกว่า แต่ก็แสดงให้เห็นถึงความสามารถพิเศษในการทำงานที่ใช้ข้อความเป็นหลัก การวิจัยของ Microsoft ระบุว่า ‘มีประสิทธิภาพเหนือกว่าโมเดลขนาดใกล้เคียงกัน และเทียบเท่ากับโมเดลที่มีขนาดใหญ่กว่าสองเท่า’ ในเกณฑ์มาตรฐานการทำความเข้าใจภาษาต่างๆ

ประสิทธิภาพของโมเดลในงานคณิตศาสตร์และการเขียนโค้ดนั้นโดดเด่นเป็นพิเศษ Phi-4-mini ซึ่งมี 32 Transformer layers และการใช้งานหน่วยความจำที่ปรับให้เหมาะสม ได้คะแนน 88.6% ที่น่าประทับใจในเกณฑ์มาตรฐานคณิตศาสตร์ GSM-8K ซึ่งเหนือกว่าโมเดล 8 พันล้านพารามิเตอร์ส่วนใหญ่ ในเกณฑ์มาตรฐาน MATH ได้คะแนน 64% ซึ่งสูงกว่าคู่แข่งที่มีขนาดใกล้เคียงกันอย่างมาก

รายงานทางเทคนิคที่มาพร้อมกับการเปิดตัวเน้นย้ำถึงความสำเร็จนี้: ‘สำหรับเกณฑ์มาตรฐาน Math โมเดลมีประสิทธิภาพเหนือกว่าโมเดลขนาดใกล้เคียงกันด้วยส่วนต่างที่มาก บางครั้งมากกว่า 20 คะแนน และยังเหนือกว่าคะแนนของโมเดลที่ใหญ่กว่าสองเท่า’ นี่ไม่ใช่การปรับปรุงเพียงเล็กน้อย แต่แสดงถึงการก้าวกระโดดครั้งสำคัญในความสามารถของโมเดล AI ขนาดกะทัดรัด

การใช้งานจริง: Phi-4 ในทางปฏิบัติ

ผลกระทบของ Phi-4 ขยายไปไกลกว่าคะแนนเกณฑ์มาตรฐาน มันถูกนำไปใช้ในโลกแห่งความเป็นจริงแล้ว Capacity ซึ่งเป็น ‘answer engine’ AI ที่ช่วยให้องค์กรต่างๆ รวมชุดข้อมูลที่หลากหลายเข้าด้วยกัน ได้รวมตระกูล Phi เข้าด้วยกันเพื่อเพิ่มประสิทธิภาพและความแม่นยำของแพลตฟอร์ม

Steve Frederickson หัวหน้าฝ่ายผลิตภัณฑ์ของ Capacity เน้นย้ำถึง ‘ความแม่นยำที่โดดเด่นและความง่ายในการปรับใช้ แม้กระทั่งก่อนการปรับแต่ง’ เขาตั้งข้อสังเกตว่าพวกเขาสามารถ ‘เพิ่มทั้งความแม่นยำและความน่าเชื่อถือ ทั้งหมดนี้ในขณะที่ยังคงรักษาความคุ้มค่าและความสามารถในการปรับขนาดที่เราให้ความสำคัญตั้งแต่เริ่มต้น’ Capacity รายงานว่าประหยัดค่าใช้จ่ายได้มากถึง 4.2 เท่า เมื่อเทียบกับเวิร์กโฟลว์คู่แข่ง ในขณะที่ได้ผลลัพธ์ที่เทียบเท่าหรือเหนือกว่าในงานประมวลผลล่วงหน้า

ประโยชน์ในทางปฏิบัติเหล่านี้มีความสำคัญต่อการนำ AI มาใช้อย่างแพร่หลาย Phi-4 ไม่ได้ออกแบบมาเพื่อการใช้งานเฉพาะของยักษ์ใหญ่ด้านเทคโนโลยีที่มีทรัพยากรมหาศาล แต่มีไว้สำหรับการปรับใช้ในสภาพแวดล้อมที่หลากหลาย ซึ่งพลังการประมวลผลอาจมีจำกัด และความเป็นส่วนตัวเป็นสิ่งสำคัญยิ่ง

การเข้าถึงและการทำให้ AI เป็นประชาธิปไตย

กลยุทธ์ของ Microsoft กับ Phi-4 ไม่ได้เป็นเพียงเรื่องของความก้าวหน้าทางเทคโนโลยีเท่านั้น แต่ยังเกี่ยวกับการทำให้ AI เข้าถึงได้ง่ายขึ้นอีกด้วย โมเดลเหล่านี้มีให้ใช้งานผ่าน Azure AI Foundry, Hugging Face และ Nvidia API Catalog เพื่อให้มั่นใจว่ามีการใช้งานในวงกว้าง แนวทางที่รอบคอบนี้มีจุดมุ่งหมายเพื่อทำให้การเข้าถึงความสามารถ AI อันทรงพลังเป็นประชาธิปไตย ขจัดอุปสรรคที่เกิดจากฮาร์ดแวร์ราคาแพงหรือโครงสร้างพื้นฐานขนาดใหญ่

เป้าหมายคือเพื่อให้ AI สามารถทำงานบนอุปกรณ์มาตรฐาน ที่ edge ของเครือข่าย และในอุตสาหกรรมที่พลังการประมวลผลมีน้อย การเข้าถึงนี้มีความสำคัญต่อการปลดล็อกศักยภาพสูงสุดของ AI ในภาคส่วนต่างๆ

Masaya Nishimaki ผู้อำนวยการบริษัท AI ของญี่ปุ่น Headwaters Co., Ltd. เน้นย้ำถึงความสำคัญของการเข้าถึงนี้: ‘Edge AI แสดงให้เห็นถึงประสิทธิภาพที่โดดเด่นแม้ในสภาพแวดล้อมที่มีการเชื่อมต่อเครือข่ายที่ไม่เสถียร หรือในกรณีที่การรักษาความลับเป็นสิ่งสำคัญยิ่ง’ สิ่งนี้เปิดโอกาสสำหรับการใช้งาน AI ในโรงงาน โรงพยาบาล ยานยนต์ไร้คนขับ – สภาพแวดล้อมที่ต้องการข้อมูลอัจฉริยะแบบเรียลไทม์ แต่โมเดลบนคลาวด์แบบดั้งเดิมมักไม่สามารถใช้งานได้จริง

การเปลี่ยนแปลงกระบวนทัศน์ในการพัฒนา AI

Phi-4 แสดงถึงการเปลี่ยนแปลงขั้นพื้นฐานในวิธีที่เราคิดเกี่ยวกับการพัฒนา AI เป็นการย้ายออกจากการแสวงหาโมเดลที่ใหญ่ขึ้นและใหญ่ขึ้นอย่างไม่หยุดยั้ง ไปสู่การมุ่งเน้นที่ประสิทธิภาพ การเข้าถึง และการใช้งานจริง แสดงให้เห็นว่า AI ไม่ได้เป็นเพียงเครื่องมือสำหรับผู้ที่มีทรัพยากรมากที่สุดเท่านั้น แต่เป็นความสามารถที่เมื่อได้รับการออกแบบอย่างรอบคอบแล้ว สามารถนำไปใช้ได้ทุกที่ โดยทุกคน

การปฏิวัติที่แท้จริงของ Phi-4 ไม่ได้อยู่ที่ความสามารถของมันเท่านั้น แต่อยู่ที่ศักยภาพที่มันปลดล็อก มันเกี่ยวกับการนำ AI ไปสู่ edge ไปยังสภาพแวดล้อมที่สามารถสร้างผลกระทบที่สำคัญที่สุด และเพิ่มขีดความสามารถให้ผู้ใช้ในวงกว้างขึ้นเพื่อควบคุมพลังของมัน นี่เป็นมากกว่าความก้าวหน้าทางเทคโนโลยี มันเป็นก้าวไปสู่อนาคต AI ที่ครอบคลุมและเข้าถึงได้มากขึ้น สิ่งที่ปฏิวัติวงการที่สุดเกี่ยวกับ Phi-4 ไม่ใช่แค่สิ่งที่มันทำได้ แต่ยังรวมถึงสถานที่ที่มันทำได้ด้วย