การขยายตัวของตระกูล Phi: แนะนำความสามารถ Multimodal
Microsoft มีส่วนร่วมในสาขา SLM ที่กำลังเติบโตนี้คือตระกูล Phi ซึ่งเป็นชุดของแบบจำลองขนาดกะทัดรัด Phi รุ่นที่สี่เปิดตัวครั้งแรกในเดือนธันวาคม และตอนนี้ Microsoft กำลังเพิ่มกลุ่มผลิตภัณฑ์ด้วยการเพิ่มที่สำคัญสองอย่าง: Phi-4-multimodal และ Phi-4-mini สอดคล้องกับพี่น้องของพวกเขา โมเดลใหม่เหล่านี้จะสามารถเข้าถึงได้อย่างง่ายดายผ่าน Azure AI Foundry, Hugging Face และ Nvidia API Catalog ทั้งหมดภายใต้ใบอนุญาต MIT ที่อนุญาต
Phi-4-multimodal โดดเด่นเป็นพิเศษ เป็นแบบจำลองพารามิเตอร์ 5.6 พันล้านพารามิเตอร์ที่ใช้ประโยชน์จากเทคนิคที่ซับซ้อนที่เรียกว่า ‘mixture-of-LoRAs’ (Low-Rank Adaptations) วิธีการนี้ช่วยให้แบบจำลองสามารถประมวลผลคำพูด อินพุตภาพ และข้อมูลที่เป็นข้อความพร้อมกันได้ LoRAs แสดงถึงวิธีการใหม่สำหรับการเพิ่มประสิทธิภาพของแบบจำลองภาษาขนาดใหญ่ในงานเฉพาะ โดยหลีกเลี่ยงความจำเป็นในการปรับแต่งอย่างละเอียดในพารามิเตอร์ทั้งหมด แต่ผู้พัฒนาที่ใช้ LoRA จะแทรกน้ำหนักใหม่จำนวนน้อยลงในแบบจำลองอย่างมีกลยุทธ์ เฉพาะน้ำหนักที่เพิ่งเปิดตัวใหม่เหล่านี้เท่านั้นที่ได้รับการฝึกอบรม ส่งผลให้กระบวนการเร็วขึ้นและมีประสิทธิภาพมากขึ้น ผลลัพธ์ที่ได้คือชุดของแบบจำลองที่มีน้ำหนักเบากว่า ซึ่งง่ายต่อการจัดเก็บ แบ่งปัน และปรับใช้
ผลกระทบของประสิทธิภาพนี้มีมาก Phi-4-multimodal บรรลุการอนุมานที่มีเวลาแฝงต่ำ – หมายความว่าสามารถประมวลผลข้อมูลและให้การตอบสนองได้อย่างรวดเร็ว – ในขณะที่ได้รับการปรับให้เหมาะสมสำหรับการดำเนินการบนอุปกรณ์ ซึ่งแปลเป็นการลดค่าใช้จ่ายในการคำนวณลงอย่างมาก ทำให้สามารถเรียกใช้แอปพลิเคชัน AI ที่ซับซ้อนบนอุปกรณ์ที่ก่อนหน้านี้ไม่มีกำลังประมวลผลที่จำเป็น
กรณีการใช้งานที่เป็นไปได้: จากสมาร์ทโฟนไปจนถึงบริการทางการเงิน
แอปพลิเคชันที่เป็นไปได้ของ Phi-4-multimodal มีความหลากหลายและกว้างไกล ลองนึกภาพแบบจำลองที่ทำงานได้อย่างราบรื่นบนสมาร์ทโฟน ขับเคลื่อนคุณสมบัติขั้นสูงภายในยานพาหนะ หรือขับเคลื่อนแอปพลิเคชันระดับองค์กรที่มีน้ำหนักเบา ตัวอย่างที่น่าสนใจคือแอปพลิเคชันบริการทางการเงินหลายภาษา ซึ่งสามารถเข้าใจและตอบสนองต่อข้อสงสัยของผู้ใช้ในภาษาต่างๆ ประมวลผลข้อมูลภาพ เช่น เอกสาร และทั้งหมดนี้ทำงานได้อย่างมีประสิทธิภาพบนอุปกรณ์ของผู้ใช้
นักวิเคราะห์อุตสาหกรรมกำลังตระหนักถึงศักยภาพในการเปลี่ยนแปลงของ Phi-4-multimodal ถือเป็นก้าวสำคัญสำหรับนักพัฒนา โดยเฉพาะอย่างยิ่งผู้ที่มุ่งเน้นการสร้างแอปพลิเคชันที่ขับเคลื่อนด้วย AI สำหรับอุปกรณ์พกพาหรือสภาพแวดล้อมที่ทรัพยากรการคำนวณมีจำกัด
Charlie Dai รองประธานและนักวิเคราะห์หลักของ Forrester เน้นย้ำถึงความสามารถของแบบจำลองในการรวมการประมวลผลข้อความ รูปภาพ และเสียงเข้ากับความสามารถในการให้เหตุผลที่แข็งแกร่ง เขาเน้นย้ำว่าการผสมผสานนี้ช่วยปรับปรุงแอปพลิเคชัน AI ทำให้ผู้พัฒนาและองค์กรต่างๆ มี ‘โซลูชันที่หลากหลาย มีประสิทธิภาพ และปรับขนาดได้’
Yugal Joshi หุ้นส่วนของ Everest Group รับทราบถึงความเหมาะสมของแบบจำลองสำหรับการปรับใช้ในสภาพแวดล้อมที่มีการประมวลผลจำกัด แม้ว่าเขาจะตั้งข้อสังเกตว่าอุปกรณ์พกพาอาจไม่ใช่แพลตฟอร์มที่เหมาะสำหรับกรณีการใช้งาน AI เชิงสร้างสรรค์ทั้งหมด แต่เขาเห็นว่า SLM ใหม่เป็นการสะท้อนให้เห็นว่า Microsoft ได้รับแรงบันดาลใจจาก DeepSeek ซึ่งเป็นอีกหนึ่งความคิดริเริ่มที่มุ่งเน้นไปที่การลดการพึ่งพาโครงสร้างพื้นฐานการประมวลผลขนาดใหญ่
ประสิทธิภาพการเปรียบเทียบ: จุดแข็งและพื้นที่สำหรับการเติบโต
เมื่อพูดถึงประสิทธิภาพการเปรียบเทียบ Phi-4-multimodal แสดงให้เห็นถึงช่องว่างด้านประสิทธิภาพเมื่อเทียบกับรุ่นต่างๆ เช่น Gemini-2.0-Flash และ GPT-4o-realtime-preview โดยเฉพาะอย่างยิ่งในงานการตอบคำถามด้วยเสียง (QA) Microsoft รับทราบว่าขนาดที่เล็กกว่าของรุ่น Phi-4 นั้นจำกัดความสามารถในการเก็บรักษาความรู้ที่เป็นข้อเท็จจริงสำหรับการตอบคำถาม อย่างไรก็ตาม บริษัทยังคงเน้นย้ำถึงความพยายามอย่างต่อเนื่องในการปรับปรุงความสามารถนี้ในการทำซ้ำในอนาคตของแบบจำลอง
แม้จะมีสิ่งนี้ Phi-4-multimodal ก็แสดงให้เห็นถึงจุดแข็งที่น่าประทับใจในด้านอื่นๆ โดยเฉพาะอย่างยิ่ง มันมีประสิทธิภาพเหนือกว่า LLM ยอดนิยมหลายรุ่น รวมถึง Gemini-2.0-Flash Lite และ Claude-3.5-Sonnet ในงานที่เกี่ยวข้องกับการให้เหตุผลทางคณิตศาสตร์และวิทยาศาสตร์ การรู้จำอักขระด้วยแสง (OCR) และการให้เหตุผลทางวิทยาศาสตร์ด้วยภาพ สิ่งเหล่านี้เป็นความสามารถที่สำคัญสำหรับแอปพลิเคชันที่หลากหลาย ตั้งแต่ซอฟต์แวร์เพื่อการศึกษาไปจนถึงเครื่องมือวิจัยทางวิทยาศาสตร์
Phi-4-mini: ขนาดกะทัดรัด ประสิทธิภาพที่น่าประทับใจ
นอกจาก Phi-4-multimodal แล้ว Microsoft ยังเปิดตัว Phi-4-mini อีกด้วย โมเดลนี้มีขนาดกะทัดรัดยิ่งขึ้น โดยมีพารามิเตอร์ 3.8 พันล้านพารามิเตอร์ มันขึ้นอยู่กับสถาปัตยกรรมหม้อแปลงเฉพาะตัวถอดรหัสที่หนาแน่น และรองรับลำดับได้มากถึง 128,000 โทเค็น
Weizhu Chen รองประธานฝ่าย Generative AI ของ Microsoft เน้นย้ำถึงประสิทธิภาพที่โดดเด่นของ Phi-4-mini แม้จะมีขนาดเล็ก ในบล็อกโพสต์ที่ให้รายละเอียดเกี่ยวกับรุ่นใหม่ เขาตั้งข้อสังเกตว่า Phi-4-mini ‘ยังคงมีประสิทธิภาพเหนือกว่ารุ่นที่ใหญ่กว่าในงานที่ใช้ข้อความ รวมถึงการให้เหตุผล คณิตศาสตร์ การเขียนโค้ด การปฏิบัติตามคำแนะนำ และการเรียกใช้ฟังก์ชัน’ สิ่งนี้ตอกย้ำถึงศักยภาพของแบบจำลองที่เล็กกว่าในการส่งมอบคุณค่าที่สำคัญในโดเมนแอปพลิเคชันเฉพาะ
การอัปเดต Granite ของ IBM: การเพิ่มขีดความสามารถในการให้เหตุผล
ความก้าวหน้าใน SLM ไม่ได้จำกัดอยู่แค่ Microsoft เท่านั้น IBM ยังได้เปิดตัวการอัปเดตสำหรับตระกูล Granite ของแบบจำลองพื้นฐาน โดยแนะนำรุ่น Granite 3.2 2B และ 8B โมเดลใหม่เหล่านี้มีความสามารถ ‘chain of thought’ ที่ได้รับการปรับปรุง ซึ่งเป็นส่วนสำคัญของการเพิ่มขีดความสามารถในการให้เหตุผล การปรับปรุงนี้ช่วยให้แบบจำลองมีประสิทธิภาพที่เหนือกว่าเมื่อเทียบกับรุ่นก่อน
นอกจากนี้ IBM ยังได้เปิดตัวแบบจำลองภาษาภาพ (VLM) ใหม่ที่ออกแบบมาโดยเฉพาะสำหรับงานทำความเข้าใจเอกสาร VLM นี้แสดงให้เห็นถึงประสิทธิภาพที่เทียบเท่าหรือเหนือกว่ารุ่นที่ใหญ่กว่าอย่างมีนัยสำคัญ เช่น Llama 3.2 11B และ Pixtral 12B ในเกณฑ์มาตรฐาน เช่น DocVQA, ChartQA, AI2D และ OCRBench1 สิ่งนี้เน้นให้เห็นถึงแนวโน้มที่เพิ่มขึ้นของแบบจำลองเฉพาะทางขนาดเล็กที่ให้ประสิทธิภาพในการแข่งขันในโดเมนเฉพาะ
อนาคตของ AI บนอุปกรณ์: การเปลี่ยนกระบวนทัศน์
การเปิดตัว Phi-4-multimodal และ Phi-4-mini พร้อมกับการอัปเดต Granite ของ IBM แสดงถึงก้าวสำคัญสู่อนาคตที่ความสามารถ AI อันทรงพลังพร้อมใช้งานบนอุปกรณ์หลากหลายประเภท การเปลี่ยนแปลงนี้มีความหมายอย่างมากต่ออุตสาหกรรมและการใช้งานต่างๆ:
- การทำให้ AI เป็นประชาธิปไตย: แบบจำลองที่มีขนาดเล็กและมีประสิทธิภาพมากขึ้นทำให้ AI สามารถเข้าถึงได้โดยนักพัฒนาและผู้ใช้ในวงกว้าง ไม่ใช่แค่ผู้ที่มีทรัพยากรการประมวลผลจำนวนมากเท่านั้น
- ความเป็นส่วนตัวและความปลอดภัยที่ได้รับการปรับปรุง: การประมวลผลบนอุปกรณ์ช่วยลดความจำเป็นในการส่งข้อมูลที่ละเอียดอ่อนไปยังคลาวด์ ซึ่งช่วยเพิ่มความเป็นส่วนตัวและความปลอดภัย
- การตอบสนองและความหน่วงที่ดีขึ้น: การประมวลผลในเครื่องช่วยลดความล่าช้าที่เกี่ยวข้องกับ AI บนคลาวด์ ทำให้เวลาตอบสนองเร็วขึ้นและประสบการณ์ผู้ใช้ที่ราบรื่นยิ่งขึ้น
- ฟังก์ชันออฟไลน์: AI บนอุปกรณ์สามารถทำงานได้แม้ไม่มีการเชื่อมต่ออินเทอร์เน็ต ซึ่งเปิดโอกาสใหม่ๆ สำหรับแอปพลิเคชันในสภาพแวดล้อมระยะไกลหรือมีการเชื่อมต่อต่ำ
- ลดการใช้พลังงาน: แบบจำลองขนาดเล็กต้องการพลังงานน้อยกว่าในการทำงาน ซึ่งช่วยยืดอายุการใช้งานแบตเตอรี่สำหรับอุปกรณ์พกพาและลดผลกระทบต่อสิ่งแวดล้อม
- แอปพลิเคชัน Edge Computing: ซึ่งรวมถึงภาคส่วนต่างๆ เช่น การขับขี่อัตโนมัติ การผลิตอัจฉริยะ และการดูแลสุขภาพทางไกล
ความก้าวหน้าใน SLM กำลังขับเคลื่อนการเปลี่ยนแปลงกระบวนทัศน์ในภูมิทัศน์ AI ในขณะที่แบบจำลองภาษาขนาดใหญ่ยังคงมีบทบาทสำคัญ การเพิ่มขึ้นของแบบจำลองขนาดกะทัดรัดและมีประสิทธิภาพ เช่น แบบจำลองในตระกูล Phi กำลังปูทางไปสู่อนาคตที่ AI แพร่หลาย เข้าถึงได้มากขึ้น และรวมเข้ากับชีวิตประจำวันของเรามากขึ้น การมุ่งเน้นกำลังเปลี่ยนจากขนาดที่แท้จริงไปสู่ประสิทธิภาพ ความเชี่ยวชาญเฉพาะด้าน และความสามารถในการมอบความสามารถ AI อันทรงพลังโดยตรงบนอุปกรณ์ที่เราใช้ทุกวัน แนวโน้มนี้มีแนวโน้มที่จะเร่งตัวขึ้น นำไปสู่แอปพลิเคชันที่เป็นนวัตกรรมมากยิ่งขึ้นและการนำ AI มาใช้ในวงกว้างในภาคส่วนต่างๆ ความสามารถในการทำงานที่ซับซ้อน เช่น การทำความเข้าใจอินพุตหลายรูปแบบ บนอุปกรณ์ที่มีทรัพยากรจำกัด เปิดบทใหม่ในวิวัฒนาการของปัญญาประดิษฐ์
การแข่งขันกำลังดำเนินไปเพื่อสร้าง SLM ที่ชาญฉลาดและมีความสามารถมากขึ้น และข้อเสนอใหม่ของ Microsoft ถือเป็นก้าวสำคัญ