เสริมพลังนวัตกรรมด้วย Phi เจนเนอเรชั่นใหม่

Phi-4-Multimodal: แนวทางแบบครบวงจรสำหรับ AI หลายรูปแบบ

Phi-4-multimodal เป็นก้าวแรกที่สำคัญของไมโครซอฟท์ในการเข้าสู่ขอบเขตของแบบจำลองภาษาหลายรูปแบบ (multimodal language models) แบบจำลองที่ล้ำสมัยนี้มีพารามิเตอร์ 5.6 พันล้านพารามิเตอร์ ผสานรวมการประมวลผลเสียงพูด การมองเห็น และข้อความไว้ในสถาปัตยกรรมเดียวที่เชื่อมโยงกันได้อย่างราบรื่น แนวทางที่เป็นนวัตกรรมนี้เกิดจากความคิดเห็นอันมีค่าของลูกค้าโดยตรง สะท้อนให้เห็นถึงความมุ่งมั่นของไมโครซอฟท์ในการปรับปรุงอย่างต่อเนื่องและตอบสนองต่อความต้องการของผู้ใช้

การพัฒนา Phi-4-multimodal ใช้ประโยชน์จากเทคนิคการเรียนรู้ข้ามรูปแบบ (cross-modal learning) ขั้นสูง ซึ่งช่วยให้แบบจำลองสามารถส่งเสริมการโต้ตอบที่เป็นธรรมชาติและรับรู้บริบทได้มากขึ้น อุปกรณ์ที่ติดตั้ง Phi-4-multimodal สามารถเข้าใจและให้เหตุผลกับรูปแบบข้อมูลเข้าต่างๆ ได้พร้อมกัน มีความยอดเยี่ยมในการตีความภาษาพูด วิเคราะห์รูปภาพ และประมวลผลข้อมูลที่เป็นข้อความ นอกจากนี้ ยังให้การอนุมานที่มีประสิทธิภาพสูงและมีเวลาแฝงต่ำ ในขณะที่ปรับให้เหมาะสมสำหรับการทำงานบนอุปกรณ์ ซึ่งช่วยลดค่าใช้จ่ายในการคำนวณ

หนึ่งในคุณสมบัติที่โดดเด่นของ Phi-4-multimodal คือสถาปัตยกรรมแบบครบวงจร ซึ่งแตกต่างจากแนวทางทั่วไปที่อาศัยไปป์ไลน์ที่ซับซ้อนหรือแบบจำลองแยกต่างหากสำหรับรูปแบบที่แตกต่างกัน Phi-4-multimodal ทำงานเป็นเอนทิตีเดียว สามารถจัดการกับข้อมูลเข้าที่เป็นข้อความ เสียง และภาพภายในพื้นที่แสดงแทนเดียวกันได้อย่างคล่องแคล่ว การออกแบบที่คล่องตัวนี้ช่วยเพิ่มประสิทธิภาพและทำให้กระบวนการพัฒนาง่ายขึ้น

สถาปัตยกรรมของ Phi-4-multimodal ได้รวมการปรับปรุงหลายอย่างเพื่อเพิ่มประสิทธิภาพและความสามารถรอบด้าน ซึ่งรวมถึง:

  • คลังคำศัพท์ที่ใหญ่ขึ้น: ช่วยอำนวยความสะดวกในการประมวลผลที่ดีขึ้น
  • การสนับสนุนหลายภาษา: ขยายขอบเขตการใช้งานของแบบจำลองให้ครอบคลุมบริบททางภาษาที่หลากหลาย
  • การให้เหตุผลทางภาษาแบบบูรณาการ: รวมความเข้าใจภาษาเข้ากับข้อมูลเข้าหลายรูปแบบ

ความก้าวหน้าเหล่านี้เกิดขึ้นได้ภายในแบบจำลองขนาดกะทัดรัดและมีประสิทธิภาพสูง เหมาะอย่างยิ่งสำหรับการปรับใช้บนอุปกรณ์และแพลตฟอร์มการประมวลผลแบบ Edge ความสามารถที่ขยายออกไปและความสามารถในการปรับตัวของ Phi-4-multimodal ได้ปลดล็อกความเป็นไปได้มากมายสำหรับนักพัฒนาแอปพลิเคชัน ธุรกิจ และอุตสาหกรรมที่ต้องการใช้ประโยชน์จาก AI ในรูปแบบใหม่ๆ

ในด้านงานที่เกี่ยวข้องกับการพูด Phi-4-multimodal ได้แสดงให้เห็นถึงความสามารถที่ยอดเยี่ยม กลายเป็นผู้นำในบรรดาแบบจำลองแบบเปิด (open models) โดยเฉพาะอย่างยิ่ง มันมีความสามารถเหนือกว่าแบบจำลองเฉพาะทาง เช่น WhisperV3 และ SeamlessM4T-v2-Large ทั้งในการรู้จำเสียงพูดอัตโนมัติ (ASR) และการแปลเสียงพูด (ST) ได้รับตำแหน่งสูงสุดในลีดเดอร์บอร์ด HuggingFace OpenASR โดยมีอัตราความผิดพลาดของคำที่น่าประทับใจ 6.14% ซึ่งดีกว่าค่าที่ดีที่สุดก่อนหน้านี้ที่ 6.5% (ณ เดือนกุมภาพันธ์ 2025) นอกจากนี้ ยังเป็นหนึ่งในแบบจำลองแบบเปิดเพียงไม่กี่รุ่นที่สามารถใช้การสรุปความด้วยเสียงพูดได้สำเร็จ โดยมีระดับประสิทธิภาพเทียบเท่ากับแบบจำลอง GPT-4o

แม้ว่า Phi-4-multimodal จะแสดงให้เห็นถึงช่องว่างเล็กน้อยเมื่อเทียบกับแบบจำลอง เช่น Gemini-2.0-Flash และ GPT-4o-realtime-preview ในงานตอบคำถามด้วยเสียงพูด (QA) ซึ่งส่วนใหญ่เป็นผลมาจากขนาดที่เล็กกว่าและข้อจำกัดในการเก็บรักษาความรู้ QA ที่เป็นข้อเท็จจริง แต่ความพยายามอย่างต่อเนื่องมุ่งเน้นไปที่การปรับปรุงความสามารถนี้ในการทำซ้ำในอนาคต

นอกเหนือจากเสียงพูดแล้ว Phi-4-multimodal ยังแสดงให้เห็นถึงความสามารถด้านการมองเห็นที่โดดเด่นในเกณฑ์มาตรฐานต่างๆ โดยเฉพาะอย่างยิ่ง มีประสิทธิภาพที่แข็งแกร่งในการให้เหตุผลทางคณิตศาสตร์และวิทยาศาสตร์ แม้จะมีขนาดกะทัดรัด แต่แบบจำลองยังคงรักษาประสิทธิภาพในการแข่งขันในงานหลายรูปแบบทั่วไป ซึ่งรวมถึง:

  • ความเข้าใจเอกสารและแผนภูมิ
  • การรู้จำอักขระด้วยแสง (OCR)
  • การให้เหตุผลทางวิทยาศาสตร์ด้วยภาพ

มีประสิทธิภาพเทียบเท่าหรือสูงกว่าแบบจำลองที่เทียบเคียงได้ เช่น Gemini-2-Flash-lite-preview และ Claude-3.5-Sonnet

Phi-4-Mini: ขุมพลังขนาดกะทัดรัดสำหรับงานที่ใช้ข้อความ

Phi-4-mini เป็นแบบจำลองที่มีพารามิเตอร์ 3.8 พันล้านพารามิเตอร์ ซึ่งออกแบบมาเพื่อความเร็วและประสิทธิภาพในงานที่ใช้ข้อความเป็นหลัก เป็นตัวเสริมของ Phi-4-multimodal หม้อแปลงแบบ Dense, Decoder-only นี้มีคุณสมบัติ:

  • Grouped-query attention
  • คลังคำศัพท์ 200,000 คำ
  • Shared input-output embeddings

แม้จะมีขนาดกะทัดรัด แต่ Phi-4-mini ก็มีประสิทธิภาพเหนือกว่าแบบจำลองขนาดใหญ่กว่าอย่างสม่ำเสมอในงานที่ใช้ข้อความหลายประเภท ซึ่งรวมถึง:

  • การให้เหตุผล
  • คณิตศาสตร์
  • การเขียนโค้ด
  • การทำตามคำสั่ง
  • Function calling

รองรับลำดับโทเค็นได้มากถึง 128,000 โทเค็น ให้ความแม่นยำและความสามารถในการปรับขนาดที่ยอดเยี่ยม ทำให้เป็นโซลูชันที่มีศักยภาพสำหรับแอปพลิเคชัน AI ขั้นสูงที่ต้องการประสิทธิภาพสูงในการประมวลผลข้อความ

Function calling, การทำตามคำสั่ง, การประมวลผลบริบทที่ยาวนาน และการให้เหตุผล ล้วนเป็นความสามารถที่มีศักยภาพที่ช่วยให้แบบจำลองภาษาขนาดเล็ก เช่น Phi-4-mini สามารถเข้าถึงความรู้และฟังก์ชันการทำงานภายนอกได้ ซึ่งเป็นการเอาชนะข้อจำกัดที่เกิดจากขนาดที่กะทัดรัดได้อย่างมีประสิทธิภาพ ด้วยโปรโตคอลที่เป็นมาตรฐาน Function calling ช่วยให้แบบจำลองสามารถผสานรวมกับอินเทอร์เฟซการเขียนโปรแกรมที่มีโครงสร้างได้อย่างราบรื่น

เมื่อได้รับคำขอจากผู้ใช้ Phi-4-mini สามารถ:

  1. ให้เหตุผลผ่านแบบสอบถาม
  2. ระบุและเรียกใช้ฟังก์ชันที่เกี่ยวข้องด้วยพารามิเตอร์ที่เหมาะสม
  3. รับเอาต์พุตของฟังก์ชัน
  4. รวมผลลัพธ์เหล่านี้เข้ากับการตอบสนอง

สิ่งนี้สร้างระบบที่ใช้ตัวแทน (agentic-based system) ที่ขยายได้ ซึ่งความสามารถของแบบจำลองสามารถเพิ่มขึ้นได้โดยการเชื่อมต่อกับเครื่องมือภายนอก, Application Program Interfaces (APIs) และแหล่งข้อมูลผ่านอินเทอร์เฟซฟังก์ชันที่กำหนดไว้อย่างดี ตัวอย่างที่แสดงให้เห็นคือตัวแทนควบคุมบ้านอัจฉริยะที่ขับเคลื่อนโดย Phi-4-mini ซึ่งจัดการอุปกรณ์และฟังก์ชันการทำงานต่างๆ ได้อย่างราบรื่น

ขนาดที่เล็กกว่าของทั้ง Phi-4-mini และ Phi-4-multimodal ทำให้เหมาะอย่างยิ่งสำหรับสภาพแวดล้อมการอนุมานที่มีข้อจำกัดด้านการคำนวณ แบบจำลองเหล่านี้มีประโยชน์อย่างยิ่งสำหรับการปรับใช้บนอุปกรณ์ โดยเฉพาะอย่างยิ่งเมื่อปรับให้เหมาะสมเพิ่มเติมด้วย ONNX Runtime เพื่อความพร้อมใช้งานข้ามแพลตฟอร์ม ข้อกำหนดในการคำนวณที่ลดลงส่งผลให้ต้นทุนลดลงและเวลาแฝงดีขึ้นอย่างมาก หน้าต่างบริบทที่ขยายออกไปช่วยให้แบบจำลองสามารถประมวลผลและให้เหตุผลกับเนื้อหาข้อความที่ครอบคลุม รวมถึงเอกสาร หน้าเว็บ โค้ด และอื่นๆ ทั้ง Phi-4-mini และ Phi-4-multimodal มีความสามารถในการให้เหตุผลและตรรกะที่แข็งแกร่ง ทำให้เป็นคู่แข่งที่แข็งแกร่งสำหรับงานวิเคราะห์ ขนาดที่กะทัดรัดยังช่วยลดความยุ่งยากและลดต้นทุนในการปรับแต่งหรือการปรับเปลี่ยน

การใช้งานจริง: เปลี่ยนแปลงอุตสาหกรรม

การออกแบบของแบบจำลองเหล่านี้ช่วยให้สามารถจัดการกับงานที่ซับซ้อนได้อย่างมีประสิทธิภาพ ทำให้เหมาะอย่างยิ่งสำหรับสถานการณ์การประมวลผลแบบ Edge และสภาพแวดล้อมที่มีทรัพยากรการคำนวณจำกัด ความสามารถที่ขยายออกไปของ Phi-4-multimodal และ Phi-4-mini กำลังขยายขอบเขตการใช้งานของ Phi ในอุตสาหกรรมต่างๆ แบบจำลองเหล่านี้กำลังถูกรวมเข้ากับระบบนิเวศ AI และกำลังถูกใช้เพื่อสำรวจกรณีการใช้งานที่หลากหลาย

นี่คือตัวอย่างที่น่าสนใจบางส่วน:

  • การรวมเข้ากับ Windows: แบบจำลองภาษาทำหน้าที่เป็นกลไกการให้เหตุผลที่มีประสิทธิภาพ การรวมแบบจำลองภาษาขนาดเล็ก เช่น Phi เข้ากับ Windows ช่วยให้สามารถรักษาความสามารถในการคำนวณที่มีประสิทธิภาพ และปูทางไปสู่อนาคตของความชาญฉลาดอย่างต่อเนื่องที่ผสานรวมเข้ากับแอปพลิเคชันและประสบการณ์ผู้ใช้ทั้งหมดได้อย่างราบรื่น Copilot+ PCs จะใช้ประโยชน์จากความสามารถของ Phi-4-multimodal มอบพลังของ SLM ขั้นสูงของไมโครซอฟท์โดยไม่ต้องใช้พลังงานมากเกินไป การผสานรวมนี้จะช่วยเพิ่มประสิทธิภาพการทำงาน ความคิดสร้างสรรค์ และประสบการณ์ด้านการศึกษา สร้างมาตรฐานใหม่สำหรับแพลตฟอร์มนักพัฒนา

  • อุปกรณ์อัจฉริยะ: ลองนึกภาพผู้ผลิตสมาร์ทโฟนที่ฝัง Phi-4-multimodal ลงในอุปกรณ์ของตนโดยตรง สิ่งนี้จะช่วยให้สมาร์ทโฟนสามารถประมวลผลและเข้าใจคำสั่งเสียง จดจำรูปภาพ และตีความข้อความได้อย่างราบรื่น ผู้ใช้จะได้รับประโยชน์จากคุณสมบัติขั้นสูง เช่น การแปลภาษาแบบเรียลไทม์ การวิเคราะห์ภาพถ่ายและวิดีโอที่ได้รับการปรับปรุง และผู้ช่วยส่วนตัวอัจฉริยะที่สามารถเข้าใจและตอบสนองต่อคำถามที่ซับซ้อนได้ สิ่งนี้จะช่วยยกระดับประสบการณ์ผู้ใช้ได้อย่างมากโดยการมอบความสามารถ AI ที่มีศักยภาพโดยตรงบนอุปกรณ์ ทำให้มั่นใจได้ว่ามีเวลาแฝงต่ำและมีประสิทธิภาพสูง

  • อุตสาหกรรมยานยนต์: พิจารณาบริษัทรถยนต์ที่รวม Phi-4-multimodal เข้ากับระบบผู้ช่วยในรถยนต์ แบบจำลองนี้สามารถช่วยให้ยานพาหนะเข้าใจและตอบสนองต่อคำสั่งเสียง จดจำท่าทางของผู้ขับขี่ และวิเคราะห์ข้อมูลเข้าที่เป็นภาพจากกล้องได้ ตัวอย่างเช่น สามารถเพิ่มความปลอดภัยของผู้ขับขี่ได้โดยการตรวจจับอาการง่วงนอนผ่านการจดจำใบหน้าและให้การแจ้งเตือนแบบเรียลไทม์ นอกจากนี้ ยังสามารถให้ความช่วยเหลือในการนำทางที่ราบรื่น ตีความป้ายจราจร และให้ข้อมูลตามบริบท สร้างประสบการณ์การขับขี่ที่ใช้งานง่ายและปลอดภัยยิ่งขึ้น ทั้งเมื่อเชื่อมต่อกับคลาวด์และออฟไลน์เมื่อไม่มีการเชื่อมต่อ

  • บริการทางการเงินหลายภาษา: ลองนึกภาพบริษัทที่ให้บริการทางการเงินที่ใช้ประโยชน์จาก Phi-4-mini เพื่อทำการคำนวณทางการเงินที่ซับซ้อนโดยอัตโนมัติ สร้างรายงานโดยละเอียด และแปลเอกสารทางการเงินเป็นหลายภาษา แบบจำลองนี้สามารถช่วยนักวิเคราะห์ได้โดยการคำนวณทางคณิตศาสตร์ที่ซับซ้อนซึ่งมีความสำคัญต่อการประเมินความเสี่ยง การจัดการพอร์ตโฟลิโอ และการคาดการณ์ทางการเงิน นอกจากนี้ ยังสามารถแปลงบการเงิน เอกสารกำกับดูแล และการสื่อสารกับลูกค้าเป็นภาษาต่างๆ ซึ่งจะช่วยเพิ่มความสัมพันธ์กับลูกค้าทั่วโลก

การรับรองความปลอดภัยและความมั่นคง

Azure AI Foundry มอบชุดความสามารถที่แข็งแกร่งแก่ผู้ใช้เพื่อช่วยให้องค์กรต่างๆ สามารถวัด ลด และจัดการความเสี่ยงด้าน AI ตลอดวงจรการพัฒนา AI สิ่งนี้ใช้ได้กับทั้งการเรียนรู้ของเครื่องแบบดั้งเดิมและแอปพลิเคชัน AI เชิงสร้างสรรค์ (Generative AI) การประเมิน Azure AI ภายใน AI Foundry ช่วยให้นักพัฒนาสามารถประเมินคุณภาพและความปลอดภัยของแบบจำลองและแอปพลิเคชันซ้ำๆ ได้ โดยใช้ทั้งเมตริกในตัวและเมตริกที่กำหนดเองเพื่อแจ้งกลยุทธ์การลด

ทั้ง Phi-4-multimodal และ Phi-4-mini ได้ผ่านการทดสอบความปลอดภัยและความมั่นคงอย่างเข้มงวด ซึ่งดำเนินการโดยผู้เชี่ยวชาญด้านความปลอดภัยภายในและภายนอก ผู้เชี่ยวชาญเหล่านี้ใช้กลยุทธ์ที่สร้างขึ้นโดย Microsoft AI Red Team (AIRT) วิธีการเหล่านี้ได้รับการปรับปรุงจากแบบจำลอง Phi รุ่นก่อนๆ โดยผสมผสานมุมมองระดับโลกและเจ้าของภาษาของภาษาที่รองรับทั้งหมด ครอบคลุมพื้นที่ต่างๆ มากมาย ซึ่งรวมถึง:

  • ความปลอดภัยทางไซเบอร์
  • ความมั่นคงของชาติ
  • ความเป็นธรรม
  • ความรุนแรง

การประเมินเหล่านี้จัดการกับแนวโน้มปัจจุบันผ่านการตรวจสอบหลายภาษา ด้วยการใช้ประโยชน์จาก Python Risk Identification Toolkit (PyRIT) แบบโอเพนซอร์สของ AIRT และการตรวจสอบด้วยตนเอง ทีม Red Team ได้ทำการโจมตีทั้งแบบ Single-turn และ Multi-turn AIRT ทำงานอย่างอิสระจากทีมพัฒนา และแบ่งปันข้อมูลเชิงลึกกับทีมแบบจำลองอย่างต่อเนื่อง แนวทางนี้ประเมินภูมิทัศน์ด้านความปลอดภัยและความมั่นคงของ AI ใหม่ที่นำเสนอโดยแบบจำลอง Phi ล่าสุดอย่างละเอียดถี่ถ้วน ทำให้มั่นใจได้ว่าจะสามารถส่งมอบความสามารถที่มีคุณภาพสูงและปลอดภัย

Model Card ที่ครอบคลุมสำหรับ Phi-4-multimodal และ Phi-4-mini พร้อมกับเอกสารทางเทคนิคที่แนบมา ให้โครงร่างโดยละเอียดเกี่ยวกับการใช้งานที่แนะนำและข้อจำกัดของแบบจำลองเหล่านี้ ความโปร่งใสนี้เน้นย้ำถึงความมุ่งมั่นของไมโครซอฟท์ในการพัฒนาและปรับใช้ AI อย่างมีความรับผิดชอบ แบบจำลองเหล่านี้พร้อมที่จะสร้างผลกระทบอย่างมีนัยสำคัญต่อการพัฒนา AI