Arm และ Alibaba ร่วมมือพัฒนา AI หลายรูปแบบ

Arm Kleidi: เพิ่มประสิทธิภาพการอนุมาน AI บน Arm CPUs

Arm Kleidi ได้รับการออกแบบมาโดยเฉพาะเพื่อจัดการกับความท้าทายนี้ โดยให้การเพิ่มประสิทธิภาพที่ราบรื่นสำหรับปริมาณงาน AI inference ทั้งหมดที่ทำงานบน Arm CPUs หัวใจหลักของ Kleidi คือ KleidiAI ซึ่งเป็นชุดคำสั่ง Arm แบบโอเพนซอร์สที่มีประสิทธิภาพสูง สร้างขึ้นเพื่อเร่งความเร็ว AI

KleidiAI ได้รับการรวมเข้ากับเฟรมเวิร์ก AI เวอร์ชันล่าสุดที่ใช้กันอย่างแพร่หลายสำหรับอุปกรณ์ Edge แล้ว ซึ่งรวมถึง ExecuTorch, Llama.cpp, LiteRT ผ่าน XNNPACK และ MediaPipe การผสานรวมที่แพร่หลายนี้มอบข้อได้เปรียบที่สำคัญแก่นักพัฒนานับล้าน ซึ่งขณะนี้สามารถได้รับประโยชน์จากการเพิ่มประสิทธิภาพ AI โดยอัตโนมัติโดยไม่ต้องใช้ความพยายามเพิ่มเติม

ความร่วมมือกับ Alibaba: โมเดล Qwen2-VL-2B-Instruct

ความสำเร็จครั้งใหม่ในการพัฒนา AI แบบ multimodal บนอุปกรณ์ Edge เกิดขึ้นได้จากความร่วมมืออย่างใกล้ชิดกับ MNN MNN เป็นเฟรมเวิร์ก deep learning แบบโอเพนซอร์สที่มีน้ำหนักเบา พัฒนาและดูแลโดย Alibaba ความร่วมมือครั้งนี้นำไปสู่การรวม KleidiAI เข้าด้วยกัน ทำให้ปริมาณงาน AI แบบ multimodal ทำงานได้อย่างมีประสิทธิภาพบนอุปกรณ์มือถือโดยใช้ Arm CPUs กุญแจสู่ความสำเร็จนี้คือโมเดล Qwen2-VL-2B-Instruct ขนาด 2B พารามิเตอร์ที่ปรับแต่งตามคำสั่งของ Alibaba โมเดลนี้ได้รับการออกแบบมาโดยเฉพาะสำหรับการทำความเข้าใจรูปภาพ การให้เหตุผลจากข้อความเป็นรูปภาพ และการสร้างแบบ multimodal ในหลายภาษา ทั้งหมดนี้ปรับให้เหมาะกับข้อจำกัดของอุปกรณ์ Edge

การวัดประสิทธิภาพที่เพิ่มขึ้น

การรวม KleidiAI เข้ากับ MNN ทำให้เกิดการปรับปรุงประสิทธิภาพที่สำคัญและวัดผลได้สำหรับโมเดล Qwen2-VL-2B-Instruct มีการสังเกตเวลาตอบสนองที่เร็วขึ้นในกรณีการใช้งาน AI multimodal ที่สำคัญที่ Edge การปรับปรุงเหล่านี้ปลดล็อกประสบการณ์ผู้ใช้ที่ได้รับการปรับปรุงในแอปพลิเคชันที่เน้นลูกค้าเป็นศูนย์กลางของ Alibaba ตัวอย่างเช่น:

  • แชทบอทสำหรับบริการลูกค้า: ให้การตอบสนองที่รวดเร็วและมีประสิทธิภาพยิ่งขึ้นต่อคำถามของลูกค้า
  • แอปพลิเคชัน E-shopping: เปิดใช้งานการค้นหาสินค้าจากรูปภาพ ช่วยให้ลูกค้าค้นหาสินค้าที่ต้องการได้อย่างรวดเร็วเพียงแค่อัปโหลดรูปภาพ

ความเร็วที่เพิ่มขึ้นในแอปพลิเคชันเหล่านี้เป็นผลโดยตรงจากการเพิ่มประสิทธิภาพอย่างมาก:

  • การปรับปรุง Pre-fill: ประสิทธิภาพเพิ่มขึ้นอย่างน่าทึ่งถึง 57 เปอร์เซ็นต์ในการ pre-fill ซึ่งหมายถึงขั้นตอนสำคัญที่โมเดล AI จัดการอินพุต prompt หลายแหล่งก่อนที่จะสร้างการตอบสนอง
  • การปรับปรุง Decode: ประสิทธิภาพเพิ่มขึ้นอย่างมากถึง 28 เปอร์เซ็นต์ในการ decode นี่คือกระบวนการที่โมเดล AI สร้างข้อความหลังจากประมวลผล prompt

นอกเหนือจากความเร็วแล้ว การรวม KleidiAI ยังช่วยให้การประมวลผลปริมาณงาน AI ที่ Edge มีประสิทธิภาพมากขึ้นอีกด้วย ซึ่งทำได้โดยการลดต้นทุนการคำนวณโดยรวมที่เกี่ยวข้องกับปริมาณงาน multimodal การเพิ่มประสิทธิภาพและประสิทธิผลเหล่านี้สามารถเข้าถึงได้ง่ายสำหรับนักพัฒนานับล้าน นักพัฒนาที่เรียกใช้แอปพลิเคชันและปริมาณงานบนเฟรมเวิร์ก MNN รวมถึงเฟรมเวิร์ก AI ยอดนิยมอื่นๆ สำหรับอุปกรณ์ Edge ที่ KleidiAI รวมอยู่ด้วย สามารถได้รับประโยชน์ได้ทันที

การสาธิตในโลกแห่งความเป็นจริง: การแสดง MWC

ความสามารถเชิงปฏิบัติของโมเดล Qwen2-VL-2B-Instruct ซึ่งขับเคลื่อนโดยการรวม KleidiAI ใหม่กับ MNN ได้รับการจัดแสดงที่ Mobile World Congress (MWC) การสาธิตที่บูธของ Arm เน้นย้ำถึงความสามารถของโมเดลในการทำความเข้าใจการผสมผสานที่หลากหลายของอินพุตภาพและข้อความ จากนั้นโมเดลจะตอบกลับด้วยสรุปเนื้อหาของภาพอย่างกระชับ กระบวนการทั้งหมดนี้ดำเนินการบน Arm CPU ของสมาร์ทโฟน ซึ่งแสดงให้เห็นถึงพลังและประสิทธิภาพของโซลูชัน สมาร์ทโฟนเหล่านี้สร้างขึ้นบนระบบบนชิป (SoC) Dimensity 9400 ที่ขับเคลื่อนด้วย Arm ของ MediaTek รวมถึง vivo X200 Series

ก้าวสำคัญในประสบการณ์ผู้ใช้

การรวม KleidiAI ของ Arm เข้ากับเฟรมเวิร์ก MNN สำหรับโมเดล Qwen2-VL-2B-Instruct ของ Alibaba แสดงถึงก้าวกระโดดครั้งสำคัญในประสบการณ์ผู้ใช้สำหรับปริมาณงาน AI แบบ multimodal ความก้าวหน้านี้มอบประสบการณ์ที่ได้รับการปรับปรุงเหล่านี้โดยตรงที่ Edge ทั้งหมดนี้ขับเคลื่อนโดย Arm CPU ความสามารถเหล่านี้พร้อมใช้งานบนอุปกรณ์มือถือ โดยแอปพลิเคชันที่เน้นลูกค้าเป็นศูนย์กลางชั้นนำได้ใช้ประโยชน์จาก KleidiAI แล้ว

อนาคตของ AI แบบ Multimodal บนอุปกรณ์ Edge

เมื่อมองไปข้างหน้า การเพิ่มประสิทธิภาพที่ราบรื่นของ KleidiAI สำหรับปริมาณงาน AI จะยังคงช่วยให้นักพัฒนานับล้านสามารถสร้างประสบการณ์ multimodal ที่ซับซ้อนยิ่งขึ้นบนอุปกรณ์ Edge นวัตกรรมอย่างต่อเนื่องนี้จะปูทางไปสู่คลื่นลูกใหม่ของการประมวลผลอัจฉริยะ ซึ่งเป็นก้าวสำคัญในการพัฒนา AI อย่างต่อเนื่อง

คำพูดจากผู้นำของ Alibaba

‘เรายินดีที่ได้เห็นความร่วมมือระหว่าง Qwen ซึ่งเป็น large language model ของ Alibaba Cloud, Arm KleidiAI และ MNN การรวมเฟรมเวิร์กการอนุมานบนอุปกรณ์ของ MNN เข้ากับ Arm KleidiAI ได้ปรับปรุงเวลาแฝงและประสิทธิภาพการใช้พลังงานของ Qwen อย่างมีนัยสำคัญ ความร่วมมือครั้งนี้ยืนยันถึงศักยภาพของ LLMs บนอุปกรณ์มือถือและปรับปรุงประสบการณ์ผู้ใช้ AI เราหวังว่าจะได้พยายามอย่างต่อเนื่องในการพัฒนาการประมวลผล AI บนอุปกรณ์’ - Dong Xu, GM of Tongyi Large Model Business, Alibaba Cloud.

‘การรวมเทคนิคระหว่างเฟรมเวิร์กการอนุมาน MNN และ Arm KleidiAI ถือเป็นความก้าวหน้าครั้งสำคัญในการเร่งความเร็วบนอุปกรณ์ ด้วยการเพิ่มประสิทธิภาพร่วมกันของสถาปัตยกรรม เราได้ปรับปรุงประสิทธิภาพการอนุมานบนอุปกรณ์ของ Tongyi LLM อย่างมาก เชื่อมช่องว่างระหว่างพลังการประมวลผลมือถือที่จำกัดและความสามารถ AI ขั้นสูง ความสำเร็จนี้เน้นย้ำถึงความเชี่ยวชาญด้านเทคนิคและความร่วมมือข้ามอุตสาหกรรมของเรา เราหวังว่าจะได้ร่วมมือกันต่อไปเพื่อปรับปรุงระบบนิเวศการประมวลผลบนอุปกรณ์ มอบประสบการณ์ AI ที่ราบรื่นและมีประสิทธิภาพยิ่งขึ้นบนมือถือ’ - Xiaotang Jiang, Head of MNN, Taobao and Tmall Group, Alibaba.

เจาะลึกด้านเทคนิค

เพื่อให้เข้าใจถึงความสำคัญของความร่วมมือนี้อย่างถ่องแท้ การตรวจสอบรายละเอียดทางเทคนิคบางอย่างจะเป็นประโยชน์

บทบาทของ MNN

ปรัชญาการออกแบบของ MNN มุ่งเน้นไปที่ประสิทธิภาพและความสามารถในการพกพา ซึ่งทำได้ผ่านคุณสมบัติหลักหลายประการ:

  • สถาปัตยกรรมน้ำหนักเบา: MNN ได้รับการออกแบบมาให้มีขนาดเล็ก ลดความต้องการพื้นที่จัดเก็บและหน่วยความจำบนอุปกรณ์ Edge
  • การดำเนินการที่ปรับให้เหมาะสม: เฟรมเวิร์กนี้รวมการดำเนินการทางคณิตศาสตร์ที่ปรับให้เหมาะสมอย่างมากซึ่งปรับแต่งมาโดยเฉพาะสำหรับ Arm CPUs เพิ่มประสิทธิภาพสูงสุด
  • ความเข้ากันได้ข้ามแพลตฟอร์ม: MNN รองรับระบบปฏิบัติการและแพลตฟอร์มฮาร์ดแวร์ที่หลากหลาย ทำให้เป็นตัวเลือกที่หลากหลายสำหรับนักพัฒนา

การมีส่วนร่วมของ KleidiAI

KleidiAI เสริมจุดแข็งของ MNN โดยจัดเตรียมชุดคำสั่งเฉพาะที่เร่งการอนุมาน AI ให้ดียิ่งขึ้น คำสั่งเหล่านี้ใช้ประโยชน์จากประสบการณ์ที่กว้างขวางของ Arm ในสถาปัตยกรรม CPU เพื่อปลดล็อกประสิทธิภาพที่เพิ่มขึ้นซึ่งยากที่จะทำได้ด้วยวิธีอื่น ประเด็นสำคัญของการมีส่วนร่วมของ KleidiAI ได้แก่:

  • เคอร์เนลที่ปรับให้เหมาะสมอย่างมาก: KleidiAI ให้เคอร์เนลที่ปรับให้เหมาะสมอย่างมากสำหรับการดำเนินการ AI ทั่วไป เช่น การคูณเมทริกซ์และการบิด เคอร์เนลเหล่านี้ได้รับการปรับแต่งอย่างพิถีพิถันเพื่อใช้ประโยชน์จากคุณสมบัติเฉพาะของ Arm CPUs
  • การรวมอัตโนมัติ: การรวม KleidiAI เข้ากับเฟรมเวิร์ก AI ยอดนิยมอย่างราบรื่นหมายความว่านักพัฒนาไม่จำเป็นต้องรวมการเพิ่มประสิทธิภาพเหล่านี้ด้วยตนเอง ประโยชน์ด้านประสิทธิภาพจะถูกนำไปใช้โดยอัตโนมัติ ทำให้กระบวนการพัฒนาง่ายขึ้น
  • การปรับปรุงอย่างต่อเนื่อง: Arm มุ่งมั่นที่จะปรับปรุงและพัฒนา KleidiAI อย่างต่อเนื่อง เพื่อให้มั่นใจว่ายังคงอยู่ในระดับแนวหน้าของเทคโนโลยีการเร่งความเร็ว AI

Qwen2-VL-2B-Instruct: โมเดล Multimodal ที่ทรงพลัง

โมเดล Qwen2-VL-2B-Instruct เป็นเครื่องพิสูจน์ถึงความเชี่ยวชาญของ Alibaba ในด้าน large language models และ AI แบบ multimodal คุณสมบัติหลักของมันรวมถึง:

  • การปรับแต่งคำสั่ง: โมเดลได้รับการปรับแต่งมาโดยเฉพาะเพื่อทำตามคำสั่ง ทำให้สามารถปรับให้เข้ากับงานต่างๆ ได้หลากหลาย
  • ความสามารถ Multimodal: มีความโดดเด่นในการทำความเข้าใจและประมวลผลทั้งข้อมูลภาพและข้อความ ทำให้สามารถใช้งานแอปพลิเคชันต่างๆ เช่น การบรรยายภาพและการตอบคำถามด้วยภาพ
  • การสนับสนุนหลายภาษา: โมเดลได้รับการออกแบบมาเพื่อทำงานกับหลายภาษา ขยายขอบเขตการใช้งานในภูมิภาคและฐานผู้ใช้ที่แตกต่างกัน
  • ปรับให้เหมาะสมสำหรับอุปกรณ์ Edge: แม้จะมีความสามารถที่ทรงพลัง แต่โมเดลก็ได้รับการออกแบบมาอย่างพิถีพิถันเพื่อให้ทำงานภายใต้ข้อจำกัดด้านทรัพยากรของอุปกรณ์ Edge

การขยายขอบเขตของ AI แบบ Multimodal

ความก้าวหน้าที่กล่าวถึงในที่นี้ไม่ได้จำกัดอยู่แค่สมาร์ทโฟน หลักการและเทคโนโลยีเดียวกันนี้สามารถนำไปใช้กับอุปกรณ์ Edge ได้หลากหลาย รวมถึง:

  • อุปกรณ์ Smart Home: เปิดใช้งานผู้ช่วยเสียง การจดจำภาพสำหรับกล้องรักษาความปลอดภัย และคุณสมบัติอัจฉริยะอื่นๆ
  • อุปกรณ์สวมใส่: ขับเคลื่อนการตรวจสอบสุขภาพ การติดตามการออกกำลังกาย และแอปพลิเคชัน augmented reality
  • Industrial IoT: อำนวยความสะดวกในการบำรุงรักษาเชิงคาดการณ์ การควบคุมคุณภาพ และระบบอัตโนมัติในการตั้งค่าการผลิต
  • ยานยนต์: ปรับปรุงระบบช่วยเหลือผู้ขับขี่ ความบันเทิงในห้องโดยสาร และความสามารถในการขับขี่อัตโนมัติ

แอปพลิเคชันที่เป็นไปได้ของ AI แบบ multimodal ที่ Edge นั้นมีมากมายและยังคงขยายตัวอย่างต่อเนื่อง เมื่อโมเดลมีความซับซ้อนมากขึ้นและฮาร์ดแวร์มีประสิทธิภาพมากขึ้น เราคาดว่าจะเห็นกรณีการใช้งานที่สร้างสรรค์และมีผลกระทบมากยิ่งขึ้น ความร่วมมือระหว่าง Arm และ Alibaba นี้เป็นก้าวสำคัญในทิศทางนั้น นำพลังของ AI แบบ multimodal มาสู่ผู้ชมในวงกว้างขึ้น และเปิดใช้งานอุปกรณ์อัจฉริยะรุ่นใหม่ การมุ่งเน้นที่ประสิทธิภาพ ประสิทธิผล และการเข้าถึงของนักพัฒนาทำให้มั่นใจได้ว่าความก้าวหน้าเหล่านี้จะมีผลกระทบในวงกว้างและยั่งยืนต่ออนาคตของเทคโนโลยี