همکاری Arm و علی‌بابا: هوش مصنوعی چندوجهی

Arm Kleidi: بهینه‌سازی استنتاج هوش مصنوعی در پردازنده‌های Arm

Arm Kleidi به طور خاص برای رفع این چالش طراحی شده است و بهینه‌سازی عملکرد یکپارچه را برای تمام بارهای کاری استنتاج هوش مصنوعی که روی پردازنده‌های Arm اجرا می‌شوند، فراهم می‌کند. در قلب Kleidi، KleidiAI قرار دارد، مجموعه‌ای ساده از روتین‌های Arm منبع باز و بسیار کارآمد که برای تسریع هوش مصنوعی ساخته شده‌اند.

KleidiAI در حال حاضر در آخرین نسخه‌های فریم‌ورک‌های هوش مصنوعی پرکاربرد برای دستگاه‌های لبه ادغام شدهاست. این فریم‌ورک‌ها شامل ExecuTorch، Llama.cpp، LiteRT از طریق XNNPACK و MediaPipe هستند. این ادغام گسترده، مزیت قابل توجهی را برای میلیون‌ها توسعه‌دهنده ارائه می‌دهد، که اکنون می‌توانند به طور خودکار از بهینه‌سازی‌های عملکرد هوش مصنوعی بدون هیچ تلاش اضافی بهره‌مند شوند.

همکاری با علی‌بابا: مدل Qwen2-VL-2B-Instruct

یک نقطه عطف جدید در پیشرفت هوش مصنوعی چندوجهی در دستگاه‌های لبه از طریق همکاری نزدیک با MNN حاصل شده است. MNN یک فریم‌ورک یادگیری عمیق سبک و منبع باز است که توسط علی‌بابا توسعه و نگهداری می‌شود. این همکاری منجر به ادغام موفقیت‌آمیز KleidiAI شده است و بارهای کاری هوش مصنوعی چندوجهی را قادر می‌سازد تا به طور موثر بر روی دستگاه‌های تلفن همراه با استفاده از پردازنده‌های Arm اجرا شوند. کلید این دستاورد، مدل 2B پارامتری Qwen2-VL-2B-Instruct علی‌بابا است که با دستورالعمل تنظیم شده است. این مدل به طور خاص برای درک تصویر، استدلال متن به تصویر و تولید چندوجهی در چندین زبان طراحی شده است، که همگی برای محدودیت‌های دستگاه‌های لبه طراحی شده‌اند.

دستاوردهای عملکرد قابل اندازه‌گیری

ادغام KleidiAI با MNN، بهبودهای عملکردی قابل توجه و قابل اندازه‌گیری را برای مدل Qwen2-VL-2B-Instruct به همراه داشته است. زمان پاسخ‌دهی سریع‌تر در موارد استفاده چندوجهی هوش مصنوعی حیاتی در لبه مشاهده شده است. این پیشرفت‌ها، تجربه‌های کاربری پیشرفته‌ای را در انواع برنامه‌های کاربردی مشتری‌محور علی‌بابا باز می‌کنند. مثال‌ها عبارتند از:

  • چت‌بات‌ها برای خدمات مشتری: ارائه پاسخ‌های سریع‌تر و کارآمدتر به سوالات مشتری.
  • برنامه‌های کاربردی خرید الکترونیکی: امکان جستجوی عکس به کالا را فراهم می‌کند و به مشتریان اجازه می‌دهد تا به سرعت اقلامی را که به دنبال آن هستند، صرفاً با آپلود یک تصویر پیدا کنند.

سرعت افزایش یافته در این برنامه‌ها، نتیجه مستقیم دستاوردهای عملکردی قابل توجه است:

  • بهبود پیش‌پر کردن (Pre-fill): بهبود عملکرد 57 درصدی قابل توجهی در پیش‌پر کردن حاصل شده است. این به مرحله‌ای حیاتی اشاره دارد که در آن مدل‌های هوش مصنوعی ورودی‌های اعلان چند منبعی را قبل از تولید پاسخ پردازش می‌کنند.
  • بهبود رمزگشایی (Decode): بهبود عملکرد 28 درصدی قابل توجهی در رمزگشایی مشاهده شده است. این فرآیندی است که در آن مدل هوش مصنوعی پس از پردازش یک اعلان، متن تولید می‌کند.

فراتر از سرعت، ادغام KleidiAI همچنین به پردازش کارآمدتر بارهای کاری هوش مصنوعی در لبه کمک می‌کند. این امر با کاهش هزینه کلی محاسباتی مرتبط با بارهای کاری چندوجهی حاصل می‌شود. این دستاوردهای عملکرد و کارایی به راحتی برای میلیون‌ها توسعه‌دهنده در دسترس است. هر توسعه‌دهنده‌ای که برنامه‌ها و بارهای کاری را روی فریم‌ورک MNN و همچنین سایر فریم‌ورک‌های هوش مصنوعی محبوب برای دستگاه‌های لبه که KleidiAI در آن‌ها ادغام شده است، اجرا می‌کند، می‌تواند فوراً از آن بهره‌مند شود.

نمایش در دنیای واقعی: ویترین MWC

قابلیت‌های عملی مدل Qwen2-VL-2B-Instruct، که توسط ادغام جدید KleidiAI با MNN پشتیبانی می‌شود، در کنگره جهانی موبایل (MWC) به نمایش گذاشته شد. نمایشی در غرفه Arm توانایی این مدل را در درک ترکیبات متنوعی از ورودی‌های بصری و متنی برجسته کرد. سپس این مدل با خلاصه‌ای مختصر از محتوای تصویر پاسخ داد. کل این فرآیند بر روی پردازنده Arm گوشی‌های هوشمند اجرا شد و قدرت و کارایی این راه‌حل را به نمایش گذاشت. این گوشی‌های هوشمند بر روی سیستم‌روی‌تراشه (SoC) موبایل Dimensity 9400 مبتنی بر Arm مدیاتک، از جمله سری vivo X200 ساخته شده‌اند.

گامی مهم به جلو در تجربه کاربری

ادغام KleidiAI شرکت Arm با فریم‌ورک MNN برای مدل Qwen2-VL-2B-Instruct علی‌بابا، جهشی چشمگیر در تجربه کاربری برای بارهای کاری هوش مصنوعی چندوجهی را نشان می‌دهد. این پیشرفت، این تجربیات پیشرفته را مستقیماً در لبه ارائه می‌دهد، که همگی توسط پردازنده Arm پشتیبانی می‌شوند. این قابلیت‌ها به راحتی در دستگاه‌های تلفن همراه در دسترس هستند و برنامه‌های کاربردی پیشرومشتری‌محور در حال حاضر از مزایای KleidiAI بهره می‌برند.

آینده هوش مصنوعی چندوجهی در دستگاه‌های لبه

با نگاهی به آینده، بهینه‌سازی‌های یکپارچه KleidiAI برای بارهای کاری هوش مصنوعی، همچنان میلیون‌ها توسعه‌دهنده را قادر می‌سازد. آنها قادر خواهند بود تجربیات چندوجهی پیچیده‌تری را در دستگاه‌های لبه ایجاد کنند. این نوآوری مداوم، راه را برای موج بعدی محاسبات هوشمند هموار می‌کند و گامی مهم در تکامل مداوم هوش مصنوعی به شمار می‌رود.

نقل قول‌هایی از رهبری علی‌بابا

“ما خوشحالیم که شاهد همکاری بین مدل زبان بزرگ Qwen ابر علی‌بابا، Arm KleidiAI و MNN هستیم. ادغام فریم‌ورک استنتاج روی دستگاه MNN با Arm KleidiAI به طور قابل توجهی تأخیر و بهره‌وری انرژی Qwen را بهبود بخشیده است. این همکاری، پتانسیل LLMها را در دستگاه‌های تلفن همراه تأیید می‌کند و تجربه کاربری هوش مصنوعی را بهبود می‌بخشد. ما مشتاقانه منتظر ادامه تلاش‌ها برای پیشبرد محاسبات هوش مصنوعی روی دستگاه هستیم.” - دانگ شو، مدیر کل کسب و کار مدل بزرگ Tongyi، ابر علی‌بابا.

“ادغام فنی بین فریم‌ورک استنتاج MNN و Arm KleidiAI یک پیشرفت بزرگ در شتاب‌دهی روی دستگاه را نشان می‌دهد. با بهینه‌سازی مشترک معماری، ما کارایی استنتاج روی دستگاه Tongyi LLM را به میزان زیادی بهبود بخشیده‌ایم و شکاف بین قدرت محاسباتی محدود تلفن همراه و قابلیت‌های پیشرفته هوش مصنوعی را پر کرده‌ایم. این دستاورد، تخصص فنی و همکاری بین‌صنعتی ما را برجسته می‌کند. ما مشتاقانه منتظر ادامه این همکاری برای بهبود اکوسیستم محاسبات روی دستگاه هستیم و تجربیات هوش مصنوعی روان‌تر و کارآمدتری را در تلفن همراه ارائه می‌دهیم.” - شیائوتانگ جیانگ، رئیس MNN، گروه Taobao و Tmall، علی‌بابا.

کاوش عمیق‌تر در جنبه‌های فنی

برای درک کامل اهمیت این همکاری، بررسی برخی از جزئیات فنی زیربنایی مفید است.

نقش MNN

فلسفه طراحی MNN حول کارایی و قابلیت حمل متمرکز است. این امر از طریق چندین ویژگی کلیدی حاصل می‌شود:

  • معماری سبک: MNN به گونه‌ای طراحی شده است که ردپای کوچکی داشته باشد و نیازهای ذخیره‌سازی و حافظه را در دستگاه‌های لبه به حداقل برساند.
  • عملیات بهینه‌شده: این فریم‌ورک شامل عملیات ریاضی بسیار بهینه‌شده‌ای است که به طور خاص برای پردازنده‌های Arm طراحی شده‌اند و عملکرد را به حداکثر می‌رسانند.
  • سازگاری بین پلتفرمی: MNN از طیف گسترده‌ای از سیستم‌عامل‌ها و پلتفرم‌های سخت‌افزاری پشتیبانی می‌کند و آن را به یک انتخاب همه‌کاره برای توسعه‌دهندگان تبدیل می‌کند.

سهم KleidiAI

KleidiAI نقاط قوت MNN را با ارائه مجموعه‌ای از روتین‌های تخصصی که استنتاج هوش مصنوعی را بیشتر تسریع می‌کنند، تکمیل می‌کند. این روتین‌ها از تجربه گسترده Arm در معماری CPU برای باز کردن دستاوردهای عملکردی استفاده می‌کنند که دستیابی به آن‌ها در غیر این صورت دشوار خواهد بود. جنبه‌های کلیدی سهم KleidiAI عبارتند از:

  • هسته‌های بسیار بهینه‌شده: KleidiAI هسته‌های بسیار بهینه‌شده‌ای را برای عملیات رایج هوش مصنوعی، مانند ضرب ماتریس و کانولوشن ارائه می‌دهد. این هسته‌ها به دقت تنظیم شده‌اند تا از ویژگی‌های خاص پردازنده‌های Arm بهره ببرند.
  • ادغام خودکار: ادغام یکپارچه KleidiAI در فریم‌ورک‌های هوش مصنوعی محبوب به این معنی است که توسعه‌دهندگان نیازی به ترکیب دستی این بهینه‌سازی‌ها ندارند. مزایای عملکرد به طور خودکار اعمال می‌شود و فرآیند توسعه را ساده می‌کند.
  • بهبود مستمر: Arm متعهد به به‌روزرسانی و بهبود مستمر KleidiAI است و اطمینان حاصل می‌کند که در خط مقدم فناوری شتاب‌دهی هوش مصنوعی باقی می‌ماند.

Qwen2-VL-2B-Instruct: یک مدل چندوجهی قدرتمند

مدل Qwen2-VL-2B-Instruct گواهی بر تخصص علی‌بابا در مدل‌های زبان بزرگ و هوش مصنوعی چندوجهی است. ویژگی‌های کلیدی آن عبارتند از:

  • تنظیم دستورالعمل: این مدل به طور خاص برای پیروی از دستورالعمل‌ها تنظیم شده است و آن را برای طیف گسترده‌ای از وظایف بسیار سازگار می‌کند.
  • قابلیت‌های چندوجهی: این مدل در درکو پردازش اطلاعات بصری و متنی برتری دارد و برنامه‌هایی مانند شرح تصویر و پاسخگویی به سوالات بصری را امکان‌پذیر می‌کند.
  • پشتیبانی چند زبانه: این مدل برای کار با چندین زبان طراحی شده است و کاربرد آن را در مناطق و پایگاه‌های کاربری مختلف گسترش می‌دهد.
  • بهینه‌شده برای دستگاه‌های لبه: با وجود قابلیت‌های قدرتمند، این مدل به دقت طراحی شده است تا در محدودیت‌های منابع دستگاه‌های لبه کار کند.

گسترش دامنه هوش مصنوعی چندوجهی

پیشرفت‌های مورد بحث در اینجا به تلفن‌های هوشمند محدود نمی‌شود. همین اصول و فناوری‌ها را می‌توان برای طیف گسترده‌ای از دستگاه‌های لبه، از جمله:

  • دستگاه‌های خانه هوشمند: فعال کردن دستیارهای صوتی، تشخیص تصویر برای دوربین‌های امنیتی و سایر ویژگی‌های هوشمند.
  • دستگاه‌های پوشیدنی: پشتیبانی از نظارت بر سلامت، ردیابی تناسب اندام و برنامه‌های کاربردی واقعیت افزوده.
  • اینترنت اشیاء صنعتی: تسهیل تعمیر و نگهداری پیش‌بینی‌کننده، کنترل کیفیت و اتوماسیون در محیط‌های تولیدی.
  • خودرو: بهبود سیستم‌های کمک راننده، سرگرمی داخل کابین و قابلیت‌های رانندگی خودران.

کاربردهای بالقوه هوش مصنوعی چندوجهی در لبه بسیار گسترده هستند و همچنان در حال گسترش هستند. با پیچیده‌تر شدن مدل‌ها و قدرتمندتر شدن سخت‌افزار، می‌توان انتظار داشت که موارد استفاده نوآورانه‌تر و تاثیرگذارتری پدیدار شوند. این همکاری بین Arm و علی‌بابا گامی مهم در این راستا است و قدرت هوش مصنوعی چندوجهی را برای مخاطبان گسترده‌تری به ارمغان می‌آورد و نسل جدیدی از دستگاه‌های هوشمند را ممکن می‌سازد. تمرکز بر کارایی، عملکرد و دسترسی توسعه‌دهندگان تضمین می‌کند که این پیشرفت‌ها تأثیری گسترده و پایدار بر آینده فناوری خواهند داشت.