رونمایی از Gemma 3n گوگل DeepMind: انقلابی در هوش مصنوعی درون دستگاهی

تلاش بی‌وقفه برای هوش مصنوعی سریع‌تر، هوشمندتر و خصوصی‌تر بر روی دستگاه‌های شخصی ما، در مسیری است که تغییرات عمیقی در نحوه طراحی و استقرار مدل‌های هوش مصنوعی ایجاد می‌کند. ما وارد عصری می‌شویم که در آن هوش مصنوعی صرفاً یک سرویس راه دور نیست. بلکه یک هوش محلی‌سازی شده است که به طور مستقیم در تلفن‌ها، تبلت‌ها و لپ‌تاپ‌های ما جاسازی شده است. این تغییر، پاسخگویی تقریباً فوری، کاهش قابل توجه نیازهای حافظه و تأکید مجدد بر حریم خصوصی کاربر را وعده می‌دهد. از آنجا که سخت‌افزار تلفن همراه به سرعت در حال پیشرفت است، تمرکز بر ایجاد مدل‌های فشرده و فوق‌العاده سریع است که قادر به تعریف مجدد تعاملات دیجیتالی روزانه ما هستند.

چالش هوش مصنوعی چند وجهی درون دستگاهی

یکی از مهم‌ترین موانع در این تلاش، ارائه هوش مصنوعی چند وجهی با کیفیت بالا در محیط‌های محدود از نظر منابع دستگاه‌های تلفن همراه است. برخلاف سیستم‌های مبتنی بر ابر، که از قدرت محاسباتی گسترده بهره می‌برند، مدل‌های درون دستگاهی باید با محدودیت‌های سختگیرانه‌ای در مورد RAM و قابلیت‌های پردازشی کار کنند. هوش مصنوعی چند وجهی، که شامل توانایی تفسیر متن، تصاویر، صدا و فیلم است، به طور معمول به مدل‌های بزرگی نیاز دارد که می‌توانند بر اکثر دستگاه‌های تلفن همراه غلبه کنند. علاوه بر این، اتکا به ابر، نگرانی‌هایی در مورد تأخیر و حریم خصوصی ایجاد می‌کند و نیاز به مدل‌هایی را که قادر به اجرای محلی بدون به خطر انداختن عملکرد هستند، برجسته می‌کند.

Gemma 3n: جهشی بزرگ در هوش مصنوعی تلفن همراه

برای مقابله با این چالش‌ها، گوگل و Google DeepMind، مدل هوش مصنوعی پیشگامانه Gemma 3n را معرفی کرده‌اند که به طور خاص برای استقرار تلفن همراه طراحی شده است. Gemma 3n برای عملکرد در پلتفرم‌های Android و Chrome بهینه‌سازی شده است و به عنوان پایه و اساس تکرار بعدی Gemini Nano عمل می‌کند. این نوآوری نشان‌دهنده یک پیشرفت اساسی است و قابلیت‌های هوش مصنوعی چند وجهی را به دستگاه‌هایی با حافظه بسیار کوچکتر می‌آورد در حالی که زمان پاسخگویی در زمان واقعی را حفظ می‌کند. همچنین اولین مدل متن باز است که بر اساس این زیرساخت مشترک ساخته شده است و دسترسی فوری را برای آزمایش در اختیار توسعه‌دهندگان قرار می‌دهد.

جاسازی‌های لایه به لایه (PLE): یک نوآوری کلیدی

در قلب Gemma 3n، کاربرد جاسازی‌های لایه به لایه (PLE) است، تکنیکی که به طور چشمگیری مصرف RAM را کاهش می‌دهد. در حالی که اندازه‌های مدل خام به ترتیب 5 میلیارد و 8 میلیارد پارامتر هستند، اما با ردپای حافظه‌ای معادل مدل‌های 2 میلیارد و 4 میلیارد پارامتری عمل می‌کنند. مصرف حافظه پویا تنها 2 گیگابایت برای مدل 5B و 3 گیگابایت برای نسخه 8B است. این امر از طریق یک پیکربندی مدل تو در تو حاصل می‌شود که در آن یک مدل ردپای حافظه فعال 4B شامل یک زیرمدل 2B است که با استفاده از روشی به نام MatFormer آموزش داده شده است. این به توسعه‌دهندگان امکان می‌دهد تا بدون نیاز به بارگیری مدل‌های جداگانه، حالت‌های عملکرد را به صورت پویا تغییر دهند. پیشرفت‌های بیشتر، مانند اشتراک‌گذاری KVC و کوانتیزاسیون فعال‌سازی، تأخیر را بیشتر کاهش داده و سرعت پاسخ را تسریع می‌کنند. به عنوان مثال، زمان پاسخگویی در تلفن همراه در مقایسه با Gemma 3 4B، 1.5 برابر بهبود یافته است، در حالی که کیفیت خروجی برتر را حفظ می‌کند.

معیارهای عملکرد

معیارهای عملکردی که توسط Gemma 3n به دست آمده است، مناسب بودن آن را برای استقرار تلفن همراه برجسته می‌کند. این مدل در کارهایی مانند تشخیص گفتار خودکار و ترجمه، برتری دارد و تبدیل یکپارچه گفتار به متن ترجمه شده را امکان‌پذیر می‌کند. در معیارهای چند زبانه مانند WMT24++ (ChrF)، به امتیاز 50.1٪ دست می‌یابد، که قدرت آن را در زبان‌هایی مانند ژاپنی، آلمانی، کره‌ای، اسپانیایی و فرانسوی نشان می‌دهد. قابلیت «mix’n’match» آن، ایجاد زیرمدل‌های بهینه‌سازی شده برای ترکیبات مختلف کیفیت و تأخیر را امکان‌پذیر می‌کند و سفارشی‌سازی بیشتری را به توسعه‌دهندگان ارائه می‌دهد.

قابلیت‌ها و کاربردهای چند وجهی

معماری Gemma 3n از ورودی‌های درهم از حالت‌های مختلف، از جمله متن، صدا، تصاویر و فیلم، پشتیبانی می‌کند و امکان تعاملات طبیعی‌تر و غنی‌تر از نظر زمینه را فراهم می‌کند. همچنین می‌تواند به صورت آفلاین کار کند و از حریم خصوصی و قابلیت اطمینان حتی بدون اتصال به شبکه اطمینان حاصل کند. موارد استفاده بالقوه بسیار زیاد است، از جمله:

  • بازخورد بصری و شنیداری زنده: ارائه پاسخ‌های هم‌زمان به ورودی کاربر از طریق کانال‌های بصری و شنیداری.
  • تولید محتوای آگاه از زمینه: ایجاد محتوای متناسب بر اساس زمینه فعلی کاربر، همانطور که توسط ورودی‌های حسگر مختلف تعیین می‌شود.
  • برنامه‌های مبتنی بر صدا پیشرفته: فعال کردن تعاملات و کنترل‌های صوتی پیچیده‌تر.

ویژگی‌های کلیدی Gemma 3n

Gemma 3n طیف وسیعی از ویژگی‌ها را در خود جای داده است، از جمله:

  • طراحی اولویت‌دار تلفن همراه: توسعه‌یافته از طریق همکاری بین Google، DeepMind، Qualcomm، MediaTek و Samsung System LSI برای عملکرد بهینه تلفن همراه.
  • کاهش ردپای حافظه: به ردپای عملیاتی 2 گیگابایتی و 3 گیگابایتی برای مدل‌های پارامتری 5B و 8B، به ترتیب، با استفاده از جاسازی‌های لایه به لایه (PLE) دست می‌یابد.
  • بهبود زمان پاسخگویی: پاسخ 1.5 برابر سریع‌تری را در تلفن همراه در مقایسه با Gemma 3 4B ارائه می‌دهد.
  • مهارت چند زبانه: به امتیاز معیار چند زبانه 50.1٪ در WMT24++ (ChrF) دست می‌یابد.
  • ورودی چندوجهی: صدا، متن، تصویر و فیلم را می‌پذیرد و درک می‌کند و پردازش چندوجهی پیچیده و ورودی‌های درهم را امکان‌پذیر می‌کند.
  • زیرمدل‌های پویا: از مبادلات پویا با استفاده از آموزش MatFormer با زیرمدل‌های تو در تو و قابلیت‌های mix’n’match پشتیبانی می‌کند.
  • عملکرد آفلاین: بدون اتصال به اینترنت کار می‌کند و از حریم خصوصی و قابلیت اطمینان اطمینان حاصل می‌کند.
  • دسترسی آسان: از طریق Google AI Studio و Google AI Edge در دسترس است، با قابلیت‌های پردازش متن و تصویر.

پیامدها و مسیرهای آینده

Gemma 3n یک مسیر واضح برای قابل حمل و خصوصی کردن هوش مصنوعی با کارایی بالا ارائه می‌دهد. با پرداختن به محدودیت‌های RAM از طریق معماری نوآورانه و افزایش قابلیت‌های چند زبانه و چند وجهی، محققان راه حلی عملی برای آوردن هوش مصنوعی پیشرفته به طور مستقیم به دستگاه‌های روزمره توسعه داده‌اند. سوئیچینگ انعطاف‌پذیر زیرمدل، آمادگی آفلاین و زمان‌های پاسخ سریع، نشان‌دهنده یک رویکرد جامع برای هوش مصنوعی اولویت‌دار موبایل است. تحقیقات آینده احتمالاً بر افزایش قابلیت‌های مدل، گسترش سازگاری آن با طیف گسترده‌تری از دستگاه‌ها و بررسی کاربردهای جدید در زمینه‌هایی مانند واقعیت افزوده، رباتیک و اینترنت اشیا متمرکز خواهد بود.