تلاش بیوقفه برای هوش مصنوعی سریعتر، هوشمندتر و خصوصیتر بر روی دستگاههای شخصی ما، در مسیری است که تغییرات عمیقی در نحوه طراحی و استقرار مدلهای هوش مصنوعی ایجاد میکند. ما وارد عصری میشویم که در آن هوش مصنوعی صرفاً یک سرویس راه دور نیست. بلکه یک هوش محلیسازی شده است که به طور مستقیم در تلفنها، تبلتها و لپتاپهای ما جاسازی شده است. این تغییر، پاسخگویی تقریباً فوری، کاهش قابل توجه نیازهای حافظه و تأکید مجدد بر حریم خصوصی کاربر را وعده میدهد. از آنجا که سختافزار تلفن همراه به سرعت در حال پیشرفت است، تمرکز بر ایجاد مدلهای فشرده و فوقالعاده سریع است که قادر به تعریف مجدد تعاملات دیجیتالی روزانه ما هستند.
چالش هوش مصنوعی چند وجهی درون دستگاهی
یکی از مهمترین موانع در این تلاش، ارائه هوش مصنوعی چند وجهی با کیفیت بالا در محیطهای محدود از نظر منابع دستگاههای تلفن همراه است. برخلاف سیستمهای مبتنی بر ابر، که از قدرت محاسباتی گسترده بهره میبرند، مدلهای درون دستگاهی باید با محدودیتهای سختگیرانهای در مورد RAM و قابلیتهای پردازشی کار کنند. هوش مصنوعی چند وجهی، که شامل توانایی تفسیر متن، تصاویر، صدا و فیلم است، به طور معمول به مدلهای بزرگی نیاز دارد که میتوانند بر اکثر دستگاههای تلفن همراه غلبه کنند. علاوه بر این، اتکا به ابر، نگرانیهایی در مورد تأخیر و حریم خصوصی ایجاد میکند و نیاز به مدلهایی را که قادر به اجرای محلی بدون به خطر انداختن عملکرد هستند، برجسته میکند.
Gemma 3n: جهشی بزرگ در هوش مصنوعی تلفن همراه
برای مقابله با این چالشها، گوگل و Google DeepMind، مدل هوش مصنوعی پیشگامانه Gemma 3n را معرفی کردهاند که به طور خاص برای استقرار تلفن همراه طراحی شده است. Gemma 3n برای عملکرد در پلتفرمهای Android و Chrome بهینهسازی شده است و به عنوان پایه و اساس تکرار بعدی Gemini Nano عمل میکند. این نوآوری نشاندهنده یک پیشرفت اساسی است و قابلیتهای هوش مصنوعی چند وجهی را به دستگاههایی با حافظه بسیار کوچکتر میآورد در حالی که زمان پاسخگویی در زمان واقعی را حفظ میکند. همچنین اولین مدل متن باز است که بر اساس این زیرساخت مشترک ساخته شده است و دسترسی فوری را برای آزمایش در اختیار توسعهدهندگان قرار میدهد.
جاسازیهای لایه به لایه (PLE): یک نوآوری کلیدی
در قلب Gemma 3n، کاربرد جاسازیهای لایه به لایه (PLE) است، تکنیکی که به طور چشمگیری مصرف RAM را کاهش میدهد. در حالی که اندازههای مدل خام به ترتیب 5 میلیارد و 8 میلیارد پارامتر هستند، اما با ردپای حافظهای معادل مدلهای 2 میلیارد و 4 میلیارد پارامتری عمل میکنند. مصرف حافظه پویا تنها 2 گیگابایت برای مدل 5B و 3 گیگابایت برای نسخه 8B است. این امر از طریق یک پیکربندی مدل تو در تو حاصل میشود که در آن یک مدل ردپای حافظه فعال 4B شامل یک زیرمدل 2B است که با استفاده از روشی به نام MatFormer آموزش داده شده است. این به توسعهدهندگان امکان میدهد تا بدون نیاز به بارگیری مدلهای جداگانه، حالتهای عملکرد را به صورت پویا تغییر دهند. پیشرفتهای بیشتر، مانند اشتراکگذاری KVC و کوانتیزاسیون فعالسازی، تأخیر را بیشتر کاهش داده و سرعت پاسخ را تسریع میکنند. به عنوان مثال، زمان پاسخگویی در تلفن همراه در مقایسه با Gemma 3 4B، 1.5 برابر بهبود یافته است، در حالی که کیفیت خروجی برتر را حفظ میکند.
معیارهای عملکرد
معیارهای عملکردی که توسط Gemma 3n به دست آمده است، مناسب بودن آن را برای استقرار تلفن همراه برجسته میکند. این مدل در کارهایی مانند تشخیص گفتار خودکار و ترجمه، برتری دارد و تبدیل یکپارچه گفتار به متن ترجمه شده را امکانپذیر میکند. در معیارهای چند زبانه مانند WMT24++ (ChrF)، به امتیاز 50.1٪ دست مییابد، که قدرت آن را در زبانهایی مانند ژاپنی، آلمانی، کرهای، اسپانیایی و فرانسوی نشان میدهد. قابلیت «mix’n’match» آن، ایجاد زیرمدلهای بهینهسازی شده برای ترکیبات مختلف کیفیت و تأخیر را امکانپذیر میکند و سفارشیسازی بیشتری را به توسعهدهندگان ارائه میدهد.
قابلیتها و کاربردهای چند وجهی
معماری Gemma 3n از ورودیهای درهم از حالتهای مختلف، از جمله متن، صدا، تصاویر و فیلم، پشتیبانی میکند و امکان تعاملات طبیعیتر و غنیتر از نظر زمینه را فراهم میکند. همچنین میتواند به صورت آفلاین کار کند و از حریم خصوصی و قابلیت اطمینان حتی بدون اتصال به شبکه اطمینان حاصل کند. موارد استفاده بالقوه بسیار زیاد است، از جمله:
- بازخورد بصری و شنیداری زنده: ارائه پاسخهای همزمان به ورودی کاربر از طریق کانالهای بصری و شنیداری.
- تولید محتوای آگاه از زمینه: ایجاد محتوای متناسب بر اساس زمینه فعلی کاربر، همانطور که توسط ورودیهای حسگر مختلف تعیین میشود.
- برنامههای مبتنی بر صدا پیشرفته: فعال کردن تعاملات و کنترلهای صوتی پیچیدهتر.
ویژگیهای کلیدی Gemma 3n
Gemma 3n طیف وسیعی از ویژگیها را در خود جای داده است، از جمله:
- طراحی اولویتدار تلفن همراه: توسعهیافته از طریق همکاری بین Google، DeepMind، Qualcomm، MediaTek و Samsung System LSI برای عملکرد بهینه تلفن همراه.
- کاهش ردپای حافظه: به ردپای عملیاتی 2 گیگابایتی و 3 گیگابایتی برای مدلهای پارامتری 5B و 8B، به ترتیب، با استفاده از جاسازیهای لایه به لایه (PLE) دست مییابد.
- بهبود زمان پاسخگویی: پاسخ 1.5 برابر سریعتری را در تلفن همراه در مقایسه با Gemma 3 4B ارائه میدهد.
- مهارت چند زبانه: به امتیاز معیار چند زبانه 50.1٪ در WMT24++ (ChrF) دست مییابد.
- ورودی چندوجهی: صدا، متن، تصویر و فیلم را میپذیرد و درک میکند و پردازش چندوجهی پیچیده و ورودیهای درهم را امکانپذیر میکند.
- زیرمدلهای پویا: از مبادلات پویا با استفاده از آموزش MatFormer با زیرمدلهای تو در تو و قابلیتهای mix’n’match پشتیبانی میکند.
- عملکرد آفلاین: بدون اتصال به اینترنت کار میکند و از حریم خصوصی و قابلیت اطمینان اطمینان حاصل میکند.
- دسترسی آسان: از طریق Google AI Studio و Google AI Edge در دسترس است، با قابلیتهای پردازش متن و تصویر.
پیامدها و مسیرهای آینده
Gemma 3n یک مسیر واضح برای قابل حمل و خصوصی کردن هوش مصنوعی با کارایی بالا ارائه میدهد. با پرداختن به محدودیتهای RAM از طریق معماری نوآورانه و افزایش قابلیتهای چند زبانه و چند وجهی، محققان راه حلی عملی برای آوردن هوش مصنوعی پیشرفته به طور مستقیم به دستگاههای روزمره توسعه دادهاند. سوئیچینگ انعطافپذیر زیرمدل، آمادگی آفلاین و زمانهای پاسخ سریع، نشاندهنده یک رویکرد جامع برای هوش مصنوعی اولویتدار موبایل است. تحقیقات آینده احتمالاً بر افزایش قابلیتهای مدل، گسترش سازگاری آن با طیف گستردهتری از دستگاهها و بررسی کاربردهای جدید در زمینههایی مانند واقعیت افزوده، رباتیک و اینترنت اشیا متمرکز خواهد بود.