ظهور Gemma 3n از Google نشاندهنده ورود هوش مصنوعی مولد به دورانی کاملاً جدید است. این مدل کوچک و سریع است و قابلتحسینتر از همه، میتواند بهصورت آفلاین روی تلفنها اجرا شود و فناوری پیشرفته هوش مصنوعی را به دستگاههایی بیاورد که روزانه از آنها استفاده میکنیم. Gemma 3n نهتنها میتواند صدا، تصاویر و متن را درک کند، بلکه از دقت بسیار خوبی نیز برخوردار است و عملکردی حتی بالاتر از GPT-4.1 Nano در Chatbot Arena دارد.
معماری نوآورانه Gemma 3n
بهمنظور استقبال از آینده هوش مصنوعی در دستگاه، Google DeepMind با شرکتهای پیشرو در زمینه سختافزار تلفن همراه مانند Qualcomm Technologies، MediaTek و Samsung System LSI همکاری نزدیک داشته است تا معماری جدیدی را با هم توسعه دهند.
این معماری با هدف بهینهسازی عملکرد هوش مصنوعی مولد در دستگاههای محدود از نظر منابع مانند تلفنها، تبلتها و لپتاپها طراحی شده است. برای دستیابی به این هدف، معماری از سه نوآوری کلیدی استفاده میکند: حافظه پنهان تعبیه شده لایه به لایه (PLE)، معماری MatFormer و بارگیری پارامتر شرطی.
حافظه پنهان PLE: شکستن محدودیتهای حافظه
حافظه پنهان PLE یک مکانیسم هوشمندانه است که به مدل اجازه میدهد تا پارامترهای تعبیه شده لایه به لایه را به حافظه خارجی سریع منتقل کند، در نتیجه استفاده از حافظه را به میزان قابلتوجهی کاهش میدهد بدون اینکه عملکرد را قربانی کند. این پارامترها خارج از حافظه عملیاتی مدل ایجاد میشوند و در طول اجرا در صورت لزوم بازیابی میشوند، بنابراین حتی در دستگاههای با منابع محدود نیز امکان عملکرد کارآمد فراهم میشود.
تصور کنید در حال اجرای یک مدل پیچیده هوش مصنوعی هستید، اما حافظه دستگاه شما محدود است. حافظه پنهان PLE مانند یک کتابدار هوشمند عمل میکند که کتابهای نهچندان مورد استفاده (پارامترها) را در یک انبار نزدیک (حافظه خارجی) ذخیره میکند. هنگامی که مدل به این پارامترها نیاز دارد، کتابدار بهسرعت آنها را برمیگرداند و اطمینان حاصل میکند که مدل میتواند بهطور روان اجرا شود بدون اینکه فضای حافظه گرانبها را اشغال کند.
بهطور خاص، حافظه پنهان PLE از طریق روشهای زیر استفاده از حافظه و عملکرد را بهینه میکند:
کاهش فضای حافظه: با ذخیره پارامترهای نهچندان مورد استفاده در حافظه خارجی، حافظه پنهان PLE میتواند میزان حافظه مورد نیاز مدل در زمان اجرا را کاهش دهد. این امر اجرای مدلهای بزرگ هوش مصنوعی را در دستگاههای با منابع محدود امکانپذیر میکند.
بهبود عملکرد: اگرچه بازیابی پارامترها از حافظه خارجی به زمان نیاز دارد، اما حافظه پنهان PLE با پیشبینی هوشمندانه اینکه کدام پارامترها در آینده مورد استفاده قرار خواهند گرفت و پیش از موعد آنها را در حافظه پنهان بارگیری میکند، تأخیر را به حداقل میرساند. این امر تضمین میکند که مدل میتواند با سرعتی تقریباً در زمان واقعی اجرا شود.
پشتیبانی از مدلهای بزرگتر: با کاهش نیازهای حافظه، حافظه پنهان PLE ما را قادر میسازد تا مدلهای بزرگتر و پیچیدهتر هوش مصنوعی را بسازیم. این مدلها دارای تواناییهای بیانی قویتری هستند و میتوانند وظایف پیچیدهتری را انجام دهند.
معماری MatFormer: طراحی زیرکانه مانند عروسکهای روسی
معماری Matryoshka Transformer (MatFormer) یک طراحی Transformer تودرتو را معرفی میکند که در آن مدلهای فرعی کوچکتر در مدلهای بزرگتر تعبیه شدهاند، مشابه عروسکهای روسی. این ساختار امکان فعالسازی انتخابی مدلهای فرعی را فراهم میکند و مدل را قادر میسازد تا اندازه و نیازهای محاسباتی خود را بهطور پویا بر اساس وظایفتنظیم کند. این انعطافپذیری هزینههای محاسباتی، زمان پاسخدهی و مصرف انرژی را کاهش میدهد و آن را برای استقرار در لبه و ابر بسیار مناسب میسازد.
ایده اصلی معماری MatFormer این است که همه وظایف به مدل کامل هوش مصنوعی نیاز ندارند. برای وظایف ساده، فقط باید مدلهای فرعی کوچکتر فعال شوند، در نتیجه در منابع محاسباتی صرفهجویی میشود. برای وظایف پیچیده، میتوان مدلهای فرعی بزرگتر را برای دستیابی به دقت بالاتر فعال کرد.
بیایید با یک مثال مزایای معماری MatFormer را نشان دهیم. فرض کنید در حال استفاده از یک مدل هوش مصنوعی برای شناسایی اشیا در تصاویر هستید. برای تصاویر ساده، مانند تصاویری که فقط شامل یک جسم هستند، میتوان یک مدل فرعی کوچکتر را فعال کرد که بهطور خاص برای شناسایی آن نوع خاص از جسم طراحی شده است. برای تصاویر پیچیده، مانند تصاویری که شامل اجسام متعددی هستند، میتوان یک مدل فرعی بزرگتر را فعال کرد که قادر به شناسایی طیف گستردهای از اجسام مختلف باشد.
مزایای معماری MatFormer عبارتند از:
کاهش هزینههای محاسباتی: با فعال کردن فقط مدلهای فرعی مورد نیاز، معماری MatFormer میتواند هزینههای محاسباتی را بهطور قابلتوجهی کاهش دهد. این امر برای اجرای مدلهای هوش مصنوعی در دستگاههای با منابع محدود بسیار مهم است.
کوتاه کردن زمانهای پاسخدهی: از آنجایی که معماری MatFormer میتواند اندازه مدل را بهطور پویا بر اساس وظایف تنظیم کند، میتوان زمانهای پاسخدهی را کوتاه کرد. این امر مدلهای هوش مصنوعی را قادر میسازد تا سریعتر به درخواستهای کاربر پاسخ دهند.
کاهش مصرف انرژی: با کاهش هزینههای محاسباتی، معماری MatFormer میتواند مصرف انرژی را نیز کاهش دهد. این امر برای افزایش عمر باتری ضروری است.
بارگیری پارامتر شرطی: بارگیری بر اساس تقاضا، بهینهسازی منابع
بارگیری پارامتر شرطی به توسعهدهندگان اجازه میدهد تا از بارگیری پارامترهای استفاده نشده (مانند پارامترهای پردازش صدا یا تصویر) در حافظه صرفنظر کنند. در صورت نیاز، این پارامترها را میتوان بهطور پویا در زمان اجرا بارگیری کرد، در نتیجه استفاده از حافظه بیشتر بهینه میشود و مدل را قادر میسازد تا با دستگاهها و وظایف مختلف سازگار شود.
تصور کنید در حال استفاده از یک مدل هوش مصنوعی برای پردازش متن هستید. اگر وظیفه شما به هیچ پردازش صوتی یا تصویری نیاز ندارد، بارگیری پارامترهای پردازش صوتی یا تصویری هدر دادن منابع است. بارگیری پارامتر شرطی به مدل اجازه میدهد تا فقط پارامترهای مورد نیاز را بارگیری کند، در نتیجه استفاده از حافظه به حداقل میرسد و عملکرد بهبود مییابد.
بارگیری پارامتر شرطی به این صورت کار میکند:
- مدل وظیفه فعلی را تجزیهوتحلیل میکند و تعیین میکند که به چه پارامترهایی نیاز است.
- مدل فقط پارامترهای مورد نیاز را در حافظه بارگیری میکند.
- هنگامی که وظیفه به پایان رسید، مدل پارامترهایی را که دیگر مورد نیاز نیستند، آزاد میکند.
مزایای بارگیری پارامتر شرطی عبارتند از:
بهینهسازی استفاده از حافظه: با بارگیری فقط پارامترهای مورد نیاز، بارگیری پارامتر شرطی میتواند استفاده از حافظه را بهطور قابلتوجهی بهینه کند. این امر برای اجرای مدلهای هوش مصنوعی در دستگاههای با منابع محدود بسیار مهم است.
بهبود عملکرد: با کاهش تعداد پارامترهای بارگیری شده، بارگیری پارامتر شرطی میتواند عملکرد را بهبود بخشد. این امر مدلهای هوش مصنوعی را قادر میسازد تا سریعتر به درخواستهای کاربر پاسخ دهند.
پشتیبانی از طیف گستردهتری از دستگاهها: با بهینهسازی استفاده از حافظه، بارگیری پارامتر شرطی مدلهای هوش مصنوعی را قادر میسازد تا روی طیف گستردهتری از دستگاهها از جمله دستگاههایی با حافظه محدود اجرا شوند.
ویژگیهای برجسته Gemma 3n
Gemma 3n چندین فناوری و ویژگی نوآورانه را معرفی کرده است که امکانات هوش مصنوعی در دستگاه را دوباره تعریف میکنند.
بیایید به ویژگیهای اصلی آن بپردازیم:
عملکرد و کارایی بهینهشده در دستگاه: Gemma 3n تقریباً 1.5 برابر سریعتر از نسخه قبلی خود (Gemma 3 4B) است و در عین حال کیفیت خروجی بهطور قابلتوجهی بالاتری را حفظ میکند. این بدان معناست که میتوانید نتایج دقیقتری را سریعتر روی دستگاه دریافت کنید، بدون اینکه نیازی به اتصال به ابر داشته باشید.
حافظه پنهان PLE: سیستم حافظه پنهان PLE Gemma 3n را قادر میسازد تا پارامترها را در حافظه محلی سریع ذخیره کند، در نتیجه استفاده از حافظه کاهش مییابد و عملکرد بهبود مییابد.
معماری MatFormer: Gemma 3n از معماری MatFormer استفاده میکند، که بهطور انتخابی پارامترهای مدل را بر اساس درخواستهای خاص فعال میکند. این امر مدل را قادر میسازد تا اندازه و نیازهای محاسباتی خود را بهطور پویا تنظیم کند، در نتیجه استفاده از منابع بهینه میشود.
بارگیری پارامتر شرطی: برای صرفهجویی در منابع حافظه، Gemma 3n میتواند از بارگیری پارامترهای غیرضروری صرفنظر کند، به عنوان مثال، در صورت عدم نیاز به بینایی یا صدا، میتوان از بارگیری پارامترهای مربوطه صرفنظر کرد. این امر کارایی را بیشتر بهبود میبخشد و مصرف انرژی را کاهش میدهد.
اولویتبندی حریم خصوصی و آمادگی آفلاین: اجرای محلی عملکردهای هوش مصنوعی بدون نیاز به اتصال به اینترنت، حریم خصوصی کاربر را تضمین میکند. این بدان معناست که دادههای شما دستگاه شما را ترک نمیکنند و میتوانید از عملکردهای هوش مصنوعی بدون اتصال به شبکه استفاده کنید.
درک چندوجهی: Gemma 3n پشتیبانی پیشرفتهای از ورودیهای صوتی، متنی، تصویری و ویدیویی ارائه میدهد، در نتیجه امکان تعاملات چندوجهی پیچیده در زمان واقعی فراهم می