Gemma 3n: عصر جدید هوش مصنوعی فراتر از مرزها

ظهور Gemma 3n از Google نشان‌دهنده ورود هوش مصنوعی مولد به دورانی کاملاً جدید است. این مدل کوچک و سریع است و قابل‌تحسین‌تر از همه، می‌تواند به‌صورت آفلاین روی تلفن‌ها اجرا شود و فناوری پیشرفته هوش مصنوعی را به دستگاه‌هایی بیاورد که روزانه از آن‌ها استفاده می‌کنیم. Gemma 3n نه‌تنها می‌تواند صدا، تصاویر و متن را درک کند، بلکه از دقت بسیار خوبی نیز برخوردار است و عملکردی حتی بالاتر از GPT-4.1 Nano در Chatbot Arena دارد.

معماری نوآورانه Gemma 3n

به‌منظور استقبال از آینده هوش مصنوعی در دستگاه، Google DeepMind با شرکت‌های پیشرو در زمینه سخت‌افزار تلفن همراه مانند Qualcomm Technologies، MediaTek و Samsung System LSI همکاری نزدیک داشته است تا معماری جدیدی را با هم توسعه دهند.

این معماری با هدف بهینه‌سازی عملکرد هوش مصنوعی مولد در دستگاه‌های محدود از نظر منابع مانند تلفن‌ها، تبلت‌ها و لپ‌تاپ‌ها طراحی شده است. برای دستیابی به این هدف، معماری از سه نوآوری کلیدی استفاده می‌کند: حافظه پنهان تعبیه شده لایه به لایه (PLE)، معماری MatFormer و بارگیری پارامتر شرطی.

حافظه پنهان PLE: شکستن محدودیت‌های حافظه

حافظه پنهان PLE یک مکانیسم هوشمندانه است که به مدل اجازه می‌دهد تا پارامترهای تعبیه شده لایه به لایه را به حافظه خارجی سریع منتقل کند، در نتیجه استفاده از حافظه را به میزان قابل‌توجهی کاهش می‌دهد بدون اینکه عملکرد را قربانی کند. این پارامترها خارج از حافظه عملیاتی مدل ایجاد می‌شوند و در طول اجرا در صورت لزوم بازیابی می‌شوند، بنابراین حتی در دستگاه‌های با منابع محدود نیز امکان عملکرد کارآمد فراهم می‌شود.

تصور کنید در حال اجرای یک مدل پیچیده هوش مصنوعی هستید، اما حافظه دستگاه شما محدود است. حافظه پنهان PLE مانند یک کتابدار هوشمند عمل می‌کند که کتاب‌های نه‌چندان مورد استفاده (پارامترها) را در یک انبار نزدیک (حافظه خارجی) ذخیره می‌کند. هنگامی که مدل به این پارامترها نیاز دارد، کتابدار به‌سرعت آن‌ها را برمی‌گرداند و اطمینان حاصل می‌کند که مدل می‌تواند به‌طور روان اجرا شود بدون اینکه فضای حافظه گران‌بها را اشغال کند.

به‌طور خاص، حافظه پنهان PLE از طریق روش‌های زیر استفاده از حافظه و عملکرد را بهینه می‌کند:

  • کاهش فضای حافظه: با ذخیره پارامترهای نه‌چندان مورد استفاده در حافظه خارجی، حافظه پنهان PLE می‌تواند میزان حافظه مورد نیاز مدل در زمان اجرا را کاهش دهد. این امر اجرای مدل‌های بزرگ هوش مصنوعی را در دستگاه‌های با منابع محدود امکان‌پذیر می‌کند.

  • بهبود عملکرد: اگرچه بازیابی پارامترها از حافظه خارجی به زمان نیاز دارد، اما حافظه پنهان PLE با پیش‌بینی هوشمندانه اینکه کدام پارامترها در آینده مورد استفاده قرار خواهند گرفت و پیش از موعد آن‌ها را در حافظه پنهان بارگیری می‌کند، تأخیر را به حداقل می‌رساند. این امر تضمین می‌کند که مدل می‌تواند با سرعتی تقریباً در زمان واقعی اجرا شود.

  • پشتیبانی از مدل‌های بزرگ‌تر: با کاهش نیازهای حافظه، حافظه پنهان PLE ما را قادر می‌سازد تا مدل‌های بزرگ‌تر و پیچیده‌تر هوش مصنوعی را بسازیم. این مدل‌ها دارای توانایی‌های بیانی قوی‌تری هستند و می‌توانند وظایف پیچیده‌تری را انجام دهند.

معماری MatFormer: طراحی زیرکانه مانند عروسک‌های روسی

معماری Matryoshka Transformer (MatFormer) یک طراحی Transformer تودرتو را معرفی می‌کند که در آن مدل‌های فرعی کوچک‌تر در مدل‌های بزرگ‌تر تعبیه شده‌اند، مشابه عروسک‌های روسی. این ساختار امکان فعال‌سازی انتخابی مدل‌های فرعی را فراهم می‌کند و مدل را قادر می‌سازد تا اندازه و نیازهای محاسباتی خود را به‌طور پویا بر اساس وظایفتنظیم کند. این انعطاف‌پذیری هزینه‌های محاسباتی، زمان پاسخ‌دهی و مصرف انرژی را کاهش می‌دهد و آن را برای استقرار در لبه و ابر بسیار مناسب می‌سازد.

ایده اصلی معماری MatFormer این است که همه وظایف به مدل کامل هوش مصنوعی نیاز ندارند. برای وظایف ساده، فقط باید مدل‌های فرعی کوچک‌تر فعال شوند، در نتیجه در منابع محاسباتی صرفه‌جویی می‌شود. برای وظایف پیچیده، می‌توان مدل‌های فرعی بزرگ‌تر را برای دستیابی به دقت بالاتر فعال کرد.

بیایید با یک مثال مزایای معماری MatFormer را نشان دهیم. فرض کنید در حال استفاده از یک مدل هوش مصنوعی برای شناسایی اشیا در تصاویر هستید. برای تصاویر ساده، مانند تصاویری که فقط شامل یک جسم هستند، می‌توان یک مدل فرعی کوچک‌تر را فعال کرد که به‌طور خاص برای شناسایی آن نوع خاص از جسم طراحی شده است. برای تصاویر پیچیده، مانند تصاویری که شامل اجسام متعددی هستند، می‌توان یک مدل فرعی بزرگ‌تر را فعال کرد که قادر به شناسایی طیف گسترده‌ای از اجسام مختلف باشد.

مزایای معماری MatFormer عبارتند از:

  • کاهش هزینه‌های محاسباتی: با فعال کردن فقط مدل‌های فرعی مورد نیاز، معماری MatFormer می‌تواند هزینه‌های محاسباتی را به‌طور قابل‌توجهی کاهش دهد. این امر برای اجرای مدل‌های هوش مصنوعی در دستگاه‌های با منابع محدود بسیار مهم است.

  • کوتاه کردن زمان‌های پاسخ‌دهی: از آنجایی که معماری MatFormer می‌تواند اندازه مدل را به‌طور پویا بر اساس وظایف تنظیم کند، می‌توان زمان‌های پاسخ‌دهی را کوتاه کرد. این امر مدل‌های هوش مصنوعی را قادر می‌سازد تا سریع‌تر به درخواست‌های کاربر پاسخ دهند.

  • کاهش مصرف انرژی: با کاهش هزینه‌های محاسباتی، معماری MatFormer می‌تواند مصرف انرژی را نیز کاهش دهد. این امر برای افزایش عمر باتری ضروری است.

بارگیری پارامتر شرطی: بارگیری بر اساس تقاضا، بهینه‌سازی منابع

بارگیری پارامتر شرطی به توسعه‌دهندگان اجازه می‌دهد تا از بارگیری پارامترهای استفاده نشده (مانند پارامترهای پردازش صدا یا تصویر) در حافظه صرف‌نظر کنند. در صورت نیاز، این پارامترها را می‌توان به‌طور پویا در زمان اجرا بارگیری کرد، در نتیجه استفاده از حافظه بیشتر بهینه می‌شود و مدل را قادر می‌سازد تا با دستگاه‌ها و وظایف مختلف سازگار شود.

تصور کنید در حال استفاده از یک مدل هوش مصنوعی برای پردازش متن هستید. اگر وظیفه شما به هیچ پردازش صوتی یا تصویری نیاز ندارد، بارگیری پارامترهای پردازش صوتی یا تصویری هدر دادن منابع است. بارگیری پارامتر شرطی به مدل اجازه می‌دهد تا فقط پارامترهای مورد نیاز را بارگیری کند، در نتیجه استفاده از حافظه به حداقل می‌رسد و عملکرد بهبود می‌یابد.

بارگیری پارامتر شرطی به این صورت کار می‌کند:

  1. مدل وظیفه فعلی را تجزیه‌وتحلیل می‌کند و تعیین می‌کند که به چه پارامترهایی نیاز است.
  2. مدل فقط پارامترهای مورد نیاز را در حافظه بارگیری می‌کند.
  3. هنگامی که وظیفه به پایان رسید، مدل پارامترهایی را که دیگر مورد نیاز نیستند، آزاد می‌کند.

مزایای بارگیری پارامتر شرطی عبارتند از:

  • بهینه‌سازی استفاده از حافظه: با بارگیری فقط پارامترهای مورد نیاز، بارگیری پارامتر شرطی می‌تواند استفاده از حافظه را به‌طور قابل‌توجهی بهینه کند. این امر برای اجرای مدل‌های هوش مصنوعی در دستگاه‌های با منابع محدود بسیار مهم است.

  • بهبود عملکرد: با کاهش تعداد پارامترهای بارگیری شده، بارگیری پارامتر شرطی می‌تواند عملکرد را بهبود بخشد. این امر مدل‌های هوش مصنوعی را قادر می‌سازد تا سریع‌تر به درخواست‌های کاربر پاسخ دهند.

  • پشتیبانی از طیف گسترده‌تری از دستگاه‌ها: با بهینه‌سازی استفاده از حافظه، بارگیری پارامتر شرطی مدل‌های هوش مصنوعی را قادر می‌سازد تا روی طیف گسترده‌تری از دستگاه‌ها از جمله دستگاه‌هایی با حافظه محدود اجرا شوند.

ویژگی‌های برجسته Gemma 3n

Gemma 3n چندین فناوری و ویژگی نوآورانه را معرفی کرده است که امکانات هوش مصنوعی در دستگاه را دوباره تعریف می‌کنند.

بیایید به ویژگی‌های اصلی آن بپردازیم:

  1. عملکرد و کارایی بهینه‌شده در دستگاه: Gemma 3n تقریباً 1.5 برابر سریع‌تر از نسخه قبلی خود (Gemma 3 4B) است و در عین حال کیفیت خروجی به‌طور قابل‌توجهی بالاتری را حفظ می‌کند. این بدان معناست که می‌توانید نتایج دقیق‌تری را سریع‌تر روی دستگاه دریافت کنید، بدون اینکه نیازی به اتصال به ابر داشته باشید.

  2. حافظه پنهان PLE: سیستم حافظه پنهان PLE Gemma 3n را قادر می‌سازد تا پارامترها را در حافظه محلی سریع ذخیره کند، در نتیجه استفاده از حافظه کاهش می‌یابد و عملکرد بهبود می‌یابد.

  3. معماری MatFormer: Gemma 3n از معماری MatFormer استفاده می‌کند، که به‌طور انتخابی پارامترهای مدل را بر اساس درخواست‌های خاص فعال می‌کند. این امر مدل را قادر می‌سازد تا اندازه و نیازهای محاسباتی خود را به‌طور پویا تنظیم کند، در نتیجه استفاده از منابع بهینه می‌شود.

  4. بارگیری پارامتر شرطی: برای صرفه‌جویی در منابع حافظه، Gemma 3n می‌تواند از بارگیری پارامترهای غیرضروری صرف‌نظر کند، به عنوان مثال، در صورت عدم نیاز به بینایی یا صدا، می‌توان از بارگیری پارامترهای مربوطه صرف‌نظر کرد. این امر کارایی را بیشتر بهبود می‌بخشد و مصرف انرژی را کاهش می‌دهد.

  5. اولویت‌بندی حریم خصوصی و آمادگی آفلاین: اجرای محلی عملکردهای هوش مصنوعی بدون نیاز به اتصال به اینترنت، حریم خصوصی کاربر را تضمین می‌کند. این بدان معناست که داده‌های شما دستگاه شما را ترک نمی‌کنند و می‌توانید از عملکردهای هوش مصنوعی بدون اتصال به شبکه استفاده کنید.

  6. درک چندوجهی: Gemma 3n پشتیبانی پیشرفته‌ای از ورودی‌های صوتی، متنی، تصویری و ویدیویی ارائه می‌دهد، در نتیجه امکان تعاملات چندوجهی پیچیده در زمان واقعی فراهم می