بازاندیشی کارایی هوش مصنوعی: تمرکز دائم بر حداکثر توان نیست

توسعه بی‌وقفه هوش مصنوعی (AI) به طور پیوسته نشان داده است که مدل‌های بزرگ‌تر تمایل دارند هوشمندتر باشند، اما نیازهای عملیاتی آن‌ها نیز افزایش می‌یابد. این امر چالش بزرگی را ایجاد می‌کند، به ویژه در مناطقی که دسترسی محدودی به تراشه‌های پیشرفته هوش مصنوعی دارند. با این حال، صرف نظر از محدودیت‌های جغرافیایی، یک روند رو به رشد در بین توسعه‌دهندگان مدل برای پذیرش معماری‌های ترکیبی از متخصصان (MoE) همراه با تکنیک‌های فشرده‌سازی نوآورانه وجود دارد. هدف؟ کاهش چشمگیر منابع محاسباتی مورد نیاز برای استقرار و اجرای این مدل‌های زبانی بزرگ (LLM) گسترده. همزمان با نزدیک شدن به سومین سالگرد رونق هوش مصنوعی مولد که توسط ChatGPT آغاز شد، صنعت در نهایت به طور جدی شروع به بررسی پیامدهای اقتصادی حفظ این مدل‌های پرمصرف کرده است.

در حالی که مدل‌های MoE، مانند مدل‌های Mistral AI، مدتی است که وجود داشته‌اند، اما پیشرفت واقعی آن‌ها در سال گذشته رخ داده است. ما شاهد افزایش ناگهانی LLM‌های جدید منبع باز از غول‌های فناوری مانند Microsoft، Google، IBM، Meta، DeepSeek و Alibaba بوده‌ایم، که همگی از نوعی معماری MoE استفاده می‌کنند. جذابیت، ساده است: معماری‌های MoE جایگزین بسیار کارآمدتری برای معماری‌های مدل “متراکم” سنتی ارائه می‌دهند.

غلبه بر محدودیت های حافظه

بنیان معماری MoE به اوایل دهه 1990 برمی‌گردد، با انتشار “مخلوط‌های تطبیقی از متخصصان محلی”. ایده اصلی حول توزیع وظایف به یک یا چند مدل فرعی متخصص یا “متخصص”، به جای تکیه بر یک مدل واحد و عظیم که بر روی طیف گسترده‌ای از داده‌ها آموزش داده شده است، می‌چرخد.

در تئوری، هر متخصص می‌تواند به طور دقیق برای یک دامنه خاص بهینه شود، از کدنویسی و ریاضیات گرفته تا نوشتن خلاقانه. با این حال، شایان ذکر است که اکثر توسعه‌دهندگان مدل، جزئیات محدودی در مورد متخصصان خاص موجود در مدل‌های MoE خود ارائه می‌دهند و تعداد متخصصان از مدلی به مدل دیگر متفاوت است. نکته مهم این است که تنها کسری از مدل کلی در هر زمان معین به طور فعال درگیر است.

مدل V3 DeepSeek را در نظر بگیرید، که شامل 256 متخصص مسیریابی شده به همراه یک متخصص مشترک است. در طول پردازش توکن، فقط هشت متخصص مسیریابی شده، به علاوه متخصص مشترک، فعال می‌شوند. این فعال‌سازی انتخابی به این معنی است که مدل‌های MoE ممکن است همیشه به همان سطح کیفیت مدل‌های متراکم با اندازه مشابه دست نیابند. مدل Qwen3-30B-A3B MoE Alibaba، به عنوان مثال، به طور مداوم در آزمایش‌های معیار Alibaba از مدل متراکم Qwen3-32B عملکرد پایین‌تری داشته است.

با این حال، ضروری است که این کاهش جزئی در کیفیت را در برابر دستاوردهای کارایی قابل توجهی که توسط معماری‌های MoE ارائه می‌شود، در نظر بگیریم. کاهش پارامترهای فعال منجر به نیازهای پهنای باند حافظه می‌شود که دیگر مستقیماً متناسب با ظرفیت مورد نیاز برای ذخیره وزن‌های مدل نیست. اساساً، در حالی که مدل‌های MoE ممکن است هنوز به حافظه قابل توجهی نیاز داشته باشند، لزوماً نیازی نیست که سریع‌ترین و گران‌ترین حافظه با پهنای باند بالا (HBM) باشد.

بیایید این را با یک مقایسه نشان دهیم. بزرگترین مدل “متراکم” Meta، Llama 3.1 405B و Llama 4 Maverick، یک مدل قابل مقایسه که از معماری MoE با 17 میلیارد پارامتر فعال استفاده می‌کند را در نظر بگیرید. در حالی که عوامل متعددی، مانند اندازه دسته‌ای، عملکرد ممیز شناور و حافظه پنهان کلید-مقدار، به عملکرد دنیای واقعی کمک می‌کنند، می‌توانیم حداقل نیازهای پهنای باند را با ضرب کردن اندازه مدل بر حسب گیگابایت در یک دقت معین (1 بایت در هر پارامتر برای مدل‌های 8 بیتی) در توکن‌های هدف در ثانیه با اندازه دسته‌ای یک، تقریب بزنیم.

اجرای یک نسخه کوانتیزه شده 8 بیتی از Llama 3.1 405B به بیش از 405 گیگابایت vRAM و حداقل 20 ترابایت در ثانیه پهنای باند حافظه برای تولید متن با سرعت 50 توکن در ثانیه نیاز دارد. سیستم‌های مبتنی بر HGX H100 انویدیا، که تا همین اواخر قیمت‌هایی معادل 300000 دلار یا بیشتر داشتند، تنها 640 گیگابایت HBM3 و تقریباً 26.8 ترابایت در ثانیه پهنای باند تجمیعی ارائه می‌دادند. اجرای مدل کامل 16 بیتی حداقل به دو سیستم نیاز داشت.

در مقابل، Llama 4 Maverick، در حالی که همان مقدار حافظه را مصرف می‌کند، برای دستیابی به عملکرد قابل مقایسه به کمتر از 1 ترابایت در ثانیه پهنای باند نیاز دارد. این به این دلیل است که فقط 17 میلیارد پارامتر از متخصصان مدل به طور فعال در تولید خروجی دخیل هستند. این به معنای افزایش یک مرتبه بزرگی در سرعت تولید متن در همان سخت‌افزار است.

برعکس، اگر عملکرد محض اولویت اصلی نباشد، اکنون بسیاری از این مدل‌ها را می‌توان بر روی حافظه‌های GDDR6، GDDR7 یا حتی DDR ارزان‌تر، هرچند کندتر، اجرا کرد، همانطور که در آخرین Xeons اینتل دیده می‌شود.

RTX Pro Servers جدید انویدیا، که در Computex معرفی شدند، برای همین سناریو طراحی شده‌اند. به جای تکیه بر HBM گران قیمت و پرمصرف که به بسته‌بندی پیشرفته نیاز دارد، هر یک از هشت پردازنده گرافیکی RTX Pro 6000 در این سیستم‌ها به 96 گیگابایت حافظه GDDR7 مجهز شده‌اند، همان نوعی که در کارت‌های بازی مدرن یافت می‌شود.

این سیستم‌ها حداکثر 768 گیگابایت vRAM و 12.8 ترابایت در ثانیه پهنای باند تجمیعی ارائه می‌دهند، که برای اجرای Llama 4 Maverick با صدها توکن در ثانیه کافی است. در حالی که انویدیا قیمت‌گذاری را فاش نکرده است، نسخه ایستگاه کاری این کارت‌ها با قیمت حدود 8500 دلار به فروش می‌رسد، و نشان می‌دهد که این سرورها می‌توانند با قیمتی کمتر از نصف قیمت یک HGX H100 استفاده شده به فروش برسند.

با این حال، MoE به معنای پایان پردازنده‌های گرافیکی انباشته HBM نیست. انتظار داشته باشید که Llama 4 Behemoth، با فرض اینکه تا به حال عرضه شود، به دلیل اندازه بسیار زیادش، به یک رک کامل پردازنده‌های گرافیکی نیاز داشته باشد.

در حالی که تقریباً نیمی از پارامترهای فعال Llama 3.1 405B را دارد، اما در مجموع دارای 2 تریلیون پارامتر است. در حال حاضر، هیچ سرور GPU معمولی در بازار وجود ندارد که بتواند مدل کامل 16 بیتی و یک پنجره متنی با یک میلیون توکن یا بیشتر را در خود جای دهد.

رنسانس CPU در هوش مصنوعی؟

بسته به کاربرد خاص، ممکن است همیشه به پردازنده گرافیکی نیاز نباشد، به ویژه در مناطقی که دسترسی به شتاب‌دهنده‌های سطح بالا محدود است.

اینتل یک پلتفرم Xeon 6 دو سوکته مجهز به MCRDIMM‌های 8800 MT/s را در ماه آوریل به نمایش گذاشت. این تنظیمات به توان عملیاتی 240 توکن در ثانیه در Llama 4 Maverick دست یافت، با میانگین تأخیر خروجی کمتر از 100 میلی‌ثانیه در هر توکن.

به زبان ساده، پلتفرم Xeon می‌تواند 10 توکن در ثانیه یا بیشتر در هر کاربر را برای تقریباً 24 کاربر همزمان پشتیبانی کند.

اینتل ارقام عملکرد تک کاربر را فاش نکرد، زیرا در سناریوهای دنیای واقعی اهمیت کمتری دارند. با این حال، تخمین‌ها حاکی از اوج عملکرد حدود 100 توکن در ثانیه است.

با این وجود، مگر اینکه هیچ جایگزین بهتری وجود نداشته باشد یا الزامات خاصی وجود داشته باشد، اقتصاد استنتاج مبتنی بر CPU همچنان به شدت به مورد استفاده بستگی دارد.

کاهش وزن: هرس کردن و کوانتیزاسیون

معماری‌های MoE می‌توانند پهنای باند حافظه لازم برای سرویس‌دهی مدل‌های بزرگ را کاهش دهند، اما مقدار حافظه مورد نیاز برای ذخیره وزن‌های آن‌ها را کاهش نمی‌دهند. حتی با دقت 8 بیتی، Llama 4 Maverick برای اجرا به بیش از 400 گیگابایت حافظه نیاز دارد، صرف نظر از تعداد پارامترهای فعال.

تکنیک‌های هرس کردن و روش‌های کوانتیزاسیون نوظهور می‌توانند به طور بالقوه این نیاز را بدون قربانی کردن کیفیت به نصف کاهش دهند.

انویدیا طرفدار هرس کردن بوده است و نسخه‌های هرسشده از مدل‌های Llama 3 متا را منتشر کرده است که وزن‌های زائد آن‌ها حذف شده است.

انویدیا همچنین از اولین شرکت‌هایی بود که از انواع داده ممیز شناور 8 بیتی در سال 2022 پشتیبانی کرد و مجدداً با ممیز شناور 4 بیتی با عرضه معماری بلک‌ول در سال 2024. انتظار می‌رود اولین تراشه‌های AMD که پشتیبانی بومی از FP4 را ارائه می‌دهند، به زودی منتشر شوند.

در حالی که پشتیبانی سخت‌افزاری بومی از این انواع داده‌ها کاملاً ضروری نیست، اما به طور کلی احتمال مواجهه با گلوگاه‌های محاسباتی را کاهش می‌دهد، به ویژه هنگام سرویس‌دهی در مقیاس بزرگ.

ما شاهد افزایش تعداد توسعه‌دهندگان مدل بوده‌ایم که انواع داده با دقت پایین‌تر را به کار می‌برند، با Meta، Microsoft و Alibaba نسخه‌های کوانتیزه شده هشت بیتی و حتی چهار بیتی از مدل‌های خود را ارائه می‌دهند.

کوانتیزاسیون شامل فشرده‌سازی وزن‌های مدل از دقت بومی آن‌ها، معمولاً BF16، به FP8 یا INT4 است. این امر به طور موثر پهنای باند حافظه و ظرفیت مورد نیاز مدل‌ها را با نصف یا حتی سه چهارم کاهش می‌دهد و در ازای آن مقداری کیفیت از دست می‌رود.

تلفات ناشی از انتقال از 16 بیت به 8 بیت اغلب ناچیز است و چندین سازنده مدل، از جمله DeepSeek، آموزش را با دقت FP8 از ابتدا آغاز کرده‌اند. با این حال، کاهش دقت با چهار بیت دیگر می‌تواند منجر به کاهش قابل توجه کیفیت شود. در نتیجه، بسیاری از رویکردهای کوانتیزاسیون پس از آموزش، مانند GGUF، همه وزن‌ها را به طور یکسان فشرده نمی‌کنند و برخی را در سطوح دقت بالاتر باقی می‌گذارند تا خسارت کیفیت را به حداقل برسانند.

گوگل اخیراً استفاده از آموزش آگاه از کوانتیزاسیون (QAT) را برای کاهش مدل‌های Gemma 3 خود با ضریب 4x در حالی که سطوح کیفیت را نزدیک به BF16 بومی حفظ می‌کند، نشان داد.

QAT عملیات کم دقت را در طول آموزش شبیه‌سازی می‌کند. با اعمال این تکنیک برای تقریباً 5000 مرحله روی یک مدل غیر واجد شرایط، گوگل توانست کاهش در پیچیدگی، یک معیار برای اندازه‌گیری تلفات مربوط به کوانتیزاسیون، را با 54 درصد هنگام تبدیل به INT4 کاهش دهد.

یکی دیگر از رویکردهای مبتنی بر QAT برای کوانتیزاسیون، معروف به Bitnet، هدفش سطوح دقت حتی پایین‌تر است و مدل‌ها را فقط به 1.58 بیت، یا تقریباً یک دهم اندازه اصلی خود فشرده می‌کند.

هم افزایی فناوری ها

ترکیب MoE و کوانتیزاسیون 4 بیتی مزایای قابل توجهی را ارائه می دهد، به ویژه زمانی که پهنای باند محدود است.

با این حال، برای دیگرانی که محدودیت پهنای باند ندارند، هر یک از این دو فناوری، چه MoE باشد و چه کوانتیزاسیون، می توانند هزینه تجهیزات و بهره برداری را برای اجرای مدل های بزرگتر و قدرتمندتر به طور قابل توجهی کاهش دهند. این فرض بر این است که می توان یک سرویس ارزشمند برای انجام آنها پیدا کرد.

و اگر اینطور نیست، حداقل می توانید تسلی خاطر داشته باشید که تنها نیستید - یک نظرسنجی اخیر IBM نشان داد که تنها یک چهارم استقرارهای هوش مصنوعی بازدهی سرمایه گذاری مورد وعده را ارائه داده اند.