توسعه بیوقفه هوش مصنوعی (AI) به طور پیوسته نشان داده است که مدلهای بزرگتر تمایل دارند هوشمندتر باشند، اما نیازهای عملیاتی آنها نیز افزایش مییابد. این امر چالش بزرگی را ایجاد میکند، به ویژه در مناطقی که دسترسی محدودی به تراشههای پیشرفته هوش مصنوعی دارند. با این حال، صرف نظر از محدودیتهای جغرافیایی، یک روند رو به رشد در بین توسعهدهندگان مدل برای پذیرش معماریهای ترکیبی از متخصصان (MoE) همراه با تکنیکهای فشردهسازی نوآورانه وجود دارد. هدف؟ کاهش چشمگیر منابع محاسباتی مورد نیاز برای استقرار و اجرای این مدلهای زبانی بزرگ (LLM) گسترده. همزمان با نزدیک شدن به سومین سالگرد رونق هوش مصنوعی مولد که توسط ChatGPT آغاز شد، صنعت در نهایت به طور جدی شروع به بررسی پیامدهای اقتصادی حفظ این مدلهای پرمصرف کرده است.
در حالی که مدلهای MoE، مانند مدلهای Mistral AI، مدتی است که وجود داشتهاند، اما پیشرفت واقعی آنها در سال گذشته رخ داده است. ما شاهد افزایش ناگهانی LLMهای جدید منبع باز از غولهای فناوری مانند Microsoft، Google، IBM، Meta، DeepSeek و Alibaba بودهایم، که همگی از نوعی معماری MoE استفاده میکنند. جذابیت، ساده است: معماریهای MoE جایگزین بسیار کارآمدتری برای معماریهای مدل “متراکم” سنتی ارائه میدهند.
غلبه بر محدودیت های حافظه
بنیان معماری MoE به اوایل دهه 1990 برمیگردد، با انتشار “مخلوطهای تطبیقی از متخصصان محلی”. ایده اصلی حول توزیع وظایف به یک یا چند مدل فرعی متخصص یا “متخصص”، به جای تکیه بر یک مدل واحد و عظیم که بر روی طیف گستردهای از دادهها آموزش داده شده است، میچرخد.
در تئوری، هر متخصص میتواند به طور دقیق برای یک دامنه خاص بهینه شود، از کدنویسی و ریاضیات گرفته تا نوشتن خلاقانه. با این حال، شایان ذکر است که اکثر توسعهدهندگان مدل، جزئیات محدودی در مورد متخصصان خاص موجود در مدلهای MoE خود ارائه میدهند و تعداد متخصصان از مدلی به مدل دیگر متفاوت است. نکته مهم این است که تنها کسری از مدل کلی در هر زمان معین به طور فعال درگیر است.
مدل V3 DeepSeek را در نظر بگیرید، که شامل 256 متخصص مسیریابی شده به همراه یک متخصص مشترک است. در طول پردازش توکن، فقط هشت متخصص مسیریابی شده، به علاوه متخصص مشترک، فعال میشوند. این فعالسازی انتخابی به این معنی است که مدلهای MoE ممکن است همیشه به همان سطح کیفیت مدلهای متراکم با اندازه مشابه دست نیابند. مدل Qwen3-30B-A3B MoE Alibaba، به عنوان مثال، به طور مداوم در آزمایشهای معیار Alibaba از مدل متراکم Qwen3-32B عملکرد پایینتری داشته است.
با این حال، ضروری است که این کاهش جزئی در کیفیت را در برابر دستاوردهای کارایی قابل توجهی که توسط معماریهای MoE ارائه میشود، در نظر بگیریم. کاهش پارامترهای فعال منجر به نیازهای پهنای باند حافظه میشود که دیگر مستقیماً متناسب با ظرفیت مورد نیاز برای ذخیره وزنهای مدل نیست. اساساً، در حالی که مدلهای MoE ممکن است هنوز به حافظه قابل توجهی نیاز داشته باشند، لزوماً نیازی نیست که سریعترین و گرانترین حافظه با پهنای باند بالا (HBM) باشد.
بیایید این را با یک مقایسه نشان دهیم. بزرگترین مدل “متراکم” Meta، Llama 3.1 405B و Llama 4 Maverick، یک مدل قابل مقایسه که از معماری MoE با 17 میلیارد پارامتر فعال استفاده میکند را در نظر بگیرید. در حالی که عوامل متعددی، مانند اندازه دستهای، عملکرد ممیز شناور و حافظه پنهان کلید-مقدار، به عملکرد دنیای واقعی کمک میکنند، میتوانیم حداقل نیازهای پهنای باند را با ضرب کردن اندازه مدل بر حسب گیگابایت در یک دقت معین (1 بایت در هر پارامتر برای مدلهای 8 بیتی) در توکنهای هدف در ثانیه با اندازه دستهای یک، تقریب بزنیم.
اجرای یک نسخه کوانتیزه شده 8 بیتی از Llama 3.1 405B به بیش از 405 گیگابایت vRAM و حداقل 20 ترابایت در ثانیه پهنای باند حافظه برای تولید متن با سرعت 50 توکن در ثانیه نیاز دارد. سیستمهای مبتنی بر HGX H100 انویدیا، که تا همین اواخر قیمتهایی معادل 300000 دلار یا بیشتر داشتند، تنها 640 گیگابایت HBM3 و تقریباً 26.8 ترابایت در ثانیه پهنای باند تجمیعی ارائه میدادند. اجرای مدل کامل 16 بیتی حداقل به دو سیستم نیاز داشت.
در مقابل، Llama 4 Maverick، در حالی که همان مقدار حافظه را مصرف میکند، برای دستیابی به عملکرد قابل مقایسه به کمتر از 1 ترابایت در ثانیه پهنای باند نیاز دارد. این به این دلیل است که فقط 17 میلیارد پارامتر از متخصصان مدل به طور فعال در تولید خروجی دخیل هستند. این به معنای افزایش یک مرتبه بزرگی در سرعت تولید متن در همان سختافزار است.
برعکس، اگر عملکرد محض اولویت اصلی نباشد، اکنون بسیاری از این مدلها را میتوان بر روی حافظههای GDDR6، GDDR7 یا حتی DDR ارزانتر، هرچند کندتر، اجرا کرد، همانطور که در آخرین Xeons اینتل دیده میشود.
RTX Pro Servers جدید انویدیا، که در Computex معرفی شدند، برای همین سناریو طراحی شدهاند. به جای تکیه بر HBM گران قیمت و پرمصرف که به بستهبندی پیشرفته نیاز دارد، هر یک از هشت پردازنده گرافیکی RTX Pro 6000 در این سیستمها به 96 گیگابایت حافظه GDDR7 مجهز شدهاند، همان نوعی که در کارتهای بازی مدرن یافت میشود.
این سیستمها حداکثر 768 گیگابایت vRAM و 12.8 ترابایت در ثانیه پهنای باند تجمیعی ارائه میدهند، که برای اجرای Llama 4 Maverick با صدها توکن در ثانیه کافی است. در حالی که انویدیا قیمتگذاری را فاش نکرده است، نسخه ایستگاه کاری این کارتها با قیمت حدود 8500 دلار به فروش میرسد، و نشان میدهد که این سرورها میتوانند با قیمتی کمتر از نصف قیمت یک HGX H100 استفاده شده به فروش برسند.
با این حال، MoE به معنای پایان پردازندههای گرافیکی انباشته HBM نیست. انتظار داشته باشید که Llama 4 Behemoth، با فرض اینکه تا به حال عرضه شود، به دلیل اندازه بسیار زیادش، به یک رک کامل پردازندههای گرافیکی نیاز داشته باشد.
در حالی که تقریباً نیمی از پارامترهای فعال Llama 3.1 405B را دارد، اما در مجموع دارای 2 تریلیون پارامتر است. در حال حاضر، هیچ سرور GPU معمولی در بازار وجود ندارد که بتواند مدل کامل 16 بیتی و یک پنجره متنی با یک میلیون توکن یا بیشتر را در خود جای دهد.
رنسانس CPU در هوش مصنوعی؟
بسته به کاربرد خاص، ممکن است همیشه به پردازنده گرافیکی نیاز نباشد، به ویژه در مناطقی که دسترسی به شتابدهندههای سطح بالا محدود است.
اینتل یک پلتفرم Xeon 6 دو سوکته مجهز به MCRDIMMهای 8800 MT/s را در ماه آوریل به نمایش گذاشت. این تنظیمات به توان عملیاتی 240 توکن در ثانیه در Llama 4 Maverick دست یافت، با میانگین تأخیر خروجی کمتر از 100 میلیثانیه در هر توکن.
به زبان ساده، پلتفرم Xeon میتواند 10 توکن در ثانیه یا بیشتر در هر کاربر را برای تقریباً 24 کاربر همزمان پشتیبانی کند.
اینتل ارقام عملکرد تک کاربر را فاش نکرد، زیرا در سناریوهای دنیای واقعی اهمیت کمتری دارند. با این حال، تخمینها حاکی از اوج عملکرد حدود 100 توکن در ثانیه است.
با این وجود، مگر اینکه هیچ جایگزین بهتری وجود نداشته باشد یا الزامات خاصی وجود داشته باشد، اقتصاد استنتاج مبتنی بر CPU همچنان به شدت به مورد استفاده بستگی دارد.
کاهش وزن: هرس کردن و کوانتیزاسیون
معماریهای MoE میتوانند پهنای باند حافظه لازم برای سرویسدهی مدلهای بزرگ را کاهش دهند، اما مقدار حافظه مورد نیاز برای ذخیره وزنهای آنها را کاهش نمیدهند. حتی با دقت 8 بیتی، Llama 4 Maverick برای اجرا به بیش از 400 گیگابایت حافظه نیاز دارد، صرف نظر از تعداد پارامترهای فعال.
تکنیکهای هرس کردن و روشهای کوانتیزاسیون نوظهور میتوانند به طور بالقوه این نیاز را بدون قربانی کردن کیفیت به نصف کاهش دهند.
انویدیا طرفدار هرس کردن بوده است و نسخههای هرسشده از مدلهای Llama 3 متا را منتشر کرده است که وزنهای زائد آنها حذف شده است.
انویدیا همچنین از اولین شرکتهایی بود که از انواع داده ممیز شناور 8 بیتی در سال 2022 پشتیبانی کرد و مجدداً با ممیز شناور 4 بیتی با عرضه معماری بلکول در سال 2024. انتظار میرود اولین تراشههای AMD که پشتیبانی بومی از FP4 را ارائه میدهند، به زودی منتشر شوند.
در حالی که پشتیبانی سختافزاری بومی از این انواع دادهها کاملاً ضروری نیست، اما به طور کلی احتمال مواجهه با گلوگاههای محاسباتی را کاهش میدهد، به ویژه هنگام سرویسدهی در مقیاس بزرگ.
ما شاهد افزایش تعداد توسعهدهندگان مدل بودهایم که انواع داده با دقت پایینتر را به کار میبرند، با Meta، Microsoft و Alibaba نسخههای کوانتیزه شده هشت بیتی و حتی چهار بیتی از مدلهای خود را ارائه میدهند.
کوانتیزاسیون شامل فشردهسازی وزنهای مدل از دقت بومی آنها، معمولاً BF16، به FP8 یا INT4 است. این امر به طور موثر پهنای باند حافظه و ظرفیت مورد نیاز مدلها را با نصف یا حتی سه چهارم کاهش میدهد و در ازای آن مقداری کیفیت از دست میرود.
تلفات ناشی از انتقال از 16 بیت به 8 بیت اغلب ناچیز است و چندین سازنده مدل، از جمله DeepSeek، آموزش را با دقت FP8 از ابتدا آغاز کردهاند. با این حال، کاهش دقت با چهار بیت دیگر میتواند منجر به کاهش قابل توجه کیفیت شود. در نتیجه، بسیاری از رویکردهای کوانتیزاسیون پس از آموزش، مانند GGUF، همه وزنها را به طور یکسان فشرده نمیکنند و برخی را در سطوح دقت بالاتر باقی میگذارند تا خسارت کیفیت را به حداقل برسانند.
گوگل اخیراً استفاده از آموزش آگاه از کوانتیزاسیون (QAT) را برای کاهش مدلهای Gemma 3 خود با ضریب 4x در حالی که سطوح کیفیت را نزدیک به BF16 بومی حفظ میکند، نشان داد.
QAT عملیات کم دقت را در طول آموزش شبیهسازی میکند. با اعمال این تکنیک برای تقریباً 5000 مرحله روی یک مدل غیر واجد شرایط، گوگل توانست کاهش در پیچیدگی، یک معیار برای اندازهگیری تلفات مربوط به کوانتیزاسیون، را با 54 درصد هنگام تبدیل به INT4 کاهش دهد.
یکی دیگر از رویکردهای مبتنی بر QAT برای کوانتیزاسیون، معروف به Bitnet، هدفش سطوح دقت حتی پایینتر است و مدلها را فقط به 1.58 بیت، یا تقریباً یک دهم اندازه اصلی خود فشرده میکند.
هم افزایی فناوری ها
ترکیب MoE و کوانتیزاسیون 4 بیتی مزایای قابل توجهی را ارائه می دهد، به ویژه زمانی که پهنای باند محدود است.
با این حال، برای دیگرانی که محدودیت پهنای باند ندارند، هر یک از این دو فناوری، چه MoE باشد و چه کوانتیزاسیون، می توانند هزینه تجهیزات و بهره برداری را برای اجرای مدل های بزرگتر و قدرتمندتر به طور قابل توجهی کاهش دهند. این فرض بر این است که می توان یک سرویس ارزشمند برای انجام آنها پیدا کرد.
و اگر اینطور نیست، حداقل می توانید تسلی خاطر داشته باشید که تنها نیستید - یک نظرسنجی اخیر IBM نشان داد که تنها یک چهارم استقرارهای هوش مصنوعی بازدهی سرمایه گذاری مورد وعده را ارائه داده اند.