بازاندیشی تراشه‌های هوش مصنوعی پس از DeepSeek

پیشرفت سریع فناوری هوش مصنوعی، که با پیشرفت‌های DeepSeek نمونه‌سازی می‌شود، مستلزم ارزیابی اساسی در مورد نحوه ساخت مراکز داده، تراشه‌ها و سیستم‌ها برای ارائه قدرت محاسباتی لازم است. نوآوری‌های مهندسی DeepSeek هزینه‌های محاسباتی هوش مصنوعی را به طور قابل توجهی کاهش داده است و باعث ایجاد بحث گسترده‌تری در مورد آینده زیرساخت هوش مصنوعی شده است.

در حالی که DeepSeek ممکن است مرزهای فناوری هوش مصنوعی را به شدت گسترش نداده باشد، تأثیر آن بر بازار هوش مصنوعی عمیق است. فناوری‌هایی مانند Mixture of Experts (MoE)، Multi-Layer Attention (MLA) و Multi-Token Prediction (MTP) در کنار DeepSeek برجسته شده‌اند. اگرچه همه این فناوری‌ها توسط DeepSeek پیشگام نبوده‌اند، اما اجرای موفقیت‌آمیز آنها باعث پذیرش گسترده شده است. MLA، به ویژه، به یک نقطه کانونی بحث در پلتفرم‌های مختلف، از دستگاه‌های لبه‌ای تا رایانش ابری تبدیل شده است.

MLA و چالش نوآوری الگوریتم

الاد راز، مدیرعامل NextSilicon، اخیراً اشاره کرد که در حالی که MLA باعث بهبود بهره‌وری حافظه می‌شود، ممکن است حجم کار را برای توسعه‌دهندگان افزایش داده و کاربرد هوش مصنوعی را در محیط‌های تولید پیچیده کند. کاربران GPU ممکن است نیاز به بهینه‌سازی ‘کد دستی’ برای MLA داشته باشند. این مثال بر نیاز به بازاندیشی در مورد اجرای تراشه‌های هوش مصنوعی و معماری زیرساخت‌ها در دوران پس از DeepSeek تأکید می‌کند.

برای درک اهمیت MLA، ضروری است که مفاهیم اساسی Large Language Models (LLM) را درک کنیم. هنگام تولید پاسخ به ورودی‌های کاربر، LLMها به شدت به بردارهای KV – کلیدها و مقادیر – متکی هستند که مدل را قادر می‌سازد تا بر روی داده‌های مرتبط تمرکز کند. در مکانیسم‌های توجه، مدل درخواست‌های جدید را با کلیدها مقایسه می‌کند تا مرتبط‌ترین محتوا را تعیین کند.

الاد راز از قیاس یک کتاب استفاده می‌کند، کلید مانند ‘عنوان فصل‌های یک کتاب است که نشان می‌دهد هر قسمت در مورد چیست، و مقدار آن خلاصه‌های دقیق‌تری در زیر آن عنوان‌ها است. بنابراین وقتی کاربر درخواستی را وارد می‌کند، یک عبارت جستجو می‌خواهد تا به تولید پاسخ کمک کند. می‌پرسد، ‘در این خط داستانی، کدام فصل مرتبط‌ترین است؟’’

MLA این عنوان فصل‌ها (کلیدها) و خلاصه‌ها (مقادیر) را فشرده می‌کند و روند یافتن پاسخ‌ها را تسریع می‌کند و کارایی را افزایش می‌دهد. در نهایت، MLA به DeepSeek کمک می‌کند تا مصرف حافظه را بین 5 تا 13 درصد کاهش دهد. اطلاعات دقیق‌تر را می‌توانید در مقاله رسمی DeepSeek بیابید. کنفرانس توسعه‌دهندگان MediaTek حتی از پشتیبانی از MLA در تراشه‌های موبایل Dimensity خود صحبت کرد که نشان‌دهنده تأثیر گسترده DeepSeek است.

فناوری‌هایی مانند MLA نشان‌دهنده نوآوری‌های الگوریتمی معمولی در عصر هوش مصنوعی هستند. با این حال، سرعت بالای توسعه فناوری هوش مصنوعی منجر به جریان ثابتی از نوآوری‌ها می‌شود که به نوبه خود چالش‌های جدیدی را ایجاد می‌کند، به ویژه هنگامی که این نوآوری‌ها برای پلتفرم‌های خاص طراحی شده‌اند. در مورد MLA، کاربران غیر NVIDIA GPU برای استفاده از این فناوری به کدنویسی دستی اضافی نیاز دارند.

در حالی که فناوری‌های DeepSeek نوآوری و ارزش عصر هوش مصنوعی را نشان می‌دهند، سخت‌افزار و نرم‌افزار باید با این نوآوری‌ها سازگار شوند. به گفته الاد راز، چنین سازگاری باید پیچیدگی را برای توسعه‌دهندگان و محیط‌های تولید به حداقل برساند. در غیر این صورت، هزینه هر نوآوری به طرز سرسام‌آوری زیاد می‌شود.

سپس این سوال مطرح می‌شود: ‘اگر نوآوری الگوریتم بعدی به خوبی و به سادگی به معماری‌های موجود ترجمه نشود، چه اتفاقی می‌افتد؟’

تعارض بین طراحی تراشه و نوآوری الگوریتم

در چند سال گذشته، تولیدکنندگان تراشه‌های هوش مصنوعی به طور مداوم گزارش داده‌اند که طراحی تراشه‌های بزرگ هوش مصنوعی حداقل 1-2 سال طول می‌کشد. این بدان معناست که طراحی تراشه باید قبل از عرضه تراشه به بازار آغاز شود. با توجه به پیشرفت‌های سریع در فناوری هوش مصنوعی، طراحی تراشه هوش مصنوعی باید آینده‌نگر باشد. تمرکز صرف بر نیازهای فعلی منجر به تراشه‌های هوش مصنوعی منسوخ می‌شود که نمی‌توانند با آخرین نوآوری‌های کاربردی سازگار شوند.

نوآوری الگوریتم کاربردی هوش مصنوعی اکنون به صورت هفتگی رخ می‌دهد. همانطور که در مقالات قبلی ذکر شد، قدرت محاسباتی مورد نیاز برای مدل‌های هوش مصنوعی برای دستیابی به همان قابلیت‌ها سالانه 4 تا 10 برابر کاهش می‌یابد. هزینه استنتاج مدل‌های هوش مصنوعی که به کیفیتی مشابه GPT-3 دست می‌یابند، در سه سال گذشته 1200 برابر کاهش یافته است. در حال حاضر، مدل‌هایی با 2B پارامتر می‌توانند به همان سطح GPT-3 با 170B پارامتر سال‌های گذشته دست یابند. این نوآوری سریع در لایه‌های بالایی پشته فناوری هوش مصنوعی، چالش‌های مهمی را برای برنامه‌ریزی و طراحی معماری تراشه سنتی ایجاد می‌کند.

الاد راز معتقد است که صنعت باید نوآوری‌هایی مانند DeepSeek MLA را به عنوان یک هنجار برای فناوری هوش مصنوعی بشناسد. ‘محاسبات نسل بعدی نه تنها باید برای حجم کارهای امروزی بهینه‌سازی شوند، بلکه باید نوآوری‌های آینده را نیز در خود جای دهند.’ این دیدگاه نه تنها در مورد صنعت تراشه، بلکه در مورد کل زیرساخت میانی تا پایین‌دستی پشته فناوری هوش مصنوعی نیز صدق می‌کند.

الاد راز گفت: ‘DeepSeek و سایر نوآوری‌ها پیشرفت سریع نوآوری الگوریتم را نشان داده‌اند.’ ‘محققان و دانشمندان داده به ابزارهای همه‌کاره و انعطاف‌پذیرتری نیاز دارند تا بینش‌ها و اکتشافات جدید را هدایت کنند. بازار به پلتفرم‌های محاسباتی سخت‌افزاری تعریف‌شده توسط نرم‌افزار هوشمند نیاز دارد که به مشتریان اجازه می‌دهد ‘جایگزینی قطره‌ای’ برای راه‌حل‌های شتاب‌دهنده موجود داشته باشند، در حالی که توسعه‌دهندگان را قادر می‌سازد تا کار خود را بدون دردسر انتقال دهند.’

برای رسیدگی به این وضعیت، صنعت باید زیرساخت‌های محاسباتی هوشمندتر، سازگارتر و انعطاف‌پذیرتری را طراحی کند.

انعطاف‌پذیری و کارایی اغلب اهداف متضادی هستند. CPUها بسیار انعطاف‌پذیر هستند اما کارایی محاسباتی موازی بسیار کمتری نسبت به GPUها دارند. GPUها، با قابلیت برنامه‌ریزی خود، ممکن است کارایی کمتری نسبت به تراشه‌های اختصاصی AI ASIC داشته باشند.

الاد راز خاطرنشان کرد که NVIDIA انتظار دارد رک‌های مرکز داده هوش مصنوعی به زودی به 600 کیلووات مصرف برق برسند. برای درک این موضوع، 75 درصد از مراکز داده سازمانی استاندارد تنها 15 تا 20 کیلووات مصرف برق پیک در هر رک دارند. صرف نظر از پتانسیل افزایش کارایی در هوش مصنوعی، این امر چالش مهمی را برای مراکز داده در ساخت سیستم‌های زیرساخت محاسباتی ایجاد می‌کند.

از دیدگاه الاد راز، GPUها و شتاب‌دهنده‌های هوش مصنوعی فعلی ممکن است برای برآورده کردن تقاضای بالقوه هوش مصنوعی و محاسبات با کارایی بالا (HPC) کافی نباشند. ‘اگر به طور اساسی در مورد نحوه بهبود کارایی محاسبات تجدید نظر نکنیم، صنعت با خطر رسیدن به محدودیت‌های فیزیکی و اقتصادی روبرو می‌شود. این دیوار همچنین اثرات جانبی خواهد داشت و دسترسی به هوش مصنوعی و HPC را برای سازمان‌های بیشتر محدود می‌کند و حتی با پیشرفت در الگوریتم‌ها یا معماری‌های GPU سنتی، مانع نوآوری می‌شود.’

توصیه‌ها و الزامات برای زیرساخت محاسباتی نسل بعدی

بر اساس این مشاهدات، الاد راز ‘چهار ستون’ را برای تعریف زیرساخت محاسباتی نسل بعدی پیشنهاد کرد:

(1) قابلیت جایگزینی Plug-and-Play: ‘تاریخ نشان داده است که انتقال معماری پیچیده، مانند مهاجرت از CPU به GPU، می‌تواند دهه‌ها طول بکشد تا به طور کامل اجرا شود. بنابراین، معماری‌های محاسباتی نسل بعدی باید از مهاجرت روان پشتیبانی کنند.’ برای قابلیت جایگزینی ‘plug-and-play’، الاد راز پیشنهاد می‌کند که معماری‌های محاسباتی جدید باید از اکوسیستم‌های x86 و Arm درس بگیرند و از طریق سازگاری رو به عقب به پذیرش گسترده‌تری دست یابند.

طرح‌های مدرن همچنین باید از نیاز توسعه‌دهندگان به بازنویسی حجم زیادی از کد یا ایجاد وابستگی به فروشندگان خاص جلوگیری کنند. ‘به عنوان مثال، پشتیبانی از فناوری‌های نوظهور مانند MLA باید استانداردسازی شود، نه اینکه نیاز به تنظیمات دستی اضافی داشته باشد، همانطور که در مورد GPUهای غیر NVIDIA وجود دارد. سیستم‌های نسل بعدی باید حجم کارهای جدید را خارج از جعبه درک و بهینه‌سازی کنند، بدون نیاز به تغییرات دستی کد یا تنظیمات API قابل توجه.’

(2) بهینه‌سازی عملکرد تطبیقی و بی‌درنگ: الاد راز معتقد است که صنعت باید از شتاب‌دهنده‌های عملکرد ثابت فاصله بگیرد. ‘صنعت نیاز به ساختن بر روی پایه‌های سخت‌افزاری تعریف‌شده توسط نرم‌افزار هوشمند دارد که می‌تواند به طور پویا خود را در زمان اجرا بهینه کند.’

‘با یادگیری مداوم از حجم کار، سیستم‌های آینده می‌توانند خود را در زمان واقعی تنظیم کنند و بهره‌وری و عملکرد پایدار را بدون توجه به حجم کار خاص برنامه به حداکثر برسانند. این انطباق‌پذیری پویا به این معنی است که زیرساخت می‌تواند کارایی ثابتی را در سناریوهای دنیای واقعی ارائه دهد، چه در حال اجرای شبیه‌سازی‌های HPC، مدل‌های پیچیده هوش مصنوعی یا عملیات پایگاه داده برداری باشد.’

(3) کارایی مقیاس‌پذیر: ‘با جدا کردن سخت‌افزار و نرم‌افزار و تمرکز بر بهینه‌سازی هوشمند بی‌درنگ، سیستم‌های آینده باید به بهره‌وری بالاتر و مصرف انرژی کلی کمتر دست یابند. این امر باعث می‌شود زیرساخت مقرون به صرفه‌تر و مقیاس‌پذیرتر برای پاسخگویی به خواسته‌های در حال تحول حجم کارهای جدید باشد.’

(4) طراحی آینده: این نکته مربوط به الزام آینده‌نگر برای زیرساخت هوش مصنوعی، به ویژه طراحی تراشه است. ‘الگوریتم‌های پیشرفته امروزی ممکن است فردا منسوخ شوند.’ ‘خواه شبکه‌های عصبی هوش مصنوعی باشد یا مدل‌های LLM مبتنی بر ترانسفورمر، زیرساخت محاسباتی نسل بعدی باید قابل تطبیق باشد و اطمینان حاصل کند که سرمایه‌گذاری‌های فناوری شرکت‌ها برای سال‌های آینده انعطاف‌پذیر باقی می‌ماند.’

این پیشنهادات دیدگاهی نسبتاً ایده‌آل‌گرایانه و در عین حال تفکر برانگیز ارائه می‌دهند. این روش هدایت‌کننده باید برای توسعه آینده فناوری‌های هوش مصنوعی و HPC در نظر گرفته شود، حتی اگر برخی از تناقضات ذاتی مسائل دیرینه در صنعت باقی بمانند. ‘برای رها کردن پتانسیل هوش مصنوعی، HPC و سایر حجم کارهای محاسباتی و داده‌محور آینده، باید در زیرساخت تجدید نظر کنیم و راه‌حل‌های پویا و هوشمند را برای حمایت از نوآوری و پیشگامان بپذیریم.’