پیشرفت سریع فناوری هوش مصنوعی، که با پیشرفتهای DeepSeek نمونهسازی میشود، مستلزم ارزیابی اساسی در مورد نحوه ساخت مراکز داده، تراشهها و سیستمها برای ارائه قدرت محاسباتی لازم است. نوآوریهای مهندسی DeepSeek هزینههای محاسباتی هوش مصنوعی را به طور قابل توجهی کاهش داده است و باعث ایجاد بحث گستردهتری در مورد آینده زیرساخت هوش مصنوعی شده است.
در حالی که DeepSeek ممکن است مرزهای فناوری هوش مصنوعی را به شدت گسترش نداده باشد، تأثیر آن بر بازار هوش مصنوعی عمیق است. فناوریهایی مانند Mixture of Experts (MoE)، Multi-Layer Attention (MLA) و Multi-Token Prediction (MTP) در کنار DeepSeek برجسته شدهاند. اگرچه همه این فناوریها توسط DeepSeek پیشگام نبودهاند، اما اجرای موفقیتآمیز آنها باعث پذیرش گسترده شده است. MLA، به ویژه، به یک نقطه کانونی بحث در پلتفرمهای مختلف، از دستگاههای لبهای تا رایانش ابری تبدیل شده است.
MLA و چالش نوآوری الگوریتم
الاد راز، مدیرعامل NextSilicon، اخیراً اشاره کرد که در حالی که MLA باعث بهبود بهرهوری حافظه میشود، ممکن است حجم کار را برای توسعهدهندگان افزایش داده و کاربرد هوش مصنوعی را در محیطهای تولید پیچیده کند. کاربران GPU ممکن است نیاز به بهینهسازی ‘کد دستی’ برای MLA داشته باشند. این مثال بر نیاز به بازاندیشی در مورد اجرای تراشههای هوش مصنوعی و معماری زیرساختها در دوران پس از DeepSeek تأکید میکند.
برای درک اهمیت MLA، ضروری است که مفاهیم اساسی Large Language Models (LLM) را درک کنیم. هنگام تولید پاسخ به ورودیهای کاربر، LLMها به شدت به بردارهای KV – کلیدها و مقادیر – متکی هستند که مدل را قادر میسازد تا بر روی دادههای مرتبط تمرکز کند. در مکانیسمهای توجه، مدل درخواستهای جدید را با کلیدها مقایسه میکند تا مرتبطترین محتوا را تعیین کند.
الاد راز از قیاس یک کتاب استفاده میکند، کلید مانند ‘عنوان فصلهای یک کتاب است که نشان میدهد هر قسمت در مورد چیست، و مقدار آن خلاصههای دقیقتری در زیر آن عنوانها است. بنابراین وقتی کاربر درخواستی را وارد میکند، یک عبارت جستجو میخواهد تا به تولید پاسخ کمک کند. میپرسد، ‘در این خط داستانی، کدام فصل مرتبطترین است؟’’
MLA این عنوان فصلها (کلیدها) و خلاصهها (مقادیر) را فشرده میکند و روند یافتن پاسخها را تسریع میکند و کارایی را افزایش میدهد. در نهایت، MLA به DeepSeek کمک میکند تا مصرف حافظه را بین 5 تا 13 درصد کاهش دهد. اطلاعات دقیقتر را میتوانید در مقاله رسمی DeepSeek بیابید. کنفرانس توسعهدهندگان MediaTek حتی از پشتیبانی از MLA در تراشههای موبایل Dimensity خود صحبت کرد که نشاندهنده تأثیر گسترده DeepSeek است.
فناوریهایی مانند MLA نشاندهنده نوآوریهای الگوریتمی معمولی در عصر هوش مصنوعی هستند. با این حال، سرعت بالای توسعه فناوری هوش مصنوعی منجر به جریان ثابتی از نوآوریها میشود که به نوبه خود چالشهای جدیدی را ایجاد میکند، به ویژه هنگامی که این نوآوریها برای پلتفرمهای خاص طراحی شدهاند. در مورد MLA، کاربران غیر NVIDIA GPU برای استفاده از این فناوری به کدنویسی دستی اضافی نیاز دارند.
در حالی که فناوریهای DeepSeek نوآوری و ارزش عصر هوش مصنوعی را نشان میدهند، سختافزار و نرمافزار باید با این نوآوریها سازگار شوند. به گفته الاد راز، چنین سازگاری باید پیچیدگی را برای توسعهدهندگان و محیطهای تولید به حداقل برساند. در غیر این صورت، هزینه هر نوآوری به طرز سرسامآوری زیاد میشود.
سپس این سوال مطرح میشود: ‘اگر نوآوری الگوریتم بعدی به خوبی و به سادگی به معماریهای موجود ترجمه نشود، چه اتفاقی میافتد؟’
تعارض بین طراحی تراشه و نوآوری الگوریتم
در چند سال گذشته، تولیدکنندگان تراشههای هوش مصنوعی به طور مداوم گزارش دادهاند که طراحی تراشههای بزرگ هوش مصنوعی حداقل 1-2 سال طول میکشد. این بدان معناست که طراحی تراشه باید قبل از عرضه تراشه به بازار آغاز شود. با توجه به پیشرفتهای سریع در فناوری هوش مصنوعی، طراحی تراشه هوش مصنوعی باید آیندهنگر باشد. تمرکز صرف بر نیازهای فعلی منجر به تراشههای هوش مصنوعی منسوخ میشود که نمیتوانند با آخرین نوآوریهای کاربردی سازگار شوند.
نوآوری الگوریتم کاربردی هوش مصنوعی اکنون به صورت هفتگی رخ میدهد. همانطور که در مقالات قبلی ذکر شد، قدرت محاسباتی مورد نیاز برای مدلهای هوش مصنوعی برای دستیابی به همان قابلیتها سالانه 4 تا 10 برابر کاهش مییابد. هزینه استنتاج مدلهای هوش مصنوعی که به کیفیتی مشابه GPT-3 دست مییابند، در سه سال گذشته 1200 برابر کاهش یافته است. در حال حاضر، مدلهایی با 2B پارامتر میتوانند به همان سطح GPT-3 با 170B پارامتر سالهای گذشته دست یابند. این نوآوری سریع در لایههای بالایی پشته فناوری هوش مصنوعی، چالشهای مهمی را برای برنامهریزی و طراحی معماری تراشه سنتی ایجاد میکند.
الاد راز معتقد است که صنعت باید نوآوریهایی مانند DeepSeek MLA را به عنوان یک هنجار برای فناوری هوش مصنوعی بشناسد. ‘محاسبات نسل بعدی نه تنها باید برای حجم کارهای امروزی بهینهسازی شوند، بلکه باید نوآوریهای آینده را نیز در خود جای دهند.’ این دیدگاه نه تنها در مورد صنعت تراشه، بلکه در مورد کل زیرساخت میانی تا پاییندستی پشته فناوری هوش مصنوعی نیز صدق میکند.
الاد راز گفت: ‘DeepSeek و سایر نوآوریها پیشرفت سریع نوآوری الگوریتم را نشان دادهاند.’ ‘محققان و دانشمندان داده به ابزارهای همهکاره و انعطافپذیرتری نیاز دارند تا بینشها و اکتشافات جدید را هدایت کنند. بازار به پلتفرمهای محاسباتی سختافزاری تعریفشده توسط نرمافزار هوشمند نیاز دارد که به مشتریان اجازه میدهد ‘جایگزینی قطرهای’ برای راهحلهای شتابدهنده موجود داشته باشند، در حالی که توسعهدهندگان را قادر میسازد تا کار خود را بدون دردسر انتقال دهند.’
برای رسیدگی به این وضعیت، صنعت باید زیرساختهای محاسباتی هوشمندتر، سازگارتر و انعطافپذیرتری را طراحی کند.
انعطافپذیری و کارایی اغلب اهداف متضادی هستند. CPUها بسیار انعطافپذیر هستند اما کارایی محاسباتی موازی بسیار کمتری نسبت به GPUها دارند. GPUها، با قابلیت برنامهریزی خود، ممکن است کارایی کمتری نسبت به تراشههای اختصاصی AI ASIC داشته باشند.
الاد راز خاطرنشان کرد که NVIDIA انتظار دارد رکهای مرکز داده هوش مصنوعی به زودی به 600 کیلووات مصرف برق برسند. برای درک این موضوع، 75 درصد از مراکز داده سازمانی استاندارد تنها 15 تا 20 کیلووات مصرف برق پیک در هر رک دارند. صرف نظر از پتانسیل افزایش کارایی در هوش مصنوعی، این امر چالش مهمی را برای مراکز داده در ساخت سیستمهای زیرساخت محاسباتی ایجاد میکند.
از دیدگاه الاد راز، GPUها و شتابدهندههای هوش مصنوعی فعلی ممکن است برای برآورده کردن تقاضای بالقوه هوش مصنوعی و محاسبات با کارایی بالا (HPC) کافی نباشند. ‘اگر به طور اساسی در مورد نحوه بهبود کارایی محاسبات تجدید نظر نکنیم، صنعت با خطر رسیدن به محدودیتهای فیزیکی و اقتصادی روبرو میشود. این دیوار همچنین اثرات جانبی خواهد داشت و دسترسی به هوش مصنوعی و HPC را برای سازمانهای بیشتر محدود میکند و حتی با پیشرفت در الگوریتمها یا معماریهای GPU سنتی، مانع نوآوری میشود.’
توصیهها و الزامات برای زیرساخت محاسباتی نسل بعدی
بر اساس این مشاهدات، الاد راز ‘چهار ستون’ را برای تعریف زیرساخت محاسباتی نسل بعدی پیشنهاد کرد:
(1) قابلیت جایگزینی Plug-and-Play: ‘تاریخ نشان داده است که انتقال معماری پیچیده، مانند مهاجرت از CPU به GPU، میتواند دههها طول بکشد تا به طور کامل اجرا شود. بنابراین، معماریهای محاسباتی نسل بعدی باید از مهاجرت روان پشتیبانی کنند.’ برای قابلیت جایگزینی ‘plug-and-play’، الاد راز پیشنهاد میکند که معماریهای محاسباتی جدید باید از اکوسیستمهای x86 و Arm درس بگیرند و از طریق سازگاری رو به عقب به پذیرش گستردهتری دست یابند.
طرحهای مدرن همچنین باید از نیاز توسعهدهندگان به بازنویسی حجم زیادی از کد یا ایجاد وابستگی به فروشندگان خاص جلوگیری کنند. ‘به عنوان مثال، پشتیبانی از فناوریهای نوظهور مانند MLA باید استانداردسازی شود، نه اینکه نیاز به تنظیمات دستی اضافی داشته باشد، همانطور که در مورد GPUهای غیر NVIDIA وجود دارد. سیستمهای نسل بعدی باید حجم کارهای جدید را خارج از جعبه درک و بهینهسازی کنند، بدون نیاز به تغییرات دستی کد یا تنظیمات API قابل توجه.’
(2) بهینهسازی عملکرد تطبیقی و بیدرنگ: الاد راز معتقد است که صنعت باید از شتابدهندههای عملکرد ثابت فاصله بگیرد. ‘صنعت نیاز به ساختن بر روی پایههای سختافزاری تعریفشده توسط نرمافزار هوشمند دارد که میتواند به طور پویا خود را در زمان اجرا بهینه کند.’
‘با یادگیری مداوم از حجم کار، سیستمهای آینده میتوانند خود را در زمان واقعی تنظیم کنند و بهرهوری و عملکرد پایدار را بدون توجه به حجم کار خاص برنامه به حداکثر برسانند. این انطباقپذیری پویا به این معنی است که زیرساخت میتواند کارایی ثابتی را در سناریوهای دنیای واقعی ارائه دهد، چه در حال اجرای شبیهسازیهای HPC، مدلهای پیچیده هوش مصنوعی یا عملیات پایگاه داده برداری باشد.’
(3) کارایی مقیاسپذیر: ‘با جدا کردن سختافزار و نرمافزار و تمرکز بر بهینهسازی هوشمند بیدرنگ، سیستمهای آینده باید به بهرهوری بالاتر و مصرف انرژی کلی کمتر دست یابند. این امر باعث میشود زیرساخت مقرون به صرفهتر و مقیاسپذیرتر برای پاسخگویی به خواستههای در حال تحول حجم کارهای جدید باشد.’
(4) طراحی آینده: این نکته مربوط به الزام آیندهنگر برای زیرساخت هوش مصنوعی، به ویژه طراحی تراشه است. ‘الگوریتمهای پیشرفته امروزی ممکن است فردا منسوخ شوند.’ ‘خواه شبکههای عصبی هوش مصنوعی باشد یا مدلهای LLM مبتنی بر ترانسفورمر، زیرساخت محاسباتی نسل بعدی باید قابل تطبیق باشد و اطمینان حاصل کند که سرمایهگذاریهای فناوری شرکتها برای سالهای آینده انعطافپذیر باقی میماند.’
این پیشنهادات دیدگاهی نسبتاً ایدهآلگرایانه و در عین حال تفکر برانگیز ارائه میدهند. این روش هدایتکننده باید برای توسعه آینده فناوریهای هوش مصنوعی و HPC در نظر گرفته شود، حتی اگر برخی از تناقضات ذاتی مسائل دیرینه در صنعت باقی بمانند. ‘برای رها کردن پتانسیل هوش مصنوعی، HPC و سایر حجم کارهای محاسباتی و دادهمحور آینده، باید در زیرساخت تجدید نظر کنیم و راهحلهای پویا و هوشمند را برای حمایت از نوآوری و پیشگامان بپذیریم.’