پیشرفت هوش مصنوعی هواوی با روش MoGE

شرکت فناوری هواوی، که به دلیل تحریم‌های ایالات متحده با موانع فناورانه قابل توجهی روبرو است، ظاهراً به یک پیشرفت در آموزش مدل هوش مصنوعی (AI) دست یافته است. محققانی که روی مدل زبان بزرگ (LLM) هواوی، Pangu، کار می‌کنند، ادعا می‌کنند رویکردی پیشرفته‌تر از روش اصلی DeepSeek توسعه داده‌اند. این روش نوآورانه از سخت افزار اختصاصی خود هواوی استفاده می کند و وابستگی شرکت را به فناوری های ایالات متحده کاهش می دهد، هدفی حیاتی در چشم انداز ژئوپلیتیکی کنونی.

ظهور Mixture of Grouped Experts (MoGE)

سنگ بنای پیشرفت هواوی در مفهوم Mixture of Grouped Experts (MoGE) نهفته است. این تکنیک جدید، که در مقاله‌ای توسط تیم Pangu هواوی به تفصیل شرح داده شده است، به عنوان نسخه ارتقا یافته تکنیک Mixture of Experts (MoE) ارائه شده است. MoE همانطور که موفقیت DeepSeek نشان داده است، در ایجاد مدل های هوش مصنوعی مقرون به صرفه بسیار مهم بوده است.

MoE مزایایی را برای پارامترهای مدل بزرگ ارائه می دهد که منجر به افزایش ظرفیت یادگیری می شود. با این حال، محققان هواوی ناکارآمدی‌های ناشی از فعال‌سازی ناهموار “متخصصان” را شناسایی کردند، که اجزای مهمی در آموزش هوش مصنوعی هستند که می‌توانند هنگام اجرای وظایف به طور همزمان در چندین دستگاه، عملکرد را مختل کنند. MoGE هواوی به طور استراتژیک این چالش‌ها را برطرف می‌کند.

رفع ناکارآمدی‌ها در مدل‌های MoE سنتی

سیستم MoGE به طور پیچیده‌ای برای بهینه‌سازی توزیع حجم کاری طراحی شده است. ایده اصلی این است که متخصصان را در طول فرآیند انتخاب “گروه‌بندی” کنیم که منجر به توزیع بار کاری متعادل‌تر می‌شود. محققان با توزیع عادلانه‌تر بار محاسباتی، از افزایش قابل توجهی در عملکرد محیط‌های محاسبات موازی، که جنبه اصلی آموزش هوش مصنوعی مدرن است، خبر دادند.

مفهوم “متخصصان” در آموزش هوش مصنوعی به زیرمدل‌ها یا اجزای تخصصی در یک مدل بزرگ‌تر و جامع‌تر اشاره دارد. هر متخصص به طور دقیق برای رسیدگی به وظایف یا انواع داده‌های بسیار خاص طراحی شده است. این رویکرد از تخصص‌های تخصصی متنوع استفاده می‌کند و به سیستم کلی هوش مصنوعی اجازه می‌دهد تا عملکرد کلی خود را به طور قابل توجهی بهبود بخشد.

مفاهیم برای پیشرفت هوش مصنوعی چین

این پیشرفت به ویژه به موقع است. شرکت‌های هوش مصنوعی چینی، علیرغم مواجهه با محدودیت‌های ایالات متحده در واردات تراشه‌های پیشرفته هوش مصنوعی مانند تراشه‌های Nvidia، به طور تهاجمی روش‌هایی را برای افزایش آموزش مدل و کارایی استنتاج دنبال می‌کنند. این روش‌ها نه تنها شامل بهبودهای الگوریتمی بلکه ادغام هم افزای سخت افزار و نرم افزار نیز می‌شود.

محققان هواوی به طور دقیق معماری MoGE را روی واحد پردازش عصبی Ascend خود (NPU) آزمایش کردند که به طور خاص برای تسریع وظایف هوش مصنوعی طراحی شده است. نتایج نشان داد که MoGE به تعادل بار متخصص برتر و اجرای کارآمدتر برای مراحل آموزش و استنتاج مدل دست یافته است. این یک اعتبار سنجی قابل توجه از مزایای بهینه سازی همزمان پشته سخت افزار و نرم افزار است.

محک زدن Pangu در برابر مدل‌های پیشرو هوش مصنوعی

مدل Pangu هواوی، که توسط معماری MoGE و Ascend NPU تقویت شده است، در برابر مدل‌های پیشرو هوش مصنوعی محک زده شد. این موارد شامل DeepSeek-V3، Qwen2.5-72B گروه هلدینگ علی بابا و Llama-405B پلتفرم های متا بود. نتایج این محک نشان داد که Pangu در طیف وسیعی از معیارهای عمومی انگلیسی به عملکردی پیشرفته دست یافته است و در تمام معیارهای چینی برتری داشته است. Pangu همچنین کارایی بالاتری را در پردازش آموزش طولانی مدت نشان داد، که زمینه ای با اهمیت حیاتی برای وظایف پیچیده پردازش زبان طبیعی است.

علاوه بر این، مدل Pangu قابلیت‌های استثنایی در کارهای درک زبان عمومی، با نقاط قوت خاص در وظایف استدلال نشان داد. این توانایی در درک ظرافت‌ها و استخراج معنا از زبان پیچیده، پیشرفت‌هایی را که هواوی در هوش مصنوعی به دست آورده است، نشان می‌دهد.

اهمیت استراتژیک هواوی

پیشرفت هواوی در معماری مدل هوش مصنوعی از اهمیت استراتژیک برخوردار است. با توجه به تحریم‌های مداوم، این شرکت مستقر در شنژن به طور استراتژیک به دنبال کاهش اتکای خود به فناوری‌های ایالات متحده است. تراشه‌های Ascend توسعه یافته توسط هواوی به عنوان جایگزین‌های داخلی مناسب برای پردازنده‌های Nvidia در نظر گرفته می‌شوند و جزء اصلی این استقلال هستند.

Pangu Ultra، یک مدل زبان بزرگ با 135 میلیارد پارامتر بهینه شده برای NPUها، بر اثربخشی ساده‌سازی معماری و سیستماتیک هواوی تأکید می‌کند و در عین حال قابلیت‌های NPUهای خود را به نمایش می‌گذارد. نشان دادن اثربخشی ادغام سخت‌افزار و نرم‌افزار آن بخش مهمی از نمایش قابلیت‌های هوش مصنوعی هواوی است.

فرآیند دقیق آموزش

به گفته هواوی، فرآیند آموزش به سه مرحله اصلی تقسیم می‌شود: پیش‌آموزش، گسترش زمینه طولانی و پس‌آموزش. پیش‌آموزش شامل آموزش اولیه مدل بر روی مجموعه داده عظیمی از 13.2 تریلیون نشانه است. سپس گسترش زمینه طولانی، توانایی مدل را برای مدیریت متون طولانی‌تر و پیچیده‌تر گسترش می‌دهد و بر تشخیص داده‌های اولیه متکی است. این مرحله از پردازش توزیع‌شده در مقیاس بزرگ در 8192 تراشه Ascend استفاده می‌کند.

هواوی فاش کرد که این مدل و سیستم به زودی در دسترس مشتریان تجاری خود قرار می‌گیرد و فرصت‌های جدیدی را برای ادغام و توسعه با شرکای خود باز می‌کند.

بررسی عمیق Mixture of Experts (MoE) و محدودیت‌های آن

برای درک کامل اهمیت MoGE هواوی، درک پایه‌هایی که بر آن بنا شده است بسیار مهم است: معماری Mixture of Experts (MoE). MoE نشان‌دهنده یک تغییر پارادایم در نحوه طراحی و آموزش مدل‌های بزرگ هوش مصنوعی است که مسیری را برای مقیاس‌بندی اندازه و پیچیدگی مدل بدون افزایش متناسب در هزینه محاسباتی ارائه می‌دهد.

در یک شبکه عصبی سنتی، هر ورودی توسط هر نورون در هر لایه پردازش می شود. در حالی که این رویکرد می تواند دقت بالایی به همراه داشته باشد، برای مدل های بسیار بزرگ از نظر محاسباتی بسیار پرهزینه می شود. MoE در مقابل، مفهوم “متخصصان” را معرفی می کند - شبکه های عصبی کوچک تر و تخصصی که بر زیر مجموعه های خاصی از داده های ورودی تمرکز می کنند.

یک شبکه “دروازه” به طور پویا هر ورودی را به مرتبط ترین متخصص(ها) هدایت می کند. این فعال سازی انتخابی امکان محاسبه پراکنده را فراهم می کند، به این معنی که تنها کسری از پارامترهای مدل برای هر ورودی معین درگیر می شوند. این پراکندگی به طور چشمگیری هزینه محاسباتی استنتاج (استفاده از مدل برای پیش بینی) و آموزش را کاهش می دهد. علاوه بر این، از آنجایی که متخصصان مختلف می توانند بر روی بخش های مختلف داده های ورودی عمل کنند، امکان تخصص بیشتر در مدل را فراهم می کند.

علیرغم مزایای MoE، باید چندین محدودیت برای باز کردن پتانسیل کامل آن برطرف شود. فعال سازی ناهموار متخصصان یک نگرانی اصلی است. در بسیاری از پیاده سازی های MoE، برخی از متخصصان به شدت مورد استفاده قرار می گیرند، در حالی که برخی دیگر نسبتاً بیکار باقی می مانند. این عدم تعادل از ویژگی های ذاتی داده ها و طراحی شبکه دروازه ناشی می شود.

این عدم تعادل می تواند منجر به ناکارآمدی در محیط های محاسبات موازی شود. از آنجایی که حجم کاری به طور مساوی بین متخصصان توزیع نمی شود، برخی از واحدهای پردازش کم استفاده می شوند در حالی که برخی دیگر تحت فشار قرار می گیرند. این اختلاف مانع از مقیاس پذیری MoE می شود و عملکرد کلی آن را کاهش می دهد. همچنین، این عدم تعادل اغلب از تعصبات در داده های آموزشی ناشی می شود که منجر به کم نمایندگی و کم آموزش متخصصان کم فعال می شود. این در دراز مدت منجر به یک مدل زیر بهینه می شود.

یکی دیگر از مسائل رایج هنگام کار با MoE شامل پیچیدگی اضافه شده هنگام طراحی شبکه دروازه است. شبکه دروازه به تکنیک های پیشرفته ای نیاز دارد تا اطمینان حاصل شود که متخصصان به درستی انتخاب می شوند، در غیر این صورت، MoE ممکن است مطابق انتظارات عمل نکند و باعث سربار غیر ضروری شود.

Grouped Experts (MoGE): رفع چالش‌های MoE

معماری Mixture of Grouped Experts (MoGE) هواوی یک جایگزین پالایش شده برای MoE سنتی با تمرکز بر تعادل بار و اجرای موازی کارآمد ارائه می دهد. این روش شامل گروه‌بندی متخصصان به‌صورت استراتژیک است که فرآیند مسیریابی داده‌های ورودی را تغییر می‌دهد و منجر به توزیع بار کاری یکنواخت‌تر می‌شود.

MoGE با گروه بندی متخصصان در طول انتخاب، تضمین می کند که هر گروه از متخصصان بار کاری متعادل تری دریافت می کنند. شبکه دروازه به جای مسیریابی هر ورودی به طور مستقل، اکنون گروه‌های ورودی را به گروه‌های متخصص هدایت می‌کند. این رویکرد توزیع عادلانه‌تر بار محاسباتی را ترویج می کند.

مکانیسم گروه‌بندی همچنین به کاهش اثرات سوگیری‌های داده کمک می‌کند. MoGE با اطمینان از اینکه همه متخصصان در یک گروه روی یک مجموعه متنوع از ورودی‌ها آموزش می‌بینند، خطر کم نمایندگی و کم آموزش را کاهش می‌دهد. علاوه بر این، گروه بندی متخصصان امکان استفاده بهتر از منابع را فراهم می کند. از آنجایی که هر گروه حجم کاری ثابت تری را انجام می دهد، تخصیص کارآمد منابع محاسباتی آسان تر می شود و منجر به عملکرد کلی بهتر می شود.

نتیجه نهایی تعادل بار متخصص بهتر و اجرای کارآمدتر برای آموزش و استنتاج مدل است. این امر منجر به زمان آموزش سریع‌تر، هزینه‌های محاسباتی کمتر و بهبود عملکرد کلی می‌شود.

Ascend NPU: شتاب‌دهنده سخت‌افزاری برای هوش مصنوعی

Ascend NPU (واحد پردازش عصبی) نقش کلیدی در استراتژی هوش مصنوعی هواوی ایفا می‌کند. این پردازنده‌ها به طور خاص برای تسریع وظایف هوش مصنوعی، از جمله آموزش و استنتاج مدل طراحی شده‌اند. آنها طیف وسیعی از ویژگی‌های بهینه‌سازی‌شده برای حجم کاری یادگیری عمیق، مانند پهنای باند حافظه بالا، واحدهای پردازش تخصصی برای ضرب ماتریس و رابط‌های ارتباطی با تأخیر کم را ارائه می‌دهند. علاوه بر این، Ascend NPU‌های هواوی از طیف وسیعی از انواع داده و سطوح دقت پشتیبانی می‌کنند و امکان کنترل دقیق بر عملکرد و دقت را فراهم می‌کنند.

ترکیب هم‌افزایی MoGE و Ascend NPU یک پلتفرم قدرتمند برای نوآوری هوش مصنوعی ایجاد می‌کند. MoGE با بهبود تعادل بار و اجرای موازی، سمت نرم‌افزار را بهینه می‌کند، در حالی که Ascend NPU شتاب‌دهنده سخت‌افزاری مورد نیاز برای تحقق این مزایا را فراهم می‌کند. این رویکرد یکپارچه به هواوی اجازه می‌دهد تا مرزهای عملکرد و کارایی هوش مصنوعی را جابجا کند.

Ascend NPU با تراکم محاسباتی بالا و راندمان انرژی مشخص می‌شود. این ویژگی ها برای استقرار مدل های هوش مصنوعی در تنظیمات مختلف، از سرورهای ابری قدرتمند گرفته تا دستگاه های لبه ای با بودجه برق محدود، بسیار مهم هستند.

معیارها و معیارهای عملکرد

نتایج معیار هواوی اثربخشی معماری MoGE و Ascend NPU را نشان می دهد. هواوی با مقایسه Pangu در برابر مدل‌های پیشرو هوش مصنوعی مانند DeepSeek-V3، Qwen2.5-72B و Llama-405B نشان داد که فناوری آن در طیف وسیعی از وظایف به عملکردی پیشرفته دست می‌یابد.

موفقیت Pangu در معیارهای عمومی انگلیسی و چینی، تطبیق‌پذیری و سازگاری آن را برجسته می‌کند. مهارت مدل در آموزش طولانی‌مدت به ویژه قابل توجه است زیرا نشان‌دهنده قابلیت‌ها در مدیریت داده‌های دنیای واقعی است. علاوه بر این، عملکرد قوی Pangu در وظایف استدلال، توانایی آن را در درک و پردازش روابط پیچیده نشان می‌دهد.

این معیارها صرفاً تمرین‌های آکادمیک نیستند، بلکه شواهد ملموسی از پیشرفت‌های فناوری توسط هواوی ارائه می‌دهند. آنها ادعای این شرکت را مبنی بر اینکه در خط مقدم نوآوری هوش مصنوعی قرار دارد تقویت کرده و موقعیت آن را در بازار جهانی تقویت می کنند.

مفاهیم برای آینده هواوی

پیشرفت‌های هواوی در آموزش مدل هوش مصنوعی دارای مفاهیم مهمی در چشم انداز استراتژیک شرکت برای ایجاد حاکمیت فناوری در هوش مصنوعی است. از آنجایی که این شرکت اتکای خود را به فناوری‌های ایالات متحده در بحبوحه درگیری تجاری کاهش می‌دهد، توسعه تراشه‌های Ascend به عنوان جایگزینی برای پردازنده‌های Nvidia و AMD عمل می‌کند. Pangu Ultra، یک LLM حاوی 135 میلیارد پارامتر برای NPUها، اثربخشی ساده‌سازی معماری و سیستماتیک هواوی را با نمایش قابلیت‌های تراشه‌های پیشرفته خود برجسته می‌کند.

پیش‌بینی می‌شود که این تلاش‌ها به رقابت‌پذیری کلی هواوی در درازمدت کمک کند، زیرا تلاش می‌کند تا به بازار بزرگ‌تری برای هوش مصنوعی، به ویژه در داخل چین، خدمت کند. با ادامه تمرکز سرمایه‌گذاری‌ها بر تحقیق و توسعه، هواوی امیدوار است خود را به عنوان رهبر در فضای هوش مصنوعی قرار دهد و بر محدودیت‌های فعلی بازار غلبه کند.

تحقیقات آتی

بهبود مستمر هواوی در معماری مدل هوش مصنوعی از طریق بهینه‌سازی‌های سیستمی و الگوریتمی، در کنار توسعه سخت‌افزار مانند تراشه Ascend، اهمیت آن را در رهبری منحنی فناوری در هوش مصنوعی نشان می‌دهد. در حالی که معیارهایی مانند Pangu ثابت می‌کند که این یک مدل پیشرفته است، هنوز جای زیادی برای بهبود وجود دارد. اصلاح بیشتر معماری MoGE ممکن است آن را قادر سازد تا به محاسبات بزرگتر و پیچیده تری سوق دهد. کار بیشتر در تخصصی کردن معماری Ascend NPU ممکن است فرآیندهای یادگیری عمیق را تسریع بخشد و هزینه ها را کاهش دهد. تحقیقات آینده شاهد تلاش های مداوم برای ساخت مدل های هوش مصنوعی بهتر و بهبود مدل های موجود خواهد بود.