شرکت فناوری هواوی، که به دلیل تحریمهای ایالات متحده با موانع فناورانه قابل توجهی روبرو است، ظاهراً به یک پیشرفت در آموزش مدل هوش مصنوعی (AI) دست یافته است. محققانی که روی مدل زبان بزرگ (LLM) هواوی، Pangu، کار میکنند، ادعا میکنند رویکردی پیشرفتهتر از روش اصلی DeepSeek توسعه دادهاند. این روش نوآورانه از سخت افزار اختصاصی خود هواوی استفاده می کند و وابستگی شرکت را به فناوری های ایالات متحده کاهش می دهد، هدفی حیاتی در چشم انداز ژئوپلیتیکی کنونی.
ظهور Mixture of Grouped Experts (MoGE)
سنگ بنای پیشرفت هواوی در مفهوم Mixture of Grouped Experts (MoGE) نهفته است. این تکنیک جدید، که در مقالهای توسط تیم Pangu هواوی به تفصیل شرح داده شده است، به عنوان نسخه ارتقا یافته تکنیک Mixture of Experts (MoE) ارائه شده است. MoE همانطور که موفقیت DeepSeek نشان داده است، در ایجاد مدل های هوش مصنوعی مقرون به صرفه بسیار مهم بوده است.
MoE مزایایی را برای پارامترهای مدل بزرگ ارائه می دهد که منجر به افزایش ظرفیت یادگیری می شود. با این حال، محققان هواوی ناکارآمدیهای ناشی از فعالسازی ناهموار “متخصصان” را شناسایی کردند، که اجزای مهمی در آموزش هوش مصنوعی هستند که میتوانند هنگام اجرای وظایف به طور همزمان در چندین دستگاه، عملکرد را مختل کنند. MoGE هواوی به طور استراتژیک این چالشها را برطرف میکند.
رفع ناکارآمدیها در مدلهای MoE سنتی
سیستم MoGE به طور پیچیدهای برای بهینهسازی توزیع حجم کاری طراحی شده است. ایده اصلی این است که متخصصان را در طول فرآیند انتخاب “گروهبندی” کنیم که منجر به توزیع بار کاری متعادلتر میشود. محققان با توزیع عادلانهتر بار محاسباتی، از افزایش قابل توجهی در عملکرد محیطهای محاسبات موازی، که جنبه اصلی آموزش هوش مصنوعی مدرن است، خبر دادند.
مفهوم “متخصصان” در آموزش هوش مصنوعی به زیرمدلها یا اجزای تخصصی در یک مدل بزرگتر و جامعتر اشاره دارد. هر متخصص به طور دقیق برای رسیدگی به وظایف یا انواع دادههای بسیار خاص طراحی شده است. این رویکرد از تخصصهای تخصصی متنوع استفاده میکند و به سیستم کلی هوش مصنوعی اجازه میدهد تا عملکرد کلی خود را به طور قابل توجهی بهبود بخشد.
مفاهیم برای پیشرفت هوش مصنوعی چین
این پیشرفت به ویژه به موقع است. شرکتهای هوش مصنوعی چینی، علیرغم مواجهه با محدودیتهای ایالات متحده در واردات تراشههای پیشرفته هوش مصنوعی مانند تراشههای Nvidia، به طور تهاجمی روشهایی را برای افزایش آموزش مدل و کارایی استنتاج دنبال میکنند. این روشها نه تنها شامل بهبودهای الگوریتمی بلکه ادغام هم افزای سخت افزار و نرم افزار نیز میشود.
محققان هواوی به طور دقیق معماری MoGE را روی واحد پردازش عصبی Ascend خود (NPU) آزمایش کردند که به طور خاص برای تسریع وظایف هوش مصنوعی طراحی شده است. نتایج نشان داد که MoGE به تعادل بار متخصص برتر و اجرای کارآمدتر برای مراحل آموزش و استنتاج مدل دست یافته است. این یک اعتبار سنجی قابل توجه از مزایای بهینه سازی همزمان پشته سخت افزار و نرم افزار است.
محک زدن Pangu در برابر مدلهای پیشرو هوش مصنوعی
مدل Pangu هواوی، که توسط معماری MoGE و Ascend NPU تقویت شده است، در برابر مدلهای پیشرو هوش مصنوعی محک زده شد. این موارد شامل DeepSeek-V3، Qwen2.5-72B گروه هلدینگ علی بابا و Llama-405B پلتفرم های متا بود. نتایج این محک نشان داد که Pangu در طیف وسیعی از معیارهای عمومی انگلیسی به عملکردی پیشرفته دست یافته است و در تمام معیارهای چینی برتری داشته است. Pangu همچنین کارایی بالاتری را در پردازش آموزش طولانی مدت نشان داد، که زمینه ای با اهمیت حیاتی برای وظایف پیچیده پردازش زبان طبیعی است.
علاوه بر این، مدل Pangu قابلیتهای استثنایی در کارهای درک زبان عمومی، با نقاط قوت خاص در وظایف استدلال نشان داد. این توانایی در درک ظرافتها و استخراج معنا از زبان پیچیده، پیشرفتهایی را که هواوی در هوش مصنوعی به دست آورده است، نشان میدهد.
اهمیت استراتژیک هواوی
پیشرفت هواوی در معماری مدل هوش مصنوعی از اهمیت استراتژیک برخوردار است. با توجه به تحریمهای مداوم، این شرکت مستقر در شنژن به طور استراتژیک به دنبال کاهش اتکای خود به فناوریهای ایالات متحده است. تراشههای Ascend توسعه یافته توسط هواوی به عنوان جایگزینهای داخلی مناسب برای پردازندههای Nvidia در نظر گرفته میشوند و جزء اصلی این استقلال هستند.
Pangu Ultra، یک مدل زبان بزرگ با 135 میلیارد پارامتر بهینه شده برای NPUها، بر اثربخشی سادهسازی معماری و سیستماتیک هواوی تأکید میکند و در عین حال قابلیتهای NPUهای خود را به نمایش میگذارد. نشان دادن اثربخشی ادغام سختافزار و نرمافزار آن بخش مهمی از نمایش قابلیتهای هوش مصنوعی هواوی است.
فرآیند دقیق آموزش
به گفته هواوی، فرآیند آموزش به سه مرحله اصلی تقسیم میشود: پیشآموزش، گسترش زمینه طولانی و پسآموزش. پیشآموزش شامل آموزش اولیه مدل بر روی مجموعه داده عظیمی از 13.2 تریلیون نشانه است. سپس گسترش زمینه طولانی، توانایی مدل را برای مدیریت متون طولانیتر و پیچیدهتر گسترش میدهد و بر تشخیص دادههای اولیه متکی است. این مرحله از پردازش توزیعشده در مقیاس بزرگ در 8192 تراشه Ascend استفاده میکند.
هواوی فاش کرد که این مدل و سیستم به زودی در دسترس مشتریان تجاری خود قرار میگیرد و فرصتهای جدیدی را برای ادغام و توسعه با شرکای خود باز میکند.
بررسی عمیق Mixture of Experts (MoE) و محدودیتهای آن
برای درک کامل اهمیت MoGE هواوی، درک پایههایی که بر آن بنا شده است بسیار مهم است: معماری Mixture of Experts (MoE). MoE نشاندهنده یک تغییر پارادایم در نحوه طراحی و آموزش مدلهای بزرگ هوش مصنوعی است که مسیری را برای مقیاسبندی اندازه و پیچیدگی مدل بدون افزایش متناسب در هزینه محاسباتی ارائه میدهد.
در یک شبکه عصبی سنتی، هر ورودی توسط هر نورون در هر لایه پردازش می شود. در حالی که این رویکرد می تواند دقت بالایی به همراه داشته باشد، برای مدل های بسیار بزرگ از نظر محاسباتی بسیار پرهزینه می شود. MoE در مقابل، مفهوم “متخصصان” را معرفی می کند - شبکه های عصبی کوچک تر و تخصصی که بر زیر مجموعه های خاصی از داده های ورودی تمرکز می کنند.
یک شبکه “دروازه” به طور پویا هر ورودی را به مرتبط ترین متخصص(ها) هدایت می کند. این فعال سازی انتخابی امکان محاسبه پراکنده را فراهم می کند، به این معنی که تنها کسری از پارامترهای مدل برای هر ورودی معین درگیر می شوند. این پراکندگی به طور چشمگیری هزینه محاسباتی استنتاج (استفاده از مدل برای پیش بینی) و آموزش را کاهش می دهد. علاوه بر این، از آنجایی که متخصصان مختلف می توانند بر روی بخش های مختلف داده های ورودی عمل کنند، امکان تخصص بیشتر در مدل را فراهم می کند.
علیرغم مزایای MoE، باید چندین محدودیت برای باز کردن پتانسیل کامل آن برطرف شود. فعال سازی ناهموار متخصصان یک نگرانی اصلی است. در بسیاری از پیاده سازی های MoE، برخی از متخصصان به شدت مورد استفاده قرار می گیرند، در حالی که برخی دیگر نسبتاً بیکار باقی می مانند. این عدم تعادل از ویژگی های ذاتی داده ها و طراحی شبکه دروازه ناشی می شود.
این عدم تعادل می تواند منجر به ناکارآمدی در محیط های محاسبات موازی شود. از آنجایی که حجم کاری به طور مساوی بین متخصصان توزیع نمی شود، برخی از واحدهای پردازش کم استفاده می شوند در حالی که برخی دیگر تحت فشار قرار می گیرند. این اختلاف مانع از مقیاس پذیری MoE می شود و عملکرد کلی آن را کاهش می دهد. همچنین، این عدم تعادل اغلب از تعصبات در داده های آموزشی ناشی می شود که منجر به کم نمایندگی و کم آموزش متخصصان کم فعال می شود. این در دراز مدت منجر به یک مدل زیر بهینه می شود.
یکی دیگر از مسائل رایج هنگام کار با MoE شامل پیچیدگی اضافه شده هنگام طراحی شبکه دروازه است. شبکه دروازه به تکنیک های پیشرفته ای نیاز دارد تا اطمینان حاصل شود که متخصصان به درستی انتخاب می شوند، در غیر این صورت، MoE ممکن است مطابق انتظارات عمل نکند و باعث سربار غیر ضروری شود.
Grouped Experts (MoGE): رفع چالشهای MoE
معماری Mixture of Grouped Experts (MoGE) هواوی یک جایگزین پالایش شده برای MoE سنتی با تمرکز بر تعادل بار و اجرای موازی کارآمد ارائه می دهد. این روش شامل گروهبندی متخصصان بهصورت استراتژیک است که فرآیند مسیریابی دادههای ورودی را تغییر میدهد و منجر به توزیع بار کاری یکنواختتر میشود.
MoGE با گروه بندی متخصصان در طول انتخاب، تضمین می کند که هر گروه از متخصصان بار کاری متعادل تری دریافت می کنند. شبکه دروازه به جای مسیریابی هر ورودی به طور مستقل، اکنون گروههای ورودی را به گروههای متخصص هدایت میکند. این رویکرد توزیع عادلانهتر بار محاسباتی را ترویج می کند.
مکانیسم گروهبندی همچنین به کاهش اثرات سوگیریهای داده کمک میکند. MoGE با اطمینان از اینکه همه متخصصان در یک گروه روی یک مجموعه متنوع از ورودیها آموزش میبینند، خطر کم نمایندگی و کم آموزش را کاهش میدهد. علاوه بر این، گروه بندی متخصصان امکان استفاده بهتر از منابع را فراهم می کند. از آنجایی که هر گروه حجم کاری ثابت تری را انجام می دهد، تخصیص کارآمد منابع محاسباتی آسان تر می شود و منجر به عملکرد کلی بهتر می شود.
نتیجه نهایی تعادل بار متخصص بهتر و اجرای کارآمدتر برای آموزش و استنتاج مدل است. این امر منجر به زمان آموزش سریعتر، هزینههای محاسباتی کمتر و بهبود عملکرد کلی میشود.
Ascend NPU: شتابدهنده سختافزاری برای هوش مصنوعی
Ascend NPU (واحد پردازش عصبی) نقش کلیدی در استراتژی هوش مصنوعی هواوی ایفا میکند. این پردازندهها به طور خاص برای تسریع وظایف هوش مصنوعی، از جمله آموزش و استنتاج مدل طراحی شدهاند. آنها طیف وسیعی از ویژگیهای بهینهسازیشده برای حجم کاری یادگیری عمیق، مانند پهنای باند حافظه بالا، واحدهای پردازش تخصصی برای ضرب ماتریس و رابطهای ارتباطی با تأخیر کم را ارائه میدهند. علاوه بر این، Ascend NPUهای هواوی از طیف وسیعی از انواع داده و سطوح دقت پشتیبانی میکنند و امکان کنترل دقیق بر عملکرد و دقت را فراهم میکنند.
ترکیب همافزایی MoGE و Ascend NPU یک پلتفرم قدرتمند برای نوآوری هوش مصنوعی ایجاد میکند. MoGE با بهبود تعادل بار و اجرای موازی، سمت نرمافزار را بهینه میکند، در حالی که Ascend NPU شتابدهنده سختافزاری مورد نیاز برای تحقق این مزایا را فراهم میکند. این رویکرد یکپارچه به هواوی اجازه میدهد تا مرزهای عملکرد و کارایی هوش مصنوعی را جابجا کند.
Ascend NPU با تراکم محاسباتی بالا و راندمان انرژی مشخص میشود. این ویژگی ها برای استقرار مدل های هوش مصنوعی در تنظیمات مختلف، از سرورهای ابری قدرتمند گرفته تا دستگاه های لبه ای با بودجه برق محدود، بسیار مهم هستند.
معیارها و معیارهای عملکرد
نتایج معیار هواوی اثربخشی معماری MoGE و Ascend NPU را نشان می دهد. هواوی با مقایسه Pangu در برابر مدلهای پیشرو هوش مصنوعی مانند DeepSeek-V3، Qwen2.5-72B و Llama-405B نشان داد که فناوری آن در طیف وسیعی از وظایف به عملکردی پیشرفته دست مییابد.
موفقیت Pangu در معیارهای عمومی انگلیسی و چینی، تطبیقپذیری و سازگاری آن را برجسته میکند. مهارت مدل در آموزش طولانیمدت به ویژه قابل توجه است زیرا نشاندهنده قابلیتها در مدیریت دادههای دنیای واقعی است. علاوه بر این، عملکرد قوی Pangu در وظایف استدلال، توانایی آن را در درک و پردازش روابط پیچیده نشان میدهد.
این معیارها صرفاً تمرینهای آکادمیک نیستند، بلکه شواهد ملموسی از پیشرفتهای فناوری توسط هواوی ارائه میدهند. آنها ادعای این شرکت را مبنی بر اینکه در خط مقدم نوآوری هوش مصنوعی قرار دارد تقویت کرده و موقعیت آن را در بازار جهانی تقویت می کنند.
مفاهیم برای آینده هواوی
پیشرفتهای هواوی در آموزش مدل هوش مصنوعی دارای مفاهیم مهمی در چشم انداز استراتژیک شرکت برای ایجاد حاکمیت فناوری در هوش مصنوعی است. از آنجایی که این شرکت اتکای خود را به فناوریهای ایالات متحده در بحبوحه درگیری تجاری کاهش میدهد، توسعه تراشههای Ascend به عنوان جایگزینی برای پردازندههای Nvidia و AMD عمل میکند. Pangu Ultra، یک LLM حاوی 135 میلیارد پارامتر برای NPUها، اثربخشی سادهسازی معماری و سیستماتیک هواوی را با نمایش قابلیتهای تراشههای پیشرفته خود برجسته میکند.
پیشبینی میشود که این تلاشها به رقابتپذیری کلی هواوی در درازمدت کمک کند، زیرا تلاش میکند تا به بازار بزرگتری برای هوش مصنوعی، به ویژه در داخل چین، خدمت کند. با ادامه تمرکز سرمایهگذاریها بر تحقیق و توسعه، هواوی امیدوار است خود را به عنوان رهبر در فضای هوش مصنوعی قرار دهد و بر محدودیتهای فعلی بازار غلبه کند.
تحقیقات آتی
بهبود مستمر هواوی در معماری مدل هوش مصنوعی از طریق بهینهسازیهای سیستمی و الگوریتمی، در کنار توسعه سختافزار مانند تراشه Ascend، اهمیت آن را در رهبری منحنی فناوری در هوش مصنوعی نشان میدهد. در حالی که معیارهایی مانند Pangu ثابت میکند که این یک مدل پیشرفته است، هنوز جای زیادی برای بهبود وجود دارد. اصلاح بیشتر معماری MoGE ممکن است آن را قادر سازد تا به محاسبات بزرگتر و پیچیده تری سوق دهد. کار بیشتر در تخصصی کردن معماری Ascend NPU ممکن است فرآیندهای یادگیری عمیق را تسریع بخشد و هزینه ها را کاهش دهد. تحقیقات آینده شاهد تلاش های مداوم برای ساخت مدل های هوش مصنوعی بهتر و بهبود مدل های موجود خواهد بود.