Пробивът на Huawei в AI: Нов метод надминава DeepSeek

Huawei Technologies, компания, изправена пред значителни технологични предизвикателства поради санкциите на САЩ, съобщава за постигнат пробив в обучението на модели с изкуствен интелект (AI). Изследователи, работещи върху големия езиков модел (LLM) на Huawei, Pangu, твърдят, че са разработили подобрен подход, който превъзхожда оригиналната методология на DeepSeek. Този иновативен метод използва собствения хардуер на Huawei, намалявайки зависимостта на компанията от американски технологии, което е решаваща цел в настоящия геополитически пейзаж.

Появата на Смес от Групирани Експерти (MoGE)

Крайъгълният камък на напредъка на Huawei се крие в концепцията за Смес от Групирани Експерти (MoGE). Тази нова техника, описана подробно в статия, публикувана от екипа на Pangu на Huawei, е представена като подобрена версия на техниката Смес от Експерти (MoE). MoE се доказа като инструмент за създаване на рентабилни AI модели, както демонстрира успехът на DeepSeek.

MoE предлага предимства за големи параметри на модела, което води до повишен капацитет за обучение. Въпреки това, изследователите на Huawei идентифицираха неефективности, произтичащи от неравномерната активация на “експерти”, ключови компоненти в AI обучението, които могат да попречат на производителността при едновременно изпълнение на задачи на множество устройства. MoGE на Huawei стратегически се справя с тези предизвикателства.

Справяне с Неефективностите в Традиционните MoE Модели

Системата MoGE е сложно проектирана за оптимизиране на разпределението на работната натовареност. Основната идея е да се “групират” експертите заедно по време на процеса на подбор, което води до по-балансирано разпределение на работната натовареност. Чрез по-равномерно разпределение на изчислителното бреме, изследователите съобщиха за значително подобрение в производителността на паралелни компютърни среди, ключов аспект на съвременното AI обучение.

Концепцията за “експерти” в AI обучението се отнася до специализирани подмодели или компоненти в рамките на по-голям, по-изчерпателен модел. Всеки експерт е внимателно проектиран да обработва много специфични задачи или типове данни. Този подход използва разнообразен специализиран опит, което позволява на цялостната AI система значително да подобри общата си производителност.

Последици за Напредъка на AI в Китай

Този напредък е особено навременен. Китайските AI компании, въпреки че са изправени пред ограничения от САЩ върху вноса на усъвършенствани AI чипове като тези от Nvidia, агресивно преследват методи за повишаване на ефективността на обучението и умозаключението на модела. Тези методи включват не само алгоритмични подобрения, но и синергична интеграция на хардуер и софтуер.

Изследователите на Huawei стриктно тестваха архитектурата MoGE на техния Ascend neural processing unit (NPU), специално проектиран да ускори AI задачите. Резултатите показват, че MoGE постига превъзходен баланс на натоварването на експертите и по-ефективно изпълнение, както за фазите на обучение, така и за умозаключение на модела. Това е значително потвърждение на ползите от едновременната оптимизация на хардуерния и софтуерния стек.

Сравняване на Pangu Срещу Водещи AI Модели

Моделът Pangu на Huawei, подсилен от архитектурата MoGE и Ascend NPU, беше сравнен с водещи AI модели. Те включваха DeepSeek-V3, Qwen2.5-72B на Alibaba Group Holding и Llama-405B на Meta Platforms. Резултатите от сравнението показаха, че Pangu постига най-съвременна производителност в редица общи английски бенчмаркове и превъзхожда всички китайски бенчмаркове. Pangu също демонстрира по-висока ефективност при обработката на обучение с дълъг контекст, област от критично значение за сложни задачи за обработка на естествен език.

Освен това, моделът Pangu демонстрира изключителни възможности в общите задачи за разбиране на езика, със специални силни страни в свързаните със запаметяване задачи. Тази способност да се обхващат нюансите и да се извлича смисъл от сложен език демонстрира напредъка, който Huawei е постигнал в AI.

Стратегическото Значение на Huawei

Напредъкът на Huawei в архитектурата на AI модела има стратегическо значение. Предвид продължаващите санкции, базираната в Шенжен компания стратегически се стреми да намали зависимостта си от американски технологии. Чиповете Ascend, разработени от Huawei, се считат за жизнеспособни вътрешни алтернативи на процесорите от Nvidia и са ключов компонент на тази независимост.

Pangu Ultra, голям езиков модел със 135 милиарда параметъра, оптимизиран за NPU, подчертава ефективността на архитектурното и системното опростяване на Huawei, като същевременно показва възможностите на своите NPU. Демонстрирането на ефективността на нейната хардуерно-софтуерна интеграция е важна част от демонстрирането на AI възможностите на Huawei.

Подробен Процес на Обучение

Според Huawei, процесът на обучение е разделен на три основни етапа: предварително обучение, удължаване на дълъг контекст и последващо обучение. Предварителното обучение включва първоначално обучение на модела върху масивен набор от данни от 13,2 трилиона токена. След това удължаването на дълъг контекст разширява способността на модела да обработва по-дълги и по-сложни текстове и надгражда върху първоначалното разпознаване на данни. Тази фаза използва мащабна разпределена обработка на 8 192 Ascend чипа.

Huawei разкри, че моделът и системата скоро ще бъдат достъпни за нейната търговска клиентела, отваряйки нови възможности за интеграция и развитие с нейните партньори.

Дълбоко Гмуркане в Смес от Експерти (MoE) и Нейните Ограничения

За да се оцени напълно значението на MoGE на Huawei, е от решаващо значение да се разберат основите, върху които тя се гради: архитектурата на Смес от Експерти (MoE). MoE представлява промяна в парадигмата в начина, по който са проектирани и обучени големи AI модели, предлагайки път към мащабиране на размера и сложността на модела без пропорционално увеличение на изчислителните разходи.

В традиционна невронна мрежа всеки вход се обработва от всеки неврон във всеки слой. Въпреки че този подход може да доведе до висока точност, той става изчислително непосилен за много големи модели. MoE, напротив, въвежда концепцията за “експерти” – по-малки, специализирани невронни мрежи, които се фокусират върху специфични подмножества от входните данни.

“Портална” мрежа динамично насочва всеки вход към най-подходящия експерт(и). Тази селективна активация позволява рядко изчисление, което означава, че само част от параметрите на модела са ангажирани за даден вход. Тази оскъдност драстично намалява изчислителните разходи за умозаключение (използване на модела за предсказване) и обучение. Освен това, тъй като различните експерти могат да действат върху различни части от входните данни, това позволява по-голяма специализация в модела.

Въпреки предимствата на MoE, трябва да бъдат разгледани няколко ограничения, за да се отключи пълният му потенциал. Неравномерната активация на експертите е основен проблем. В много MoE реализации някои експерти стават силно използвани, докато други остават относително неактивни. Този дисбаланс произтича от присъщите характеристики на данните и дизайна на порталната мрежа.

Този дисбаланс може да доведе до неефективности в паралелни компютърни среди. Тъй като работната натовареност не е равномерно разпределена между експертите, някои обработващи единици остават недостатъчно използвани, докато други са претоварени. Този дисбаланс възпрепятства мащабируемостта на MoE и намалява общата му производителност. Също така, този дисбаланс често произтича от пристрастия в данните за обучение, което води до недостатъчно представяне и недостатъчно обучение на по-малко активни експерти. Това води до подоптимален модел в дългосрочен план.

Друг често срещан проблем при работа с MoE включва допълнителната сложност при проектирането на порталната мрежа. Порталната мрежа изисква сложни техники, за да се гарантира, че експертите са правилно избрани, в противен случай MoE може да не работи според очакванията и да причини ненужни разходи.

Групирани Експерти (MoGE): Справяне с Предизвикателствата на MoE

Архитектурата на Huawei Смес от Групирани Експерти (MoGE) предлага усъвършенствана алтернатива на традиционния MoE, като се фокусира върху балансиране на натоварването и ефективно паралелно изпълнение. Методът включва стратегическо групиране на експерти, което променя процеса на маршрутизиране на входните данни, което води до по-равномерно разпределение на работната натовареност.

Чрез групиране на експертите по време на подбора, MoGE гарантира, че всяка група експерти получава по-балансирана работна натовареност. Вместо да насочва всеки вход независимо, порталната мрежа вече насочва групи входове към групи експерти. Този подход насърчава по-справедливо разпределение на изчислителното бреме.

Механизмът за групиране също помага за смекчаване на ефектите от пристрастията на данните. Като гарантира, че всички експерти в група са обучени върху разнообразен набор от входове, MoGE намалява риска от недостатъчно представяне и недостатъчно обучение. Освен това, групирането на експерти позволява по-добро използване на ресурсите. Тъй като всяка група обработва по-постоянна работна натовареност, става по-лесно да се разпределят изчислителни ресурси ефективно, което води до по-добра обща производителност.

Крайният резултат е по-добро балансиране на натоварването на експертите и по-ефективно изпълнение както за обучението, така и за умозаключението на модела. Това се превръща в по-бързи времена за обучение, по-ниски изчислителни разходи и подобрена обща производителност.

Ascend NPU: Хардуерно Ускорение за AI

Ascend NPU (Neural Processing Unit) играе ключова роля в AI стратегията на Huawei. Тези процесори са специално проектирани да ускорят AI задачите, включително обучение и умозаключение на модели. Те предлагат разнообразие от функции, оптимизирани за натоварвания с дълбоко обучение, като висока памет, специализирани обработващи единици за матрично умножение и комуникационни интерфейси с ниска латентност. Освен това, Ascend NPU на Huawei поддържа набор от типове данни и нива на точност, което позволява фино зърнест контрол върху производителността и точността.

Синергичната комбинация от MoGE и Ascend NPU създава мощна платформа за AI иновации. MoGE оптимизира софтуерната страна чрез подобряване на балансирането на натоварването и паралелното изпълнение, докато Ascend NPU осигурява хардуерното ускорение, необходимо за реализиране на тези ползи. Този интегриран подход позволява на Huawei да надхвърли границите на AI производителността и ефективността.

Ascend NPU се характеризира с висока изчислителна плътност и енергийна ефективност. Тези характеристики са от решаващо значение за разгръщането на AI модели в различни условия, от мощни облачни сървъри до крайни устройства с ограничени енергийни бюджети.

Бенчмаркове и Метрики за Производителност

Резултатите от бенчмарка на Huawei демонстрират ефективността на архитектурата MoGE и Ascend NPU. Чрез сравняване на Pangu с водещи AI модели като DeepSeek-V3, Qwen2.5-72B и Llama-405B, Huawei показа, че нейната технология постига най-съвременна производителност на различни задачи.

Успехът на Pangu на общи английски и китайски бенчмаркове подчертава неговата гъвкавост и адаптивност. Умението на модела в обучение с дълъг контекст е особено забележително, тъй като отразява възможностите за обработка на данни от реалния свят. Освен това, силната производителност на Pangu в свързаните със запаметяване задачи подчертава способността му да разбира и обработва сложни взаимоотношения.

Тези бенчмаркове не са просто академични упражнения, те предлагат осезаеми доказателства за технологичните стъпки, направени от Huawei. Те подкрепят твърдението на компанията, че е в челните редици на AI иновациите и укрепват позицията й на световния пазар.

Последици за Бъдещето на Huawei

Напредъкът на Huawei в обучението на AI модела има критични последици за стратегическата визия на компанията за установяване на технологичен суверенитет в изкуствения интелект. Тъй като компанията минимизира зависимостта си от американски технологии сред продължаващия търговски конфликт, разработването на чипове Ascend служи като алтернатива на процесорите от Nvidia и AMD. Pangu Ultra, LLM със 135 милиарда параметъра за NPU, подчертава ефективността на архитектурното и системното рационализиране на Huawei, като показва възможностите на своите водещи чипове.

Очаква се тези усилия да допринесат за цялостната конкурентоспособност на Huawei в дългосрочен план, тъй като тя се стреми да обслужва по-голям пазар за AI, особено в Китай. Чрез продължаване на фокусирането на инвестициите върху научноизследователската и развойна дейност, Huawei се надява да се превърне в лидер в AI пространството, преодолявайки текущите пазарни ограничения.

Бъдещи Изследвания

Непрекъснатите подобрения на Huawei в архитектурата на AI модела чрез оптимизации на системно и алгоритмично ниво, заедно с хардуерни разработки като чипа Ascend, отбелязват неговото значение за водещата технологична крива в изкуствения интелект. Въпреки че бенчмаркове като Pangu доказват, че той е най-съвременен модел, все още има много подобрения, които трябва да се направят. По-нататъшното усъвършенстване на архитектурата MoGE може да му позволи да премине към по-големи и по-сложни изчисления. Повече работа в специализирането на архитектурата на Ascend NPU може допълнително да ускори процесите на дълбоко обучение и да намали разходите. Бъдещото проучване ще види непрекъснати усилия за изграждане на по-добри AI модели и подобряване на съществуващите.