Huawei Technologies, компания, сталкивающаяся со значительными технологическими трудностями из-за санкций США, как сообщается, достигла прорыва в обучении моделей искусственного интеллекта (AI). Исследователи, работающие над большой языковой моделью (LLM) Huawei, Pangu, утверждают, что разработали улучшенный подход, который превосходит оригинальную методологию DeepSeek. Этот инновационный метод использует собственное проприетарное оборудование Huawei, снижая зависимость компании от технологий США, что является важной задачей в нынешней геополитической обстановке.
Появление Mixture of Grouped Experts (MoGE)
Краеугольным камнем прогресса Huawei является концепция Mixture of Grouped Experts (MoGE). Этот новый метод, подробно описанный в документе, опубликованном командой Huawei Pangu, представлен как обновленная версия техники Mixture of Experts (MoE). MoE оказалась полезной для создания экономически эффективных моделей AI, как показал успех DeepSeek.
MoE предлагает преимущества для больших параметров модели, что приводит к расширению возможностей обучения. Однако исследователи Huawei выявили неэффективность, возникающую из-за неравномерной активации «экспертов», важнейших компонентов в обучении AI, что может препятствовать производительности при одновременном выполнении задач на нескольких устройствах. MoGE от Huawei стратегически решает эти проблемы.
Устранение неэффективности в традиционных моделях MoE
Система MoGE сложно разработана для оптимизации распределения рабочей нагрузки. Центральная идея состоит в том, чтобы «группировать» экспертов во время процесса выбора, что приводит к более сбалансированному распределению рабочей нагрузки. Благодаря более справедливому распределению вычислительной нагрузки исследователи сообщили о заметном повышении производительности сред параллельных вычислений, что является ключевым аспектом современного обучения AI.
Концепция «экспертов» в обучении AI относится к специализированным подмоделям или компонентам в рамках более крупной, более всеобъемлющей модели. Каждый эксперт тщательно разработан для обработки очень конкретных задач или типов данных. Этот подход использует разнообразный специализированный опыт, позволяя общей системе AI значительно улучшить свою общую производительность.
Последствия для развития AI в Китае
Это продвижение особенно своевременно. Китайские компании AI, несмотря на столкновение с ограничениями США на импорт передовых чипов AI, таких как чипы от Nvidia, агрессивно преследуют методы повышения эффективности обучения и дедукции моделей. Эти методы включают не только алгоритмические улучшения, но и синергетическую интеграцию оборудования и программного обеспечения.
Исследователи Huawei тщательно протестировали архитектуру MoGE на своем нейронном процессоре Ascend (NPU), специально разработанном для ускорения задач AI. Результаты показали, что MoGE достигает превосходной балансировки нагрузки экспертов и более эффективного выполнения как для фазы обучения модели, так и для фазы дедукции. Это является значительным подтверждением преимуществ одновременной оптимизации аппаратного и программного стека.
Сравнение Pangu с ведущими моделями AI
Модель Huawei Pangu, усиленная архитектурой MoGE и NPU Ascend, была сопоставлена с ведущими моделями AI. К ним относятся DeepSeek-V3, Qwen2.5-72B от Alibaba Group Holding и Llama-405B от Meta Platforms. Результаты сравнения показали, что Pangu достигла современного уровня производительности по ряду общих английских тестов, и она преуспела во всех китайских тестах. Pangu также продемонстрировала более высокую эффективность в обработке обучения с длинным контекстом, что является областью критической важности для сложных задач обработки естественного языка.
Кроме того, модель Pangu продемонстрировала исключительные возможности в общих задачах понимания языка, с особыми сильными сторонами в задачах рассуждения. Эта способность понимать нюансы и извлекать смысл из сложного языка демонстрирует прогресс, достигнутый Huawei в AI.
Стратегическое значение Huawei
Прогресс Huawei в архитектуре модели AI имеет стратегическое значение. Учитывая продолжающиеся санкции, компания из Шэньчжэня стратегически стремится уменьшить свою зависимость от технологий США. Чипы Ascend, разработанные Huawei, рассматриваются как жизнеспособные отечественные альтернативы процессорам от Nvidia и являются ключевым компонентом этой независимости.
Pangu Ultra, большая языковая модель с 135 миллиардами параметров, оптимизированная для NPU, подчеркивает эффективность архитектурной и системной оптимизации Huawei, демонстрируя возможности своих NPU. Демонстрация эффективности интеграции оборудования и программного обеспечения является важной частью демонстрации возможностей Huawei AI.
Подробный процесс обучения
По данным Huawei, процесс обучения разделен на три основных этапа: предварительное обучение, расширение длинного контекста и постобработка. Предварительное обучение включает в себя первоначальное обучение модели на массивном наборе данных из 13,2 триллионов токенов. Расширение длинного контекста затем расширяет способность модели обрабатывать более длинные и сложные тексты и опирается на первоначальное распознавание данных. Эта фаза использует крупномасштабную распределенную обработку на 8192 чипах Ascend.
Huawei сообщила, что модель и система скоро будут доступны для ее коммерческой клиентуры, открывая новые возможности для интеграции и разработки со своими партнерами.
Глубокий взгляд на Mixture of Experts (MoE) и ее ограничения
Чтобы в полной мере оценить значение MoGE от Huawei, важно понять основы, на которых она строится: архитектуру Mixture of Experts (MoE). MoE представляет собой сдвиг парадигмы в том, как разрабатываются и обучаются большие модели AI, предлагая способ масштабирования размера и сложности модели без пропорционального увеличения вычислительных затрат.
В традиционной нейронной сети каждый вход обрабатывается каждым нейроном в каждом слое. Хотя этот подход может дать высокую точность, он становится вычислительно непомерным для очень больших моделей. MoE, напротив, вводит концепцию «экспертов» - меньших, специализированных нейронных сетей, которые фокусируются на конкретных подмножествах входных данных.
Сеть «ворот» динамически направляет каждый вход к наиболее релевантному эксперту (экспертам). Эта селективная активация допускает редкие вычисления, а это означает, что для любого данного входа задействована лишь часть параметров модели. Эта нехватка резко снижает вычислительные затраты на дедукцию (использование модели для прогнозирования) и обучение. Кроме того, поскольку разные эксперты могут воздействовать на разные части входных данных, это позволяет обеспечить большую специализацию в модели.
Несмотря на преимущества MoE, необходимо решить несколько ограничений, чтобы раскрыть ее полный потенциал. Неравномерная активация экспертов является основной проблемой. Во многих реализациях MoE некоторые эксперты становятся сильно используемыми, в то время как другие остаются относительно бездействующими. Этот дисбаланс проистекает из неотъемлемых характеристик данных и конструкции сети ворот.
Этот дисбаланс может привести к неэффективности в средах параллельных вычислений. Поскольку рабочая нагрузка не распределена равномерно между экспертами, некоторые блоки обработки остаются недоиспользованными, в то время как другие перегружены. Это несоответствие препятствует масштабируемости MoE и снижает ее общую производительность. Кроме того, этот дисбаланс часто возникает из-за предвзятостей в данных обучения, что приводит к недостаточному представлению и недообучению менее активных экспертов. В конечном итоге это приводит к неоптимальной модели.
Еще одна распространенная проблема при работе с MoE включает в себя дополнительную сложность при проектировании сети ворот. Сеть ворот требует сложных методов, чтобы гарантировать правильный выбор экспертов, в противном случае MoE может не соответствовать ожиданиям и вызвать ненужные накладные расходы.
Grouped Experts (MoGE): решение проблем MoE
Архитектура Mixture of Grouped Experts (MoGE) от Huawei предлагает усовершенствованную альтернативу традиционному MoE, уделяя особое внимание балансировке нагрузки и эффективному параллельному выполнению. Этот метод включает в себя стратегическую группировку экспертов, что изменяет процесс маршрутизации входных данных, приводя к более равномерному распределению рабочей нагрузки.
Группируя экспертов во время выбора, MoGE гарантирует, что каждая группа экспертов получает более сбалансированную рабочую нагрузку. Вместо того, чтобы маршрутизировать каждый вход независимо, сеть ворот теперь направляет группы входов группам экспертов. Этот подход способствует более справедливому распределению вычислительной нагрузки.
Механизм группировки также помогает смягчить последствия предвзятости данных. Гарантируя, что все эксперты в группе обучены на разнообразном наборе входных данных, MoGE снижает риск недостаточного представления и недообучения. Кроме того, группировка экспертов позволяет лучше использовать ресурсы. Поскольку каждая группа обрабатывает более согласованную рабочую нагрузку, становится легче эффективно распределять вычислительные ресурсы, что приводит к повышению общей производительности.
Конечным результатом является лучшая балансировка нагрузки экспертов и более эффективное выполнение как для обучения модели, так и для дедукции. Это приводит к сокращению времени обучения, снижению вычислительных затрат и повышению общей производительности.
Ascend NPU: аппаратное ускорение для AI
Ascend NPU (Neural Processing Unit) играет ключевую роль в стратегии AI Huawei. Эти процессоры специально разработаны для ускорения задач AI, включая обучение модели и дедукцию. Они предлагают различные функции, оптимизированные для рабочих нагрузок глубокого обучения, такие как высокая пропускная способность памяти, специализированные блоки обработки для умножения матриц и интерфейсы связи с низкой задержкой. Кроме того, Ascend NPU от Huawei поддерживает ряд типов данных и уровней точности, что позволяет осуществлять точный контроль над производительностью и точностью.
Синергетическое сочетание MoGE и Ascend NPU создает мощную платформу для инноваций AI. MoGE оптимизирует программную сторону, улучшая балансировку нагрузки и параллельное выполнение, в то время как Ascend NPU обеспечивает аппаратное ускорение, необходимое для реализации этих преимуществ. Этот интегрированный подход позволяет Huawei расширить границы производительности и эффективности AI.
Ascend NPU характеризуется высокой вычислительной плотностью и энергоэффективностью. Эти функции имеют решающее значение для развертывания моделей AI в различных условиях, от мощных облачных серверов до периферийных устройств с ограниченным энергопотреблением.
Сравнения и показатели производительности
Результаты сравнения Huawei демонстрируют эффективность архитектуры MoGE и Ascend NPU. Сравнивая Pangu с ведущими моделями AI, такими как DeepSeek-V3, Qwen2.5-72B и Llama-405B, Huawei показала, что ее технология достигает современного уровня производительности по различным задачам.
Успех Pangu в общих английских и китайских тестах подчеркивает ее универсальность и адаптируемость. Знание модели в обучении с длинным контекстом особенно примечательно, поскольку оно отражает возможности по обработке реальных данных. Кроме того, высокая производительность Pangu в задачах рассуждения подчеркивает ее способность понимать и обрабатывать сложные отношения.
Эти тесты - не просто академические упражнения, они предлагают ощутимые доказательства технологических успехов, достигнутых Huawei. Они подкрепляют утверждение компании о том, что она находится в авангарде инноваций AI, и укрепляют ее позиции на мировом рынке.
Implications for Huawei’s Future
Достижения Huawei в обучении моделей AI имеют решающее значение в стратегическом видении компании по установлению технологического суверенитета в искусственном интеллекте. Поскольку компания минимизирует свою зависимость от технологий США в условиях продолжающегося торгового конфликта, разработка чипов Ascend служит альтернативой процессорам от Nvidia и AMD. Pangu Ultra, LLM, включающая 135 миллиардов параметров для NPU, подчеркивает эффективность архитектурной и системной оптимизации Huawei, демонстрируя возможности своих передовых чипов.
Ожидается, что эти усилия внесут вклад в общую конкурентоспособность Huawei в долгосрочной перспективе, поскольку эта компания стремится удовлетворить больший рынок для AI, особенно в Китае. Продолжая сосредотачивать инвестиции на исследованиях и разработках, Huawei надеется продвинуть себя вперед в качестве лидера в пространстве AI, преодолевая текущие рыночные ограничения.
Future Research
Постоянные улучшения Huawei в архитектуре модели AI посредством системных и алгоритмических оптимизаций, наряду с разработками оборудования, такими как чип Ascend, отмечают ее важность в руководстве технологической кривой в искусственном интеллекте. Хотя тесты, такие как Pangu, доказывают, что это современная модель, еще есть много возможностей для улучшения. Дальнейшее совершенствование архитектуры MoGE может позволить ей продвигаться к более крупным и сложным вычислениям. Расширение специализации архитектуры Ascend NPU позволит еще больше ускорить процессы глубокого обучения и снизить затраты. Future investigation увидит постоянные усилия по созданию лучших моделей AI и улучшению существующих.