A Huawei Technologies, uma empresa enfrentando significativos obstáculos tecnológicos devido às sanções dos EUA, teria alcançado um avanço no treinamento de modelos de inteligência artificial (IA). Pesquisadores trabalhando no grande modelo de linguagem (LLM) da Huawei, Pangu, afirmam ter desenvolvido uma abordagem aprimorada que supera a metodologia original da DeepSeek. Este método inovador aproveita o próprio hardware proprietário da Huawei, reduzindo a dependência da empresa em tecnologias dos EUA, um objetivo crucial no atual cenário geopolítico.
O Surgimento da Mixture of Grouped Experts (MoGE)
A pedra angular do avanço da Huawei reside no conceito de Mixture of Grouped Experts (MoGE). Esta nova técnica, detalhada em um artigo publicado pela equipe Pangu da Huawei, é apresentada como uma versão atualizada da técnica Mixture of Experts (MoE). A MoE provou ser fundamental na criação de modelos de IA econômicos, conforme demonstrado pelo sucesso da DeepSeek.
A MoE oferece vantagens para grandes parâmetros de modelo, levando a uma maior capacidade de aprendizado. No entanto, os pesquisadores da Huawei identificaram ineficiências decorrentes da ativação irregular de "experts", componentes cruciais no treinamento de IA, que podem prejudicar o desempenho ao executar tarefas em vários dispositivos simultaneamente. A MoGE da Huawei aborda estrategicamente esses desafios.
Abordando Ineficiências em Modelos MoE Tradicionais
O sistema MoGE é intrincadamente projetado para otimizar a distribuição da carga de trabalho. A ideia central é "agrupar" experts durante o processo de seleção, levando a uma distribuição de carga de trabalho mais equilibrada. Ao distribuir de forma mais equitativa o fardo computacional, os pesquisadores relataram uma notável melhora no desempenho de ambientes de computação paralela, um aspecto fundamental do treinamento moderno de IA.
O conceito de "experts" no treinamento de IA refere-se a submodelos ou componentes especializados dentro de um modelo maior e mais abrangente. Cada expert é meticulosamente projetado para lidar com tarefas ou tipos de dados muito específicos. Essa abordagem aproveita variadas especialidades, permitindo que o sistema geral de IA melhore significativamente seu desempenho geral.
Implicações para o Avanço da IA na China
Este avanço é particularmente oportuno. As empresas chinesas de IA, apesar de enfrentarem restrições dos EUA à importação chips de IA avançados como os da Nvidia, estão buscando agressivamente métodos para impulsionar o treinamento de modelos e a eficiência de inferência. Esses métodos incluem não apenas melhorias algorítmicas, mas também a integração sinérgica de hardware e software.
Os pesquisadores da Huawei testaram rigorosamente a arquitetura MoGE em sua unidade de processamento neural (NPU) Ascend, especificamente projetada para acelerar tarefas de IA. Os resultados indicaram que a MoGE alcançou um equilíbrio de carga superior de experts e uma execução mais eficiente, tanto para as fases de treinamento quanto de inferência do modelo. Esta é uma validação significativa dos benefícios de otimizar a pilha de hardware e software simultaneamente.
Comparando o Pangu com Modelos de IA Líderes
O modelo Pangu da Huawei, fortalecido pela arquitetura MoGE e pelas NPUs Ascend, foi comparado com modelos de IA líderes. Estes incluíram DeepSeek-V3, Qwen2.5-72B do Alibaba Group Holding e Llama-405B da Meta Platforms. Os resultados do benchmark mostraram que o Pangu alcançou um desempenho de ponta em uma variedade de benchmarks gerais em inglês, e se destacou em todos os benchmarks chineses. O Pangu também exibiu maior eficiência no processamento de treinamento de contexto longo, uma área de importância crítica para tarefas sofisticadas de processamento de linguagem natural.
Além disso, o modelo Pangu demonstrou capacidades excepcionais em tarefas gerais de compreensão da linguagem, com pontos fortes particulares em tarefas de raciocínio. Esta capacidade de compreender nuances e extrair significado de linguagem complexa demonstra os avanços que a Huawei alcançou em IA.
A Significado Estratégico da Huawei
O progresso da Huawei na arquitetura de modelos de IA tem um significado estratégico. Dadas as sanções em curso, a empresa sediada em Shenzhen está estrategicamente buscando diminuir sua dependência de tecnologias dos EUA. Os chips Ascend desenvolvidos pela Huawei são considerados alternativas domésticas viáveis aos processadores da Nvidia e são um componente-chave desta independência.
O Pangu Ultra, um grande modelo de linguagem com 135 bilhões de parâmetros otimizado para NPUs, enfatiza a eficácia da otimização arquitetônica e sistêmica da Huawei, ao mesmo tempo em que mostra as capacidades de suas NPUs. Demonstrar a eficácia de sua integração hardware-software é uma parte importante de mostrar as capacidades de IA da Huawei.
Processo de Treinamento Detalhado
De acordo com a Huawei, o processo de treinamento é dividido em três etapas principais: pré-treinamento, extensão de contexto longo e pós-treinamento. O pré-treinamento envolve o treinamento inicial do modelo em um conjunto de dados massivo de 13,2 trilhões de tokens. A extensão de contexto longo então expande a capacidade do modelo de lidar com textos mais longos e complexos e se baseia no reconhecimento inicial dos dados. Esta fase usa um processamento distribuído em grande escala em 8.192 chips Ascend.
A Huawei divulgou que o modelo e o sistema estarão em breve acessíveis à sua clientela comercial, abrindo novas oportunidades de integração e desenvolvimento com seus parceiros.
Uma Análise Detalhada da Mixture of Experts (MoE) e suas Limitações
Para apreciar totalmente o significado da MoGE da Huawei, é crucial entender as fundações sobre as quais ela se baseia: a arquitetura Mixture of Experts (MoE). A MoE representa uma mudança de paradigma em como os grandes modelos de IA são projetados e treinados, oferecendo um caminho para escalar o tamanho e a complexidade do modelo sem um aumento proporcional no custo computacional.
Em uma rede neural tradicional, cada entrada é processada por cada neurônio em cada camada. Embora essa abordagem possa produzir alta precisão, ela se torna computacionalmente proibitiva para modelos muito grandes. A MoE, em contrapartida, introduz o conceito de "experts" – redes neurais menores e especializadas que se concentram em subconjuntos específicos dos dados de entrada.
Uma rede de "gate" encaminha dinamicamente cada entrada para o(s) expert(s) mais relevante(s). Esta ativação seletiva permite uma computação esparsa, o que significa que apenas uma fração dos parâmetros do modelo são engajados para qualquer entrada dada. Essa esparsidade reduz drasticamente o custo computacional da inferência (usando o modelo para previsão) e do treinamento. Além disso, como diferentes experts podem atuar em diferentes partes dos dados de entrada, isso permite maior especialização no modelo.
Apesar das vantagens da MoE, diversas limitações devem ser abordadas para liberar todo o seu potencial. A ativação irregular de experts é uma preocupação primordial. Em muitas implementações de MoE, alguns experts se tornam fortemente utilizados, enquanto outros permanecem relativamente ociosos. Esse desequilíbrio decorre das características inerentes dos dados e do design da rede de gate.
Este desequilíbrio pode levar a ineficiências em ambientes de computação paralela. Como a carga de trabalho não é distribuída uniformemente entre os experts, algumas unidades de processamento são subutilizadas enquanto outras ficam sobrecarregadas. Essa disparidade dificulta a escalabilidade da MoE e reduz seu desempenho geral. Além disso, esse desequilíbrio geralmente decorre de vieses nos dados de treinamento, levando à sub-representação e sub-treinamento de experts menos ativos. Isso resulta em um modelo subótimo a longo prazo.
Outro problema comum ao lidar com a MoE inclui a complexidade adicional ao projetar a rede de gate. A rede de gate requer técnicas sofisticadas para garantir que os experts sejam selecionados adequadamente, caso contrário, a MoE pode não ter o desempenho esperado e causar sobrecarga desnecessária.
Grouped Experts (MoGE): Abordando os Desafios da MoE
A arquitetura Mixture of Grouped Experts (MoGE) da Huawei oferece uma alternativa refinada à MoE tradicional, concentrando-se no equilíbrio de carga e na execução paralela eficiente. O método envolve o agrupamento estratégico de experts, o que altera o processo de roteamento dos dados de entrada, levando a uma distribuição de carga de trabalho mais uniforme.
Ao agrupar os experts durante a seleção, a MoGE garante que cada grupo de experts receba uma carga de trabalho mais equilibrada. Em vez de rotear cada entrada de forma independente, a rede de gate agora direciona grupos de entradas para grupos de experts. Esta abordagem promove uma distribuição mais equitativa do fardo computacional.
O mecanismo de agrupamento também ajuda a mitigar os efeitos dos vieses nos dados. Ao garantir que todos os experts dentro de um grupo sejam treinados em um conjunto diversificado de entradas, a MoGE reduz o risco de sub-representação e sub-treinamento. Além disso, agrupar experts permite melhor utilização de recursos. Como cada grupo lida com uma carga de trabalho mais consistente, torna-se mais fácil alocar recursos computacionais de forma eficiente, levando a um melhor desempenho geral.
O resultado final é um melhor equilíbrio de carga de experts e uma execução mais eficiente tanto para o treinamento quanto para a inferência do modelo. Isso se traduz em tempos de treinamento mais rápidos, custos computacionais mais baixos e desempenho geral aprimorado.
A NPU Ascend: Aceleração de Hardware para IA
A NPU (Neural Processing Unit) Ascend desempenha um papel fundamental na estratégia de IA da Huawei. Esses processadores são especificamente projetados para acelerar tarefas de IA, incluindo o treinamento e a inferência do modelo. Eles oferecem uma variedade de recursos otimizados para cargas de trabalho de deep learning, como alta largura de banda de memória, unidades de processamento especializadas para multiplicação de matrizes e interfaces de comunicação de baixa latência. Além disso, as NPUs Ascend da Huawei suportam uma variedade de tipos de dados e níveis de precisão, permitindo controle refinado sobre o desempenho e a precisão.
A combinação sinérgica da MoGE e da NPU Ascend cria uma plataforma poderosa para a inovação em IA. A MoGE otimiza o lado do software, melhorando o equilíbrio de carga e a execução paralela, enquanto a NPU Ascend fornece a aceleração de hardware necessária para realizar esses benefícios. Esta abordagem integrada permite que a Huawei ultrapasse os limites do desempenho e da eficiência da IA.
A NPU Ascend é caracterizada por alta densidade de computação e eficiência energética. Esses recursos são cruciais para implantar modelos de IA em uma variedade de configurações, desde servidores de nuvem poderosos até dispositivos de borda com orçamentos de energia limitados.
Benchmarks e Métricas de Desempenho
Os resultados dos benchmarks da Huawei demonstram a eficácia da arquitetura MoGE e da NPU Ascend. Ao comparar o Pangu com modelos de IA líderes como DeepSeek-V3, Qwen2.5-72B e Llama-405B, a Huawei mostrou que sua tecnologia alcança um desempenho de ponta em uma variedade de tarefas.
O sucesso do Pangu em benchmarks gerais em inglês e chinês destaca sua versatilidade e adaptabilidade. A proficiência do modelo no treinamento de contexto longo é particularmente notável, pois reflete as capacidades no tratamento de dados de aplicações do mundo real. Além disso, o forte desempenho do Pangu em tarefas de raciocínio ressalta sua capacidade de entender e processar relacionamentos complexos.
Esses benchmarks não são meros exercícios acadêmicos, eles oferecem evidências tangíveis dos avanços tecnológicos feitos pela Huawei. Eles reforçam a alegação da empresa de estar na vanguarda da inovação em IA e fortalecem sua posição no mercado global.
Implicações para o Futuro da Huawei
Os avanços da Huawei no treinamento de modelos de IA têm implicações críticas na visão estratégica da empresa de estabelecer soberania tecnológica em inteligência artificial. À medida que a empresa minimiza sua dependência de tecnologias dos EUA em meio ao conflito comercial em curso, o desenvolvimento de chips Ascend serve como alternativas aos processadores da Nvidia e AMD. O Pangu Ultra, um LLM com 135 bilhões de parâmetros para NPUs, destaca a eficácia da otimização arquitetônica e sistêmica da Huawei, mostrando as capacidades de seus chips de ponta.
Espera-se que esses esforços contribuam para a competitividade geral da Huawei a longo prazo, à medida que ela se esforça para atender a um mercado maior de IA, particularmente dentro da China. Ao continuar a concentrar investimentos em pesquisa e desenvolvimento, a Huawei espera se impulsionar como líder no espaço da IA, superando as atuais restrições do mercado.
Pesquisa Futura
As melhorias contínuas da Huawei na arquitetura de modelos de IA por meio de otimizações de nível de sistema e algorítmico, juntamente com desenvolvimentos de hardware, como o chip Ascend, marcam sua importância em liderar a curva tecnológica em inteligência artificial. Embora benchmarks como o Pangu provem que ele é um modelo de ponta, ainda há muito a ser melhorado. O refinamento adicional da arquitetura MoGE pode permitir que ela impulsione cálculos maiores e mais complexos. Mais trabalho na especialização da arquitetura da NPU Ascend pode acelerar ainda mais os processos de deep learning e reduzir custos. A investigação futura verá os esforços contínuos para construir melhores modelos de IA e melhorar os existentes.