그룹화된 전문가 혼합(MoGE)의 출현
미국 제재로 인해 상당한 기술적 난관에 직면한 화웨이(Huawei Technologies)가 인공지능(AI) 모델 학습에서 획기적인 발전을 이룬 것으로 알려졌습니다. 화웨이의 거대 언어 모델(LLM)인 판구(Pangu)를 연구하는 연구진은 DeepSeek의 원래 방법론을 능가하는 향상된 접근 방식을 개발했다고 주장합니다. 이 혁신적인 방법은 화웨이 자체의 독점 하드웨어를 활용하여 현재 지정학적 환경에서 중요한 목표인 미국 기술에 대한 회사의 의존도를 줄입니다.
화웨이 발전의 초석은 그룹화된 전문가 혼합(Mixture of Grouped Experts, MoGE)이라는 개념에 있습니다. 화웨이 판구 팀에서 발표한 논문에 자세히 설명된 이 새로운 기술은 전문가 혼합(Mixture of Experts, MoE) 기술의 업그레이드 버전으로 제시됩니다. MoE는 DeepSeek의 성공에서 입증되었듯이 비용 효율적인 AI 모델을 만드는 데 중요한 역할을 해왔습니다.
MoE는 거대 모델 매개변수에 대한 이점을 제공하여 향상된 학습 능력으로 이어집니다. 그러나 화웨이 연구진은 AI 학습의 중요한 구성 요소인 “전문가”의 불균등한 활성화로 인해 발생하는 비효율성을 확인했으며, 이는 여러 장치에서 동시에 작업을 실행할 때 성능을 저해할 수 있습니다. 화웨이의 MoGE는 이러한 과제를 전략적으로 해결합니다.
전통적인 MoE 모델의 비효율성 해결
MoGE 시스템은 워크로드 분산을 최적화하도록 복잡하게 설계되었습니다. 핵심 아이디어는 선택 과정에서 전문가를 “그룹화”하여 보다 균형 잡힌 워크로드 분산을 유도하는 것입니다. 연구진은 계산 부담을 보다 공평하게 분산함으로써 최신 AI 학습의 핵심 측면인 병렬 컴퓨팅 환경의 성능이 눈에 띄게 향상되었다고 보고했습니다.
AI 학습에서 “전문가”라는 개념은 더 크고 포괄적인 모델 내의 특수화된 하위 모델 또는 구성 요소를 나타냅니다. 각 전문가는 매우 특정 작업을 처리하거나 데이터 유형을 처리하도록 세심하게 설계되었습니다. 이 접근 방식은 다양한 전문 지식을 활용하여 전체 AI 시스템이 전체 성능을 크게 향상시킬 수 있도록 합니다.
중국 AI 발전의 함의
이러한 발전은 특히 시의적절합니다. Nvidia와 같은 고급 AI 칩의 수입에 대한 미국의 제한에도 불구하고 중국 AI 기업은 모델 학습 및 추론 효율성을 높이는 방법을 적극적으로 추구하고 있습니다. 이러한 방법에는 알고리즘 개선뿐만 아니라 하드웨어와 소프트웨어의 시너지 통합도 포함됩니다.
화웨이 연구진은 AI 작업을 가속화하도록 특별히 설계된 Ascend NPU(신경망 처리 장치)에서 MoGE 아키텍처를 엄격하게 테스트했습니다. 결과는 MoGE가 모델 학습 및 추론 단계 모두에서 더 나은 전문가 부하 균형 조정과 보다 효율적인 실행을 달성했음을 보여주었습니다. 이는 하드웨어 및 소프트웨어 스택을 동시에 최적화하는 이점을 크게 입증하는 것입니다.
주요 AI 모델에 대한 판구 벤치마킹
MoGE 아키텍처 및 Ascend NPU로 강화된 화웨이의 판구 모델은 주요 AI 모델에 대해 벤치마킹되었습니다. 여기에는 DeepSeek-V3, Alibaba Group Holding의 Qwen2.5-72B 및 Meta Platforms의 Llama-405B가 포함되었습니다. 벤치마크 결과는 판구가 다양한 일반 영어 벤치마크에서 최첨단 성능을 달성했으며 모든 중국어 벤치마크에서 뛰어난 성능을 보였습니다. 판구는 또한 정교한 자연어 처리 작업에 중요한 영역인 장문 맥락 학습 처리에서 더 높은 효율성을 보여주었습니다.
또한 판구 모델은 일반적인 언어 이해 작업에서 뛰어난 능력을 보여주었으며, 특히 추론 작업에서 강점을 보였습니다. 복잡한 언어에서 뉘앙스를 파악하고 의미를 추출하는 이 능력은 화웨이가 AI에서 달성한 발전을 보여줍니다.
화웨이의 전략적 중요성
AI 모델 아키텍처에서 화웨이의 발전은 전략적 중요성을 갖습니다. 지속적인 제재를 감안할 때 선전 기반의 이 회사는 미국 기술에 대한 의존도를 줄이기 위해 전략적으로 노력하고 있습니다. 화웨이에서 개발한 Ascend 칩은 Nvidia의 프로세서에 대한 실행 가능한 국내 대안으로 간주되며 이러한 독립성의 핵심 구성 요소입니다.
NPU에 최적화된 1,350억 개의 매개변수를 가진 거대 언어 모델인 판구 울트라는 화웨이의 아키텍처 및 시스템 간소화의 효과를 강조하면서 NPU의 기능을 보여줍니다. 하드웨어-소프트웨어 통합의 효과를 입증하는 것은 화웨이 AI 기능을 보여주는 중요한 부분입니다.
상세한 학습 과정
화웨이에 따르면 학습 과정은 사전 학습, 장문 맥락 확장 및 사후 학습의 세 가지 주요 단계로 나뉩니다. 사전 학습에는 먼저 13조 2천억 개의 토큰으로 구성된 방대한 데이터 세트에 모델을 학습시키는 과정이 포함됩니다. 그런 다음 장문 맥락 확장은 모델이 더 길고 복잡한 텍스트를 처리하고 초기 데이터 인식을 기반으로 구축하는 능력을 확장합니다. 이 단계에서는 8,192개의 Ascend 칩에 걸쳐 대규모 분산 처리를 사용합니다.
화웨이는 모델과 시스템이 곧 상업 고객에게 제공될 예정이라고 밝혔으며, 이는 파트너와의 통합 및 개발을 위한 새로운 기회를 열어줍니다.
전문가 혼합(MoE) 및 그 한계에 대한 심층 분석
화웨이의 MoGE의 중요성을 완전히 이해하려면 MoE(Mixture of Experts) 아키텍처, 즉 MoGE가 구축되는 기반을 이해하는 것이 중요합니다. MoE는 컴퓨팅 비용의 비례적인 증가 없이 모델 크기와 복잡성을 확장할 수 있는 경로를 제공하면서 거대 AI 모델이 설계되고 학습되는 방식에서 패러다임의 전환을 나타냅니다.
전통적인 신경망에서는 모든 입력이 모든 계층의 모든 뉴런에 의해 처리됩니다. 이 접근 방식은 높은 정확도를 제공할 수 있지만 매우 큰 모델의 경우 계산적으로 금지됩니다. 반대로 MoE는 입력 데이터의 특정 하위 집합에 초점을 맞춘 더 작고 특수화된 신경망인 “전문가”라는 개념을 도입합니다.
“게이트” 네트워크는 각 입력을 가장 관련성이 높은 전문가에게 동적으로 라우팅합니다. 이 선택적 활성화를 통해 희소 계산이 가능합니다. 즉, 주어진 입력에 대해 모델 매개변수의 일부만 관여합니다. 이 희소성은 추론(예측을 위해 모델 사용) 및 학습의 계산 비용을 획기적으로 줄입니다. 또한 서로 다른 전문가가 입력 데이터의 서로 다른 부분에 작용할 수 있으므로 모델에서 더 큰 전문화가 가능합니다.
MoE의 장점에도 불구하고 잠재력을 최대한 활용하려면 몇 가지 한계를 해결해야 합니다. 전문가의 불균등한 활성화가 주요 관심사입니다. 많은 MoE 구현에서 일부 전문가는 많이 활용되는 반면 다른 전문가는 상대적으로 유휴 상태로 유지됩니다. 이러한 불균형은 데이터의 고유한 특성과 게이트 네트워크의 설계에서 비롯됩니다.
이러한 불균형은 병렬 컴퓨팅 환경에서 비효율성으로 이어질 수 있습니다. 워크로드가 전문가에게 고르게 분산되지 않기 때문에 일부 처리 장치는 제대로 활용되지 않는 반면 다른 처리 장치는 압도당합니다. 이러한 불균형은 MoE의 확장성을 저해하고 전반적인 성능을 저하시킵니다. 또한 이러한 불균형은 종종 학습 데이터의 편향에서 비롯되어 덜 활동적인 전문가의 과소 표현 및 과소 학습으로 이어집니다. 이로 인해 장기적으로 차선책인 모델이 생성됩니다.
MoE를 처리할 때 일반적인 또 다른 문제는 게이트 네트워크를 설계할 때 추가되는 복잡성입니다. 게이트 네트워크는 전문가가 제대로 선택되도록 정교한 기술이 필요합니다. 그렇지 않으면 MoE가 예상대로 작동하지 않고 불필요한 오버헤드가 발생할 수 있습니다.
전문가 그룹화(MoGE): MoE의 과제 해결
화웨이의 MoGE(Mixture of Grouped Experts) 아키텍처는 부하 균형 조정 및 효율적인 병렬 실행에 초점을 맞춰 전통적인 MoE에 대한 개선된 대안을 제공합니다. 이 방법은 전문가를 전략적으로 그룹화하여 입력 데이터의 라우팅 프로세스를 변경하고 보다 균등한 워크로드 분산을 유도합니다.
선택 중에 전문가를 그룹화함으로써 MoGE는 각 전문가 그룹이 보다 균형 잡힌 워크로드를 받도록 보장합니다. 각 입력을 독립적으로 라우팅하는 대신 게이트 네트워크는 이제 입력 그룹을 전문가 그룹으로 보냅니다. 이 접근 방식은 계산 부담의 보다 공평한 분산을 촉진합니다.
그룹화 메커니즘은 데이터 편향의 영향도 완화하는 데 도움이 됩니다. 그룹 내의 모든 전문가가 다양한 입력 세트에 대해 학습되도록 보장함으로써 MoGE는 과소 표현 및 과소 학습의 위험을 줄입니다. 또한 전문가를 그룹화하면 리소스 활용률이 향상됩니다. 각 그룹이 보다 일관된 워크로드를 처리하므로 컴퓨팅 리소스를 효율적으로 할당하기가 더 쉬워져 전반적인 성능이 향상됩니다.
최종 결과는 더 나은 전문가 부하 균형 조정과 모델 학습 및 추론을 위한 보다 효율적인 실행입니다. 이는 더 빠른 학습 시간, 더 낮은 계산 비용 및 향상된 전반적인 성능으로 이어집니다.
Ascend NPU: AI를 위한 하드웨어 가속
Ascend NPU(Neural Processing Unit)는 화웨이의 AI 전략에서 핵심적인 역할을 합니다. 이러한 프로세서는 모델 학습 및 추론을 포함한 AI 작업을 가속화하도록 특별히 설계되었습니다. 이들은 높은 메모리 대역폭, 행렬 곱셈을 위한 특수 처리 장치 및 낮은 대기 시간 통신 인터페이스와 같은 심층 학습 워크로드에 최적화된 다양한 기능을 제공합니다. 또한 화웨이의 Ascend NPU는 다양한 데이터 유형과 정밀도 수준을 지원하므로 성능과 정확도를 세분화하여 제어할 수 있습니다.
MoGE와 Ascend NPU의 시너지 조합은 강력한 AI 혁신 플랫폼을 만듭니다. MoGE는 부하 균형 조정 및 병렬 실행을 개선하여 소프트웨어 측면을 최적화하고 Ascend NPU는 이러한 이점을 실현하는 데 필요한 하드웨어 가속을 제공합니다. 이 통합된 접근 방식을 통해 화웨이는 AI 성능과 효율성의 경계를 넓힐 수 있습니다.
Ascend NPU는 높은 컴퓨팅 밀도와 에너지 효율성이 특징입니다. 이러한 기능은 강력한 클라우드 서버에서 제한된 전력 예산을 가진 에지 장치에 이르기까지 다양한 설정에서 AI 모델을 배포하는 데 매우 중요합니다.
벤치마크 및 성능 지표
화웨이의 벤치마크 결과는 MoGE 아키텍처와 Ascend NPU의 효과를 입증합니다. 화웨이는 판구를 DeepSeek-V3, Qwen2.5-72B 및 Llama-405B와 같은 주요 AI 모델과 비교하여 자사의 기술이 다양한 작업에서 최첨단 성능을 달성했음을 보여주었습니다.
일반 영어 및 중국어 벤치마크에서 판구의 성공은 다재다능함과 적응성을 강조합니다. 모델의 장문 맥락 학습 숙련도는 실제 데이터를 처리하는 능력을 반영하므로 특히 주목할 만합니다. 또한 추론 작업에서 판구의 강력한 성능은 복잡한 관계를 이해하고 처리하는 능력을 강조합니다.
이러한 벤치마크는 단순한 학문적 연습이 아니라 화웨이가 이룬 기술적 발전의 실질적인 증거를 제공합니다. 그들은 AI 혁신의 최전선에 있다는 회사의 주장을 뒷받침하고 글로벌 시장에서의 입지를 강화합니다.
화웨이의 미래에 대한 함의
AI 모델 학습에서 화웨이의 발전은 인공지능 분야에서 기술적 주권을 확립하려는 회사의 전략적 비전에 중요한 의미를 가집니다. 지속적인 무역 분쟁 속에서 회사가 미국 기술에 대한 의존도를 최소화함에 따라 Ascend 칩 개발은 Nvidia 및 AMD의 프로세서에 대한 대안 역할을 합니다. NPU용 1,350억 개의 매개변수를 특징으로 하는 LLM인 판구 울트라는 최첨단 칩의 기능을 보여줌으로써 화웨이 아키텍처 및 시스템 간소화의 효과를 강조합니다.
이러한 노력은 장기적으로 화웨이의 전반적인 경쟁력에 기여할 것으로 예상됩니다. 특히 중국 내에서 AI에 대한 더 큰 시장에 서비스를 제공하기 위해 노력하고 있기 때문입니다. 화웨이는 연구 개발에 대한 투자를 계속 집중함으로써 현재 시장 제약을 극복하고 AI 분야의 리더로 발돋움하기를 희망합니다.
향후 연구
Ascend 칩과 같은 하드웨어 개발과 함께 시스템 및 알고리즘 수준 최적화를 통한 AI 모델 아키텍처에 대한 화웨이의 지속적인 개선은 인공지능 분야에서 기술적 곡선을 선도하는 데 있어 중요성을 나타냅니다. 판구와 같은 벤치마크는 최첨단 모델임을 입증하지만 개선의 여지가 여전히 많습니다. MoGE 아키텍처를 더욱 개선하면 더 크고 복잡한 계산으로 푸시할 수 있습니다. Ascend NPU의 아키텍처를 전문화하는 데 더 많은 노력을 기울이면 심층 학습 프로세스가 더욱 가속화되고 비용이 절감될 수 있습니다. 향후 조사에서는 더 나은 AI 모델을 구축하고 기존 모델을 개선하기 위한 지속적인 노력이 이루어질 것입니다.