AI 개발의 끊임없는 진보는 더 큰 모델이 더 똑똑해지는 경향이 있지만, 운영 요구 사항도 증가한다는 것을 일관되게 보여주었습니다. 이것은 특히 고급 AI 칩에 대한 접근이 제한적인 지역에서 상당한 과제를 만듭니다. 그러나 지리적 제약에 관계없이 모델 개발자들 사이에서 MoE (Mixture of Experts) 아키텍처와 혁신적인 압축 기술을 채택하려는 추세가 증가하고 있습니다. 목표는 무엇일까요? 이러한 광범위한 LLM (Large Language Models)을 배포하고 실행하는 데 필요한 컴퓨팅 리소스를 대폭 줄이는 것입니다. ChatGPT에 의해 촉발된 생성 AI 붐의 3주년에 접어들면서 업계는 이러한 전력 소모적인 모델을 계속 실행하는 데 따른 경제적 의미를 진지하게 고려하기 시작했습니다.
Mistral AI와 같은 MoE 모델은 어느 정도 존재해 왔지만, 실제 돌파구는 작년에 발생했습니다. Microsoft, Google, IBM, Meta, DeepSeek 및 Alibaba와 같은 기술 대기업에서 MoE 아키텍처의 일부 형태를 활용하는 새로운 오픈 소스 LLM이 급증하는 것을 목격했습니다. 매력은 간단합니다. MoE 아키텍처는 기존의 “조밀한” 모델 아키텍처보다 훨씬 효율적인 대안을 제공합니다.
메모리 제한 극복
MoE 아키텍처의 기초는 1990년대 초 “Adaptive Mixtures of Local Experts”의 출판으로 거슬러 올라갑니다. 핵심 아이디어는 광범위한 데이터 스펙트럼에서 훈련된 단일한 거대한 모델에 의존하기보다는 하나 이상의 전문화된 하위 모델 또는 “전문가”에게 작업을 분산시키는 것을 중심으로 합니다.
이론적으로 각 전문가는 코딩 및 수학에서 창의적인 글쓰기에 이르기까지 특정 도메인에 맞게 세심하게 최적화될 수 있습니다. 그러나 대부분의 모델 개발자는 MoE 모델 내의 특정 전문가에 대한 제한된 세부 정보만 제공하며, 전문가 수는 모델마다 다릅니다. 결정적으로 전체 모델의 일부만 특정 시점에 활성화됩니다.
공유 전문가와 함께 256개의 라우팅된 전문가로 구성된 DeepSeek의 V3 모델을 고려하십시오. 토큰 처리 중에 8개의 라우팅된 전문가와 공유 전문가만 활성화됩니다. 이 선택적 활성화는 MoE 모델이 유사한 크기의 조밀한 모델과 동일한 수준의 품질을 항상 달성하지 못할 수 있음을 의미합니다. 예를 들어 Alibaba의 Qwen3-30B-A3B MoE 모델은 Alibaba의 벤치 마크 테스트에서 조밀한 Qwen3-32B 모델보다 일관되게 성능이 저조했습니다.
그러나 MoE 아키텍처가 제공하는 상당한 효율성 향상에 대해 이 약간의 품질 저하를 맥락화하는 것이 필수적입니다. 활성 매개 변수의 감소는 모델의 가중치를 저장하는 데 필요한 용량에 더 이상 직접적으로 비례하지 않는 메모리 대역폭 요구 사항을 초래합니다. 본질적으로 MoE 모델은 여전히 상당한 메모리가 필요할 수 있지만 가장 빠르고 비싼 HBM (High Bandwidth Memory)이 될 필요는 없습니다.
비교를 통해 이를 설명해 보겠습니다. Meta의 가장 큰 “조밀한” 모델인 Llama 3.1 405B와 170억 개의 활성 매개 변수를 가진 MoE 아키텍처를 사용하는 유사한 모델인 Llama 4 Maverick을 고려해 보겠습니다. 배치 크기, 부동 소수점 성능 및 키-값 캐싱과 같은 수많은 요소가 실제 성능에 기여하지만, 주어진 정밀도에서 모델의 크기 (8비트 모델의 매개 변수당 1바이트)를 배치 크기가 1일 때 초당 목표 토큰 수로 곱하여 최소 대역폭 요구 사항을 근사화할 수 있습니다.
Llama 3.1 405B의 8비트 양자화 버전을 실행하려면 405GB 이상의 vRAM과 초당 50개의 토큰으로 텍스트를 생성하기 위해 최소 20TB/s의 메모리 대역폭이 필요합니다. 최근까지 300,000달러 이상의 가격으로 판매되었던 Nvidia의 HGX H100 기반 시스템은 640GB의 HBM3와 약 26.8TB/s의 집계 대역폭만 제공했습니다. 전체 16비트 모델을 실행하려면 이러한 시스템이 최소 2개 이상 필요했을 것입니다.
반대로 Llama 4 Maverick은 동일한 양의 메모리를 소비하지만 유사한 성능을 달성하는 데 1TB/s 미만의 대역폭이 필요합니다. 이는 170억 개의 매개 변수 가치의 모델 전문가만 출력을 생성하는 데 적극적으로 참여하기 때문입니다. 이것은 동일한 하드웨어에서 텍스트 생성 속도가 10배 증가하는 것으로 해석됩니다.
반대로 순수한 성능이 주요 관심사가 아닌 경우 Intel의 최신 Xeons에서 볼 수 있듯이 이러한 모델 중 다수는 저렴하지만 느린 GDDR6, GDDR7 또는 심지어 DDR 메모리에서도 실행할 수 있습니다.
Computex에서 발표된 Nvidia의 새로운 RTX Pro Servers는 이러한 시나리오에 맞게 조정되었습니다. 고급 패키징이 필요한 비싸고 전력 소모적인 HBM에 의존하는 대신 이러한 시스템의 8개의 RTX Pro 6000 GPU 각각에는 최신 게임 카드에서 발견되는 것과 동일한 유형인 96GB의 GDDR7 메모리가 장착되어 있습니다.
이러한 시스템은 최대 768GB의 vRAM과 12.8TB/s의 집계 대역폭을 제공하며, 이는 초당 수백 개의 토큰으로 Llama 4 Maverick을 실행하는 데 충분합니다. Nvidia는 가격을 공개하지 않았지만 이러한 카드의 워크스테이션 버전은 약 8,500달러에 판매되므로 이러한 서버의 가격은 중고 HGX H100 비용의 절반 미만일 수 있습니다.
그러나 MoE는 HBM 스택형 GPU의 끝을 의미하지는 않습니다. Llama 4 Behemoth가 출시된다면, 엄청난 크기로 인해 GPU가 가득 찬 랙이 필요할 것으로 예상됩니다.
Llama 3.1 405B와 활성 매개 변수가 약 절반이지만 총 2조 개의 매개 변수를 자랑합니다. 현재 전체 16비트 모델과 백만 개 이상의 토큰의 컨텍스트 창을 수용할 수 있는 기존의 GPU 서버는 시장에 없습니다.
AI의 CPU 르네상스?
특정 응용 프로그램에 따라 특히 고급 액셀러레이터에 대한 접근이 제한된 지역에서는 GPU가 항상 필요하지 않을 수 있습니다.
Intel은 4월에 8800 MT/s MCRDIMM이 장착된 듀얼 소켓 Xeon 6 플랫폼을 선보였습니다. 이 설정은 Llama 4 Maverick에서 초당 240개의 토큰의 처리량을 달성했으며 토큰당 평균 출력 지연 시간은 100ms 미만이었습니다.
간단히 말해서 Xeon 플랫폼은 약 24명의 동시 사용자에 대해 사용자당 초당 10개 이상의 토큰을 유지할 수 있습니다.
Intel은 실제 시나리오에서 덜 관련성이 있으므로 단일 사용자 성능 수치를 공개하지 않았습니다. 그러나 예상치는 최대 성능이 초당 약 100개의 토큰임을 시사합니다.
그럼에도 불구하고 더 나은 대안이나 특정 요구 사항이 없는 한 CPU 기반 추론의 경제성은 사용 사례에 따라 크게 달라집니다.
가중치 감소: 가지치기 및 양자화
MoE 아키텍처는 큰 모델을 제공하는 데 필요한 메모리 대역폭을 줄일 수 있지만 가중치를 저장하는 데 필요한 메모리 양은 줄이지 않습니다. 8비트 정밀도에서도 Llama 4 Maverick은 활성 매개 변수 수에 관계없이 실행하려면 400GB 이상의 메모리가 필요합니다.
새로운 가지치기 기술과 양자화 방법은 품질을 희생하지 않고도 이 요구 사항을 잠재적으로 절반으로 줄일 수 있습니다.
Nvidia는 가지치기 지지자였으며 중복 가중치가 제거된 Meta의 Llama 3 모델의 가지치기 버전을 출시했습니다.
Nvidia는 또한 2022년에 8비트 부동 소수점 데이터 유형을 지원하고 2024년에 Blackwell 아키텍처 출시와 함께 4비트 부동 소수점을 다시 지원하는 최초의 회사 중 하나였습니다.
엄밀히 말하면 필수적인 것은 아니지만 이러한 데이터 유형에 대한 네이티브 하드웨어 지원은 일반적으로 특히 대규모로 제공할 때 계산 병목 현상이 발생할 가능성을 줄입니다.
Meta, Microsoft 및 Alibaba가 8비트에서 심지어 4비트 양자화 버전의 모델을 제공하면서 더 낮은 정밀도 데이터 유형을 채택하는 모델 개발자가 점점 더 많아지는 것을 목격했습니다.
양자화는 모델 가중치를 기본 정밀도 (일반적으로 BF16)에서 FP8 또는 INT4로 압축하는 것을 포함합니다. 이것은 일부 품질을 희생하면서 모델의 메모리 대역폭과 용량 요구 사항을 절반 또는 심지어 4분의 3으로 줄입니다.
16비트에서 8비트로 전환하는 데 따른 손실은 종종 무시할 수 있으며 DeepSeek을 포함한 여러 모델 빌더가 처음부터 FP8 정밀도로 훈련하기 시작했습니다. 그러나 정밀도를 추가로 4비트 줄이면 품질 저하가 심각할 수 있습니다. 결과적으로 GGUF와 같은 많은 사후 훈련 양자화 접근 방식은 모든 가중치를 동일하게 압축하지 않고 품질 손실을 최소화하기 위해 일부를 더 높은 정밀도 수준으로 유지합니다.
Google은 최근 QAT (양자화 인식 훈련)를 사용하여 Gemma 3 모델을 4배 줄이면서 네이티브 BF16에 가까운 품질 수준을 유지하는 방법을 시연했습니다.
QAT는 훈련 중에 저정밀도 작업을 시뮬레이션합니다. 비 검증 모델에서 이 기술을 약 5,000단계 적용함으로써 Google은 INT4로 변환될 때 양자화 관련 손실을 측정하기 위한 메트릭인 혼란도 감소를 54% 줄일 수 있었습니다.
Bitnet으로 알려진 또 다른 QAT 기반 양자화 접근 방식은 훨씬 더 낮은 정밀도 수준을 목표로 하여 모델을 1.58비트 또는 원래 크기의 약 10분의 1로 압축합니다.
기술의 시너지 효과
MoE와 4비트 양자화의 결합은 특히 대역폭이 제한적인 경우 상당한 이점을 제공합니다.
그러나 대역폭에 제약이 없는 다른 사람들의 경우 MoE 또는 양자화 중 어느 기술이든 더 크고 강력한 모델을 실행하는 데 드는 장비 및 운영 비용을 상당히 낮출 수 있습니다. 이것은 귀중한 서비스를 수행할 수 있다는 가정하에 말입니다.
그렇지 않더라도 혼자가 아니라는 데 위안을 얻을 수 있습니다. 최근 IBM 설문 조사에 따르면 AI 배포의 4분의 1만이 약속된 투자 수익을 제공했습니다.