하드웨어 전략: 스케일 업 및 스케일 아웃
엔비디아의 하드웨어 전략의 핵심은 끊임없이 더욱 강력한 GPU를 추구하는 데 있습니다. 회사는 수직적 스케일링과 수평적 스케일링이라는 두 가지 접근 방식을 채택하고 있습니다. 목표는 단일 랙에 초강력 AI 슈퍼컴퓨터를 개발하는 것뿐만 아니라 상호 연결된 랙 전체의 생태계를 만들어 거대한 AI 슈퍼컴퓨터 단지를 형성하는 것입니다. 이러한 ‘AI 팩토리’ 접근 방식은 가장 까다로운 AI 워크로드에 필요한 컴퓨팅 능력을 제공하도록 설계되었습니다.
최근 GTC 컨퍼런스에서 공개된 새로운 Blackwell Ultra 랙 장착형 AI 슈퍼컴퓨터가 이러한 전략을 잘 보여줍니다. Blackwell Ultra는 훈련 및 테스트 시간 스케일링 추론을 모두 가속화하도록 설계되었으며 기존 Blackwell 아키텍처를 활용하지만 더욱 강력한 GB300 NVL72를 통합합니다. 이 구성은 NVLink를 통해 상호 연결된 72개의 Blackwell Ultra GPU를 특징으로 하며 1.1 Exaflops의 FP4 정밀도 컴퓨팅 성능을 제공합니다. GB300 NVL72는 GB200 NVL72보다 1.5배 더 뛰어난 AI 성능을 자랑합니다. 단일 DGS GB300 시스템은 15 Exaflops의 컴퓨팅 성능을 제공합니다. 2025년 하반기에 출시될 예정인 Blackwell Ultra는 Cisco, Dell, HPE, Lenovo, ASUS, Foxconn, Gigabyte, Pegatron 및 Quanta를 포함한 광범위한 서버 장비 공급업체에서 지원할 예정입니다. 또한 AWS, GCP, Azure와 같은 클라우드 서비스 제공업체는 Blackwell Ultra를 기반으로 컴퓨팅 서비스를 제공할 예정입니다.
이러한 발전소 수준의 AI 팩토리 시스템 외에도 엔비디아는 기업 내 추론 요구 사항을 목표로 하는 새로운 컴퓨터 라인도 출시했습니다. 여기에는 DGX Spark 및 DGX Station 개인 AI 컴퓨터가 포함됩니다. 크기가 Mac mini와 유사한 DGX Spark는 최대 1 PFlops의 컴퓨팅 성능을 제공합니다.
이러한 수치를 체감할 수 있도록 예를 들어보겠습니다. 2021년에 출시된 50,000개 이상의 코어를 갖춘 Taiwania 3 슈퍼컴퓨터는 2.7 PFlops의 성능만을 제공합니다. 불과 4년 만에 데스크톱 크기의 개인 AI 컴퓨터 3대의 컴퓨팅 성능이 Taiwania 3을 넘어섰습니다. 128GB 메모리 구성에 대해 3,999달러(약 NT$130,000)의 가격으로 책정된 이러한 새로운 개인 AI 컴퓨터는 기업 내 미래 내부 AI 요구 사항을 지원하도록 설계되었으며 미니 AI 팩토리 또는 엣지 AI 환경에서 작동할 수도 있습니다.
미래 로드맵: Vera Rubin 및 그 이상
향후 엔비디아의 CEO인 Jensen Huang은 향후 2년간의 제품 로드맵을 발표했습니다. 2026년 하반기에 회사는 암흑 물질을 발견한 미국 천문학자의 이름을 딴 Vera Rubin NVL144를 출시할 계획입니다. Vera Rubin NVL144는 GB300 NVL72보다 3.3배 더 나은 성능을 제공하며 메모리 용량, 대역폭 및 NVLink 속도가 1.6배 이상 증가합니다. 2027년 하반기에 엔비디아는 GB300 NVL72보다 14배 더 나은 성능을 제공하고 NVLink7 및 CX9를 통해 크게 향상된 메모리 용량과 대역폭 속도를 제공하는 Rubin Ultra NVL576을 출시할 예정입니다.
Vera Rubin 아키텍처에 이어 엔비디아의 차세대 아키텍처는 Challenger 우주 왕복선 재해 조사 작업으로 유명한 미국의 저명한 물리학자인 Richard Feynman의 이름을 따서 명명될 예정입니다.
소프트웨어 전략: 엔비디아 Dynamo
엔비디아는 항상 소프트웨어를 강조해 왔으며 하드웨어보다 훨씬 더 중요하다고 생각합니다. 이러한 전략적 초점은 회사의 AI 팩토리 이니셔티브로 확장됩니다.
다양한 도메인으로 CUDA-X AI 가속 라이브러리를 확장하고 특수 가속 라이브러리를 개발하는 것 외에도 엔비디아는 새로운 AI 팩토리 운영체제인 엔비디아 Dynamo를 출시했습니다. 중요한 점은 엔비디아가 이 운영체제를 오픈 소스로 공개했다는 것입니다.
엔비디아 Dynamo는 LLM 추론 서비스를 제공하는 플랫폼을 구축하도록 설계된 오픈 소스 추론 서비스 프레임워크입니다. K8s 환경에 배포할 수 있으며 대규모 AI 추론 작업을 배포하고 관리하는 데 사용할 수 있습니다. 엔비디아는 Dynamo를 NIM 마이크로서비스 프레임워크에 통합하여 엔비디아 AI 엔터프라이즈 프레임워크의 구성 요소로 만들 계획입니다.
Dynamo는 엔비디아의 기존 오픈 소스 추론 서버 플랫폼인 Triton의 차세대 제품입니다. 주요 기능은 LLM 추론 작업을 두 단계로 나누어 GPU를 보다 유연하고 효율적으로 활용하여 추론 처리를 최적화하고 효율성을 개선하며 GPU 활용도를 극대화하는 것입니다. Dynamo는 추론 요구 사항에 따라 GPU를 동적으로 할당하고 GPU 간의 비동기 데이터 전송을 가속화하여 모델 추론 응답 시간을 줄일 수 있습니다.
Transformer 기반 GAI 모델은 추론을 두 단계로 나눕니다. 입력 데이터를 토큰으로 변환하여 저장하는 Prefill(사전 입력)과 이전 토큰을 기반으로 다음 토큰을 생성하는 순차적 프로세스인 Decode입니다.
기존 LLM 추론은 Prefill 및 Decode 작업을 동일한 GPU에 할당합니다. 그러나 이러한 작업의 계산 특성이 다르기 때문에 Dynamo는 GPU 리소스를 할당하고 작업 특성에 따라 할당을 동적으로 조정하면서 이러한 작업을 분할합니다. 이렇게 하면 GPU 클러스터 성능이 최적화됩니다.
엔비디아의 테스트에 따르면 GB200 NVL72에서 6710억 개의 매개변수가 있는 DeepSeek-R1 모델과 함께 Dynamo를 사용하면 추론 성능이 30배 향상될 수 있습니다. Hopper GPU에서 실행되는 Llama 70B의 성능도 두 배 이상 향상될 수 있습니다.
추론 작업은 추론 계산의 복잡한 특성과 다양한 병렬 처리 모델로 인해 관리가 복잡합니다. Huang은 엔비디아가 AI 팩토리에 대한 운영체제를 제공하기 위해 Dynamo 프레임워크를 출시했다고 강조했습니다.
기존 데이터 센터는 VMware와 같은 운영체제를 사용하여 엔터프라이즈 IT 리소스에서 다양한 애플리케이션을 오케스트레이션합니다. AI 에이전트는 미래의 애플리케이션이며 AI 팩토리는 VMware가 아닌 Dynamo가 필요합니다.
Huang이 산업 혁명을 촉발한 엔진인 Dynamo의 이름을 따서 새로운 AI 팩토리 운영체제의 이름을 명명한 것은 플랫폼에 대한 그의 기대와 야망을 드러냅니다.