Nvidia의 의미론적 변화: 'GPU' 재정의가 AI 비용을 높일까?

흥미로운 수정: Nvidia, GPU 수 계산 방식 재고

반도체 혁신의 치열한 경쟁 속에서 Nvidia의 GPU Technology Conference (GTC)는 미래를 공개하는 최고의 무대 역할을 합니다. 가장 최근 행사에서는 인공 지능 및 가속 컴퓨팅 발전과 관련된 예상된 열광 속에서, 회사는 미묘하지만 잠재적으로 심오한 변화를 도입했습니다. 바로 그래픽 처리 장치(GPU)를 근본적으로 정의하는 방식을 수정한 것입니다. 이는 단순한 기술적 각주가 아니었습니다. 특히 Nvidia의 고급 AI 솔루션 배포 비용 구조와 관련하여 상당한 파급 효과를 가져올 수 있는 재조정이었습니다.

CEO Jensen Huang은 GTC 무대에서 직접 이 변화를 언급하며, 최첨단 Blackwell 아키텍처에 대한 이전의 감독을 바로잡는 것이라고 설명했습니다. “제가 실수한 것 중 하나는 Blackwell이 실제로는 하나의 Blackwell 칩 안에 두 개의 GPU라는 점입니다.”라고 그는 말했습니다. 제시된 근거는 명확성과 일관성, 특히 Nvidia의 고속 상호 연결 기술인 NVLink와 관련된 명명 규칙에 초점을 맞췄습니다. “우리는 그 칩 하나를 GPU라고 불렀는데 그건 잘못된 것이었습니다. 그 이유는 모든 NVLink 명명법을 망가뜨리기 때문입니다.”라고 Huang은 자세히 설명했습니다. 모델 번호를 단순화하는 것이 어느 정도 논리적인 깔끔함을 제공하지만, 이 재정의는 단순한 의미론을 훨씬 뛰어넘는 무게를 지닙니다.

이 변화의 핵심은 물리적 모듈(특히 고성능 서버에서 흔히 사용되는 SXM 폼 팩터)을 개별 GPU로 계산하는 방식에서 해당 모듈 내의 개별 실리콘 *다이(die)*를 계산하는 방식으로 전환하는 데 있습니다. 용어상의 이 사소해 보이는 조정은 Nvidia의 AI Enterprise 소프트웨어 제품군을 활용하는 조직의 재정 환경을 극적으로 바꿀 가능성이 있습니다.

재정적 파급 효과: AI Enterprise 라이선싱 비용 두 배 증가?

Nvidia의 AI Enterprise는 AI 애플리케이션의 개발 및 배포를 간소화하도록 설계된 포괄적인 소프트웨어 플랫폼입니다. 여기에는 광범위한 도구, 프레임워크, 그리고 결정적으로 AI 모델을 효율적으로 실행하기 위한 최적화된 컨테이너인 Nvidia Inference Microservices (NIMs)에 대한 액세스가 포함됩니다. 이 강력한 제품군의 라이선스 모델은 역사적으로 배포된 GPU 수와 직접적으로 연결되어 왔습니다. 현재 가격 구조는 연간 GPU당 약 $4,500 또는 클라우드 기반 요금으로 GPU당 시간당 $1입니다.

이전 세대 또는 특정 Blackwell 구성을 고려해 봅시다. 8개의 SXM 모듈이 장착된 Nvidia HGX B200 서버는 각 모듈에 당시 단일 Blackwell GPU로 간주되던 것이 탑재되어 8개의 AI Enterprise 라이선스가 필요했습니다. 이는 연간 소프트웨어 구독 비용 $36,000 (GPU 8개 * GPU당 $4,500) 또는 시간당 클라우드 비용 $8 (GPU 8개 * 시간당 GPU당 $1)로 해석되었습니다.

이제 HGX B300 NVL16과 같은 시스템으로 새롭게 정의된 환경을 살펴봅시다. 이 시스템 역시 8개의 물리적 SXM 모듈을 갖추고 있습니다. 그러나 수정된 정의에 따라 Nvidia는 이제 이 모듈 내의 각 실리콘 다이를 개별 GPU로 계산합니다. 이 특정 구성의 각 모듈에는 두 개의 다이가 포함되어 있으므로 라이선스 목적상의 총 GPU 수는 사실상 16개 GPU (모듈 8개 * 모듈당 다이 2개)로 두 배가 됩니다.

Nvidia가 AI Enterprise 제품군에 대해 기존의 GPU당 가격 구조를 유지한다고 가정하면(회사는 아직 확정되지 않았다고 밝힌 부분), 그 영향은 극명합니다. 동일한 8개 모듈 HGX B300 시스템은 이제 잠재적으로 16개의 라이선스가 필요하게 되어 연간 소프트웨어 비용이 $72,000 (GPU 16개 * GPU당 $4,500) 또는 클라우드에서 시간당 $16로 급증합니다. 이는 “GPU”를 계산하는 방식의 변화로 인해 외견상 비슷한 하드웨어 밀도에 대해 소프트웨어 구독 비용이 100% 증가함을 나타냅니다.

두 아키텍처 이야기: 과거 발언과의 조화

이 명명법의 변화는 Nvidia가 이전에 Blackwell 아키텍처를 특징지었던 방식과 흥미로운 대조를 이룹니다. Blackwell이 처음 공개되었을 때, 단일 프로세서 패키지 내에 여러 개의 실리콘 조각(다이)이 연결된 설계에 대한 논의가 있었습니다. 당시 Nvidia는 Blackwell을 “칩렛(chiplet)” 아키텍처(여러 개의 작고 상호 연결된 다이를 사용하는 설계를 지칭하는 일반적인 업계 용어)라는 용어로 설명하는 것에 적극적으로 반박했습니다. 대신 회사는 다른 관점을 강조했습니다.

Blackwell 출시 보도에서 보고된 바와 같이, Nvidia는 “하나의 통합된 단일 GPU로 작동하는 2-레티클 제한 다이 아키텍처”를 사용한다고 주장했습니다. 이 표현은 물리적으로 두 개의 다이가 존재함에도 불구하고 하나의 논리적 처리 장치로서 응집력 있게 작동한다는 것을 강력하게 시사했습니다. B300 구성에 적용된 새로운 계산 방식은 적어도 소프트웨어 라이선스 관점에서는 이러한 “통합된 단일 GPU” 개념에서 벗어나 다이를 별개의 개체로 취급하는 것으로 보입니다. 이는 초기 설명이 주로 하드웨어의 기능적 잠재력에 초점을 맞춘 것인지, 아니면 라이선스에 대한 전략적 관점이 진화한 것인지에 대한 의문을 제기합니다.

성능 향상 대 잠재적 비용 상승: B300 제안 평가

HGX B300의 잠재적인 소프트웨어 라이선스 비용이 B200과 같은 이전 모델에 비해 두 배가 될 가능성을 고려할 때, 최신 하드웨어가 제공하는 성능 향상을 검토하는 것이 중요합니다. B300은 잠재적인 소프트웨어 비용 두 배 증가를 정당화할 만큼 두 배의 AI 처리 능력을 제공할까요? 사양은 더 미묘한 그림을 제시합니다.

HGX B300은 개선 사항을 자랑합니다:

  • 메모리 용량 증가: 시스템당 약 **2.3 테라바이트(TB)**의 고대역폭 메모리(HBM)를 제공하며, 이는 B200에서 사용 가능한 1.5TB에 비해 약 1.5배 증가한 상당한 도약입니다. 이는 더 큰 AI 모델과 데이터 세트를 처리하는 데 중요합니다.
  • 향상된 저정밀도 성능: B300은 4비트 부동 소수점(FP4) 정밀도를 사용하는 계산에서 눈에 띄는 성능 향상을 보여줍니다. FP4 처리량은 시스템당 **105 페타플롭스(petaFLOPS)**를 약간 넘어서며, 이는 B200보다 약 50% 증가한 수치입니다. 이 가속화는 낮은 정밀도가 허용되는 특정 AI 추론 작업에 특히 유용합니다.

그러나 성능 이점은 모든 워크로드에서 보편적이지 않습니다. 결정적으로, 더 높은 정밀도의 부동 소수점 연산(예: FP8, FP16 또는 FP32)이 필요한 작업의 경우, B300은 이전 B200 시스템에 비해 상당한 부동 소수점 연산 이점을 제공하지 않습니다. 많은 복잡한 AI 훈련 및 과학 컴퓨팅 작업은 이러한 고정밀 형식에 크게 의존합니다.

따라서 B300을 평가하는 조직은 복잡한 계산에 직면합니다. 상당한 메모리 용량과 FP4 성능 향상을 얻지만, AI Enterprise 소프트웨어 비용의 잠재적인 두 배 증가는 특정 고정밀 워크로드에 대한 성능 두 배 증가와 일치하지 않을 수 있습니다. 가치 제안은 실행되는 AI 작업의 성격에 따라 크게 달라집니다.

기술적 정당화: 상호 연결과 독립성

흥미롭게도 이 새로운 다이 계산 방법론은 GTC에서 발표된 모든 새로운 Blackwell 기반 시스템에 보편적으로 적용되지는 않습니다. 예를 들어, 더 강력한 수냉식 GB300 NVL72 시스템은 계속해서 이전 관례를 따르며, 전체 패키지(두 개의 다이 포함)를 라이선스 목적상 단일 GPU로 계산합니다. 이러한 차이는 의문을 제기합니다: 왜 차이가 나는가?

Nvidia는 GPU 패키지 자체 내의 상호 연결 기술에 기반한 기술적 근거를 제공합니다. Nvidia의 하이퍼스케일 및 HPC 담당 부사장 겸 총괄 관리자인 Ian Buck에 따르면, 그 차이는 패키지 내 두 다이를 직접 연결하는 중요한 칩-투-칩(C2C) 상호 연결의 유무에 있습니다.

  • HGX B300 구성: 공랭식 HGX B300 시스템에 사용되는 특정 Blackwell 패키지에는 이 직접적인 C2C 상호 연결이 없습니다. Buck이 설명했듯이, 이 설계 선택은 공랭식 섀시 제약 내에서 전력 소비와 열 관리를 최적화하기 위해 이루어졌습니다. 그러나 그 결과, 단일 B300 모듈의 두 다이는 더 높은 수준의 독립성으로 작동합니다. 한 다이가 동일한 모듈의 다른 다이에 물리적으로 연결된 고대역폭 메모리에 저장된 데이터에 액세스해야 하는 경우 직접 수행할 수 없습니다. 대신, 데이터 요청은 패키지 외부로 나가 외부 NVLink 네트워크(아마도 서버 마더보드의 NVLink 스위치 칩을 통해)를 통과한 다음 다른 다이의 메모리 컨트롤러로 다시 라우팅되어야 합니다. 이 우회 경로는 이들이 공통 패키지를 공유하지만 전체 메모리 공유를 위해 외부 통신 경로가 필요한 기능적으로 구별되는 두 개의 처리 장치라는 개념을 강화합니다. Nvidia는 이러한 분리가 이들을 두 개의 별개 GPU로 계산하는 것을 정당화한다고 주장합니다.

  • GB300 NVL72 구성: 반대로, 고급 GB300 시스템에 사용되는 “Superchip” 패키지는 고속 C2C 상호 연결을 유지합니다. 이 직접 링크를 통해 패키지 내 두 다이는 NVLink 스위치를 통한 패키지 외부 우회 없이 훨씬 더 효율적이고 직접적으로 통신하고 메모리 리소스를 공유할 수 있습니다. 더 응집력 있게 작동하고 메모리를 원활하게 공유할 수 있기 때문에 소프트웨어 및 라이선스 관점에서는 Blackwell 아키텍처의 초기 “통합된” 설명과 일치하는 단일 통합 GPU로 취급됩니다.

이 기술적 구별은 서로 다른 계산 방법에대한 논리적 근거를 제공합니다. B300의 다이는 C2C 링크 부족으로 인해 기능적으로 더 분리되어 있어 2-GPU 계산에 신빙성을 더합니다. GB300의 다이는 긴밀하게 결합되어 단일 GPU 계산을 지원합니다.

미래 엿보기: Vera Rubin이 선례를 세우다

GB300이 현재 예외를 나타내지만, B300에 채택된 다이 계산 접근 방식은 Nvidia의 미래 방향을 나타내는 것으로 보입니다. 회사는 이미 차세대 플랫폼인 Vera Rubin(코드명, 향후 출시 예정)이 이 새로운 명명법을 완전히 수용할 것이라고 예고했습니다.

명명 규칙 자체가 단서를 제공합니다. Rubin 아키텍처 기반 시스템은 NVL144와 같은 높은 숫자로 지정되고 있습니다. 이 지정은 모듈이 아닌 개별 다이를 계산함을 강력하게 시사합니다. B300 논리를 따르면, NVL144 시스템은 특정 수의 모듈로 구성될 가능성이 높으며, 각 모듈에는 여러 개의 다이가 포함되어 라이선스 및 사양 목적상 총 144개의 계산 가능한 GPU 다이가 됩니다.

이러한 추세는 2027년 후반 Vera Rubin Ultra 플랫폼에 대한 Nvidia의 로드맵에서 더욱 두드러집니다. 이 플랫폼은 랙당 무려 576개의 GPU를 자랑합니다. 이전에 분석했듯이, 이 인상적인 숫자는 랙에 576개의 개별 물리적 모듈을 채워 넣음으로써 달성되는 것이 아닙니다. 대신, 새로운 계산 패러다임이 곱셈적으로 적용된 것을 반영합니다. 이 아키텍처는 랙당 144개의 물리적 모듈을 포함할 가능성이 높지만, 각 모듈에는 4개의 개별 실리콘 다이가 포함됩니다. 따라서 144개 모듈에 모듈당 4개의 다이를 곱하면 헤드라인 수치인 576개의 “GPU”가 산출됩니다.

이러한 미래 지향적 관점은 B300의 다이 계산 방식이 특정 공랭식 시스템을 위한 일시적인 조정이 아니라, Nvidia가 미래 세대에서 GPU 리소스를 정량화하려는 방식의 기본 원칙임을 시사합니다. Nvidia 생태계에 투자하는 고객은 이러한 변화가 표준이 될 것으로 예상해야 합니다.

언급되지 않은 요인: 소프트웨어 수익 흐름 극대화?

C2C 상호 연결에 관한 기술적 설명이 B300의 별개 GPU 계산에 대한 근거를 제공하지만, 시기와 상당한 재정적 영향은 필연적으로 근본적인 비즈니스 동기에 대한 추측으로 이어집니다. 처음에 명명법 “실수”의 수정으로 제시된 이 재정의가 반복적인 소프트웨어 수익을 향상시키기 위한 전략적 수단으로도 작용할 수 있을까요?

Blackwell이 “통합된 단일 GPU” 메시지와 함께 처음 상세히 설명된 이후 1년 동안, Nvidia가 상당한 수익 기회를 놓치고 있다는 것을 인식했을 가능성이 있습니다. AI Enterprise 제품군은 Nvidia 비즈니스에서 성장하고 있으며 마진이 높은 구성 요소입니다. 라이선스를 물리적 모듈이 아닌 실리콘 다이 수와 직접 연결하면, 특히 Vera Rubin Ultra와 같은 미래 아키텍처에서 모듈당 다이 수가 잠재적으로 증가함에 따라 각 하드웨어 배포에서 파생되는 소프트웨어 수익을 크게 늘릴 수 있는 경로를 제공합니다.

GPU 정의 변경이 새로운 B300 시스템의 AI Enterprise 라이선스 비용에 구체적으로 어떤 영향을 미칠지에 대한 질문에 Nvidia는 어느 정도 모호함을 유지했습니다. 회사 대변인은 재정적 세부 사항이 아직 고려 중이라고 전했습니다. “B300의 가격 세부 정보는 아직 최종 확정 중이며, 현 시점에서 GTC 기조연설에서 보여준 것 외에 Rubin에 대해 공유할 세부 정보는 없습니다.”라고 대변인은 말하며, 이것이 해당 플랫폼의 AI Enterprise 가격 구조를 포함한다는 것을 명시적으로 확인했습니다.

특정 하드웨어 구성에서 계산 가능한 GPU 수가 두 배로 증가하는 것과 결합된 이러한 확정되지 않은 가격 책정은 미래 AI 인프라 투자를 계획하는 고객에게 불확실성을 야기합니다. 기술적 정당성은 존재하지만, 소프트웨어 구독 비용이 상당히 증가할 가능성이 크게 대두됩니다. 이러한 변화는 반도체 가치 사슬에서 소프트웨어의 중요성이 커지고 있으며, 라이선스 지표를 기본 실리콘 복잡성과 더 밀접하게 연계하여 포괄적인 AI 플랫폼을 보다 효과적으로 수익화하려는 Nvidia의 명백한 전략을 강조합니다. 조직이 차세대 AI 시스템 예산을 책정함에 따라 “GPU”의 정의는 갑자기 중요하고 잠재적으로 훨씬 더 비싼 변수가 되었습니다.