Nvidia'nın Anlam Kayması: 'GPU' Tanımı Maliyeti Nasıl Artırır?

Merak Uyandıran Bir Düzeltme: Nvidia GPU Sayısını Yeniden Düşünüyor

Yarı iletken inovasyonunun yüksek riskli sahnesinde, Nvidia’nın GPU Teknoloji Konferansı (GTC), geleceği sergilemek için önde gelen bir platform görevi görüyor. En son toplantısında, yapay zeka ve hızlandırılmış bilgi işlemdeki ilerlemelerle ilgili beklenen tantananın ortasında, şirket ince ama potansiyel olarak derin bir değişiklik sundu – bir Grafik İşlem Birimi’ni (GPU) temel olarak nasıl tanımladığına dair bir modifikasyon. Bu sadece teknik bir dipnot değildi; özellikle Nvidia’nın gelişmiş AI çözümlerini dağıtma maliyet yapısıyla ilgili olarak önemli aşağı yönlü etkileri olan bir yeniden ayarlamaydı.

CEO Jensen Huang, değişikliği doğrudan GTC sahnesinden ele alarak, en son Blackwell mimarileriyle ilgili önceki bir gözden kaçırmanın düzeltilmesi olarak çerçeveledi. “Yaptığım hatalardan biri: Blackwell aslında tek bir Blackwell çipinde iki GPU,” dedi. Sunulan gerekçe, özellikle Nvidia’nın yüksek hızlı ara bağlantı teknolojisi olan NVLink ile ilişkili adlandırma kuralları konusunda netlik ve tutarlılığa odaklandı. “O tek çipe bir GPU dedik ve bu yanlıştı. Bunun nedeni, tüm NVLink terminolojisini bozması,” diye detaylandırdı Huang. Model numaralarını basitleştirmek bir dereceye kadar mantıksal düzenlilik sunsa da, bu yeniden tanımlama sadece semantiğin çok ötesinde bir ağırlık taşıyor.

Değişimin özü, fiziksel modülleri (özellikle yüksek performanslı sunucularda yaygın olan SXM form faktörü) bireysel GPU’lar olarak saymaktan, bu modüller içindeki farklı silikon yongaları (die) saymaya geçişte yatıyor. Terminolojideki bu görünüşte küçük ayarlama, Nvidia’nın AI Enterprise yazılım paketinden yararlanan kuruluşlar için finansal manzarayı önemli ölçüde değiştirme potansiyeline sahip.

Finansal Dalgalanma Etkisi: AI Enterprise Lisanslamasında İkiye Katlama mı?

Nvidia’nın AI Enterprise’ı, AI uygulamalarının geliştirilmesini ve dağıtılmasını kolaylaştırmak için tasarlanmış kapsamlı bir yazılım platformudur. Çok çeşitli araçları, çerçeveleri ve kritik olarak, AI modellerini verimli bir şekilde çalıştırmak için optimize edilmiş konteynerler olan Nvidia Inference Microservices’e (NIMs) erişimi kapsar. Bu güçlü paketin lisanslama modeli, tarihsel olarak dağıtılan GPU sayısına doğrudan bağlı olmuştur. Mevcut fiyatlandırma yapıları, maliyeti yıllık GPU başına yaklaşık 4.500 $ veya bulut tabanlı bir oranla GPU başına saatlik 1 $ olarak belirlemektedir.

Önceki nesli veya belirli Blackwell yapılandırmalarını düşünün. Sekiz SXM modülüyle donatılmış bir Nvidia HGX B200 sunucusu, her modülün o zamanlar tek bir Blackwell GPU olarak kabul edilen birimi barındırdığı durumda, sekiz AI Enterprise lisansı gerektirecekti. Bu, yıllık 36.000 $ (8 GPU * 4.500 $/GPU) yazılım abonelik maliyetine veya saatlik 8 $ (8 GPU * 1 $/GPU/saat) bulut maliyetine dönüşüyordu.

Şimdi, HGX B300 NVL16 gibi sistemlerle yeni tanımlanan manzaraya girin. Bu sistem ayrıca sekiz fiziksel SXM modülüne sahiptir. Ancak, revize edilmiş tanım altında, Nvidia şimdi bu modüller içindeki her bir silikon yongayı ayrı bir GPU olarak sayıyor. Bu özel yapılandırmadaki her modül iki yonga içerdiğinden, lisanslama amacıyla toplam GPU sayısı etkili bir şekilde 16 GPU‘ya (8 modül * 2 yonga/modül) iki katına çıkıyor.

Nvidia’nın AI Enterprise paketi için mevcut GPU başına fiyatlandırma yapısını sürdürdüğünü varsayarsak – şirketin henüz kesinleşmediğini belirttiği bir nokta – sonuçlar çarpıcıdır. Aynı sekiz modüllü HGX B300 sistemi şimdi potansiyel olarak 16 lisans gerektirecek ve yıllık yazılım maliyetini 72.000 $‘a (16 GPU * 4.500 $/GPU) veya bulutta saatlik 16 $‘a fırlatacaktır. Bu, görünüşte karşılaştırılabilir donanım yoğunluğu için yazılım abonelik maliyetinde %100’lük bir artışı temsil ediyor ve doğrudan bir “GPU”nun nasıl sayıldığına dair değişiklikten kaynaklanıyor.

İki Mimarinin Hikayesi: Geçmiş Açıklamaları Uzlaştırmak

Terminolojideki bu değişim, Nvidia’nın Blackwell mimarisine ilişkin önceki karakterizasyonlarıyla ilginç bir tezat oluşturuyor. Blackwell ilk tanıtıldığında, tek bir işlemci paketi içinde birbirine bağlı birden fazla silikon parçasını (yonga) içeren tasarımıyla ilgili tartışmalar ortaya çıktı. O zamanlar Nvidia, Blackwell’i “chiplet” mimarisi terimiyle – birden fazla küçük, birbirine bağlı yonga kullanan tasarımlar için yaygın bir endüstri terimi – tanımlamaya aktif olarak karşı çıktı. Bunun yerine, şirket farklı bir bakış açısını vurguladı.

Blackwell lansmanı kapsamı sırasında bildirildiği gibi, Nvidia, “birleşik, tek bir GPU** olarak işlev gören iki retikül sınırlı yonga mimarisi” kullandığını savundu. Bu ifade, iki yonganın fiziksel varlığına rağmen, mantıksal olarak tek bir işlem birimi olarak uyumlu bir şekilde çalıştıklarını güçlü bir şekilde ima ediyordu. B300 yapılandırmasına uygulanan yeni sayım yöntemi, en azından yazılım lisanslama açısından, bu “birleşik, tek GPU” konseptinden uzaklaşıyor gibi görünüyor ve yongaları farklı varlıklar olarak ele alıyor. Bu durum, ilk açıklamanın öncelikle donanımın işlevsel potansiyeline mi odaklandığı yoksa lisanslama konusundaki stratejik bakış açısının mı geliştiği konusunda soruları gündeme getiriyor.

Performans Kazançları vs. Potansiyel Maliyet Artışları: B300 Teklifini Değerlendirmek

HGX B300 için potansiyel olarak iki katına çıkan yazılım lisanslama ücretlerini, B200 gibi öncekilerle karşılaştırırken, daha yeni donanımın sunduğu performans iyileştirmelerini incelemek çok önemlidir. B300, potansiyel olarak iki katına çıkan yazılım maliyetlerini haklı çıkarmak için iki kat AI işlem gücü sunuyor mu? Özellikler daha incelikli bir tablo çiziyor.

HGX B300 iyileştirmeler sunuyor:

  • Artırılmış Bellek Kapasitesi: Sistem başına yaklaşık 2.3 Terabayt yüksek bant genişliğine sahip bellek (HBM) sunar, bu da B200’de bulunan 1.5 TB’a kıyasla yaklaşık 1.5 katlık önemli bir artıştır. Bu, daha büyük AI modellerini ve veri kümelerini işlemek için kritik öneme sahiptir.
  • Geliştirilmiş Düşük Hassasiyet Performansı: B300, 4-bit kayan nokta (FP4) hassasiyeti kullanan hesaplamalar için performansta dikkate değer bir artış gösterir. FP4 verimi, sistem başına 105 yoğun petaFLOPS‘un biraz üzerine çıkarak B200’e göre kabaca %50’lik bir artış sağlar. Bu hızlanma, özellikle daha düşük hassasiyetin kabul edilebilir olduğu belirli AI çıkarım görevleri için faydalıdır.

Ancak, performans avantajı tüm iş yüklerinde evrensel değildir. Kritik olarak, daha yüksek hassasiyetli kayan nokta aritmetiği (FP8, FP16 veya FP32 gibi) gerektiren görevler için B300, eski B200 sistemine göre önemli bir kayan nokta işlemi avantajı sunmaz. Birçok karmaşık AI eğitimi ve bilimsel hesaplama görevi, büyük ölçüde bu daha yüksek hassasiyetli formatlara dayanır.

Bu nedenle, B300’ü değerlendiren kuruluşlar karmaşık bir hesaplamayla karşı karşıyadır. Önemli bellek kapasitesi ve FP4 performansında bir artış elde ederler, ancak AI Enterprise yazılım maliyetlerinin potansiyel olarak iki katına çıkması, belirli, daha yüksek hassasiyetli iş yükleri için buna karşılık gelen bir performans artışıyla eşleşmeyebilir. Değer önerisi, çalıştırılan AI görevlerinin doğasına oldukça bağımlı hale gelir.

Teknik Gerekçe: Ara Bağlantılar ve Bağımsızlık

İlginç bir şekilde, bu yeni yonga sayma metodolojisi, GTC’de duyurulan tüm yeni Blackwell tabanlı sistemlere evrensel olarak uygulanmıyor. Örneğin, daha güçlü, sıvı soğutmalı GB300 NVL72 sistemleri, eski kurala uymaya devam ediyor ve tüm paketi (iki yonga içeren) lisanslama amacıyla tek bir GPU olarak sayıyor. Bu farklılık şu soruyu akla getiriyor: Neden fark var?

Nvidia, GPU paketlerinin içindeki ara bağlantı teknolojisine dayanan teknik bir gerekçe sunuyor. Nvidia’nın Hiper Ölçek ve HPC Başkan Yardımcısı ve Genel Müdürü Ian Buck’a göre, ayrım, paket içindeki iki yongayı doğrudan birbirine bağlayan kritik bir çipten çipe (C2C) ara bağlantının varlığına veya yokluğuna dayanıyor.

  • HGX B300 Yapılandırması: Hava soğutmalı HGX B300 sistemlerinde kullanılan özel Blackwell paketleri, bu doğrudan C2C ara bağlantısından yoksundur. Buck’ın açıkladığı gibi, bu tasarım seçimi, hava soğutmalı kasa kısıtlamaları dahilinde güç tüketimini ve termal yönetimi optimize etmek için yapıldı. Ancak bunun sonucu, tek bir B300 modülündeki iki yonganın daha büyük bir bağımsızlık derecesiyle çalışmasıdır. Bir yonga, aynı modüldeki diğer yongaya fiziksel olarak bağlı yüksek bant genişliğine sahip bellekte depolanan verilere erişmesi gerektiğinde, bunu doğrudan yapamaz. Bunun yerine, veri talebi paketin dışına çıkmalı, harici NVLink ağını (muhtemelen sunucu anakartındaki bir NVLink anahtar çipi aracılığıyla) geçmeli ve ardından diğer yonganın bellek denetleyicisine geri yönlendirilmelidir. Bu dolambaçlı yol, bunların ortak bir paketi paylaşan ancak tam bellek paylaşımı için harici iletişim yolları gerektiren iki işlevsel olarak farklı işlem birimi olduğu fikrini pekiştirir. Nvidia, bu ayrımın onları iki ayrı GPU olarak saymayı haklı çıkardığını savunuyor.

  • GB300 NVL72 Yapılandırması: Buna karşılık, daha üst düzey GB300 sistemlerinde kullanılan “Superchip” paketleri, yüksek hızlı C2C ara bağlantısını korur. Bu doğrudan bağlantı, paket içindeki iki yonganın, NVLink anahtarı aracılığıyla paket dışı dolambaçlı yola gerek kalmadan çok daha verimli ve doğrudan iletişim kurmasını ve bellek kaynaklarını paylaşmasını sağlar. Daha uyumlu bir şekilde çalışabildikleri ve belleği sorunsuz bir şekilde paylaşabildikleri için, yazılım ve lisanslama açısından, Blackwell mimarisinin ilk “birleşik” tanımıyla uyumlu olarak tek, birleşik bir GPU olarak ele alınırlar.

Bu teknik ayrım, farklı sayma yöntemleri için mantıksal bir temel sağlar. B300’ün yongaları, C2C bağlantısının olmaması nedeniyle işlevsel olarak daha ayrıdır ve iki GPU sayımına güvenilirlik katar. GB300’ün yongaları sıkı bir şekilde bağlıdır ve tek GPU sayımını destekler.

Geleceğe Bakış: Vera Rubin Öncülük Ediyor

GB300 şu anda bir istisna teşkil etse de, B300 için benimsenen yonga sayma yaklaşımı, Nvidia’nın gelecekteki yöneliminin göstergesi gibi görünüyor. Şirket, daha ileride piyasaya sürülmesi planlanan Vera Rubin kod adlı yeni nesil platformunun bu yeni terminolojiyi tamamen benimseyeceğinin sinyallerini şimdiden verdi.

Adlandırma kuralının kendisi bir ipucu sunuyor. Rubin mimarisine dayalı sistemler, NVL144 gibi yüksek sayılarla belirtiliyor. Bu atama, modüller yerine bireysel yongaların sayıldığını güçlü bir şekilde ima ediyor. B300 mantığını takiben, bir NVL144 sistemi muhtemelen belirli sayıda modülden oluşacak, her biri birden fazla yonga içerecek ve lisanslama ve spesifikasyon amaçları için toplamda 144 sayılabilir GPU yongasına ulaşacaktır.

Bu eğilim, Nvidia’nın 2027 sonları için Vera Rubin Ultra platformu yol haritasında daha da belirgindir. Bu platform, raf başına şaşırtıcı bir şekilde 576 GPU sunuyor. Daha önce analiz edildiği gibi, bu etkileyici sayı, bir rafa 576 ayrı fiziksel modül sığdırılarak elde edilmiyor. Bunun yerine, çarpımsal olarak uygulanan yeni sayma paradigmasını yansıtıyor. Mimari muhtemelen raf başına 144 fiziksel modül içeriyor, ancak her modül dört ayrı silikon yonga içeriyor. Böylece, modül başına 4 yonga ile çarpılan 144 modül, manşet rakamı olan 576 “GPU”yu veriyor.

Bu ileriye dönük bakış açısı, B300’ün yonga sayma yönteminin yalnızca belirli hava soğutmalı sistemler için geçici bir ayarlama olmadığını, aksine Nvidia’nın gelecek nesillerde GPU kaynaklarını nasıl ölçmeyi planladığının temel ilkesi olduğunu gösteriyor. Nvidia’nın ekosistemine yatırım yapan müşterilerin, bu değişimin standart haline gelmesini beklemesi gerekiyor.

Konuşulmayan Faktör: Yazılım Gelir Akışlarını Maksimize Etmek mi?

C2C ara bağlantısıyla ilgili teknik açıklama, B300’ün farklı GPU sayımı için bir gerekçe sunsa da, zamanlama ve önemli finansal etkiler kaçınılmaz olarak altta yatan iş motivasyonları hakkında spekülasyonlara yol açıyor. Başlangıçta bir terminoloji “hatasının” düzeltilmesi olarak sunulan bu yeniden tanımlama, aynı zamanda yinelenen yazılım gelirini artırmak için stratejik bir kaldıraç görevi görebilir mi?

Blackwell’in “birleşik, tek GPU” mesajıyla ilk kez detaylandırılmasından bu yana geçen yılda, Nvidia’nın önemli bir gelir fırsatının kullanılmadığını fark etmiş olması muhtemeldir. AI Enterprise paketi, Nvidia’nın işinin büyüyen ve yüksek marjlı bir bileşenini temsil etmektedir. Lisanslamasını fiziksel modüller yerine silikon yonga sayısına doğrudan bağlamak, özellikle Vera Rubin Ultra gibi gelecekteki mimarilerde modül başına yonga sayısı potansiyel olarak arttıkça, her donanım dağıtımından elde edilen yazılım gelirini önemli ölçüde artırma yolu sunar.

GPU tanımındaki bu değişikliğin yeni B300 sistemleri için AI Enterprise lisanslama maliyetlerini özellikle nasıl etkileyeceği sorulduğunda, Nvidia bir dereceye kadar belirsizliğini korudu. Bir şirket sözcüsü, finansal detayların hala değerlendirilmekte olduğunu iletti. Sözcü, “B300 için fiyatlandırma detayları hala kesinleşiyor ve Rubin hakkında GTC açılış konuşmasında gösterilenlerin ötesinde paylaşılacak bir detay yok,” diyerek, bunun bu platformlardaki AI Enterprise için fiyatlandırma yapısını da içerdiğini açıkça teyit etti.

Bu kesinleşmemiş fiyatlandırma, belirli donanım yapılandırmalarında sayılabilir GPU’ların iki katına çıkmasıyla birleştiğinde, gelecekteki AI altyapı yatırımlarını planlayan müşteriler için belirsizlik yaratıyor. Teknik gerekçeler mevcut olsa da, yazılım abonelik maliyetlerinde önemli bir artış potansiyeli büyük görünüyor. Bu değişim, yarı iletken değer zincirinde yazılımın artan önemini ve Nvidia’nın lisanslama metriklerini temel silikon karmaşıklığıyla daha yakından hizalayarak kapsamlı AI platformundan daha etkili bir şekilde para kazanma stratejisini vurgulamaktadır. Kuruluşlar yeni nesil AI sistemleri için bütçe yaparken, bir “GPU”nun tanımı aniden kritik ve potansiyel olarak çok daha pahalı bir değişken haline geldi.