Ciekawa korekta: Nvidia rewiduje liczbę swoich GPU
W teatrze innowacji półprzewodnikowych, gdzie stawki są wysokie, konferencja GPU Technology Conference (GTC) firmy Nvidia służy jako główna scena do odsłaniania przyszłości. Podczas ostatniego spotkania, pośród oczekiwanych fanfar wokół postępów w dziedzinie sztucznej inteligencji i obliczeń akcelerowanych, firma wprowadziła subtelną, ale potencjalnie głęboką zmianę – modyfikację sposobu, w jaki fundamentalnie definiuje procesor graficzny (GPU). Nie była to jedynie techniczna adnotacja; była to rekalibracja o znaczących konsekwencjach w dół strumienia, szczególnie dotyczących struktury kosztów wdrażania zaawansowanych rozwiązań AI firmy Nvidia.
Sam CEO Jensen Huang odniósł się do zmiany bezpośrednio ze sceny GTC, przedstawiając ją jako korektę poprzedniego niedopatrzenia dotyczącego ich najnowocześniejszej architektury Blackwell. ‘Jedną z rzeczy, w których popełniłem błąd: Blackwell to tak naprawdę dwa GPU w jednym chipie Blackwell’, stwierdził. Przedstawione uzasadnienie koncentrowało się na jasności i spójności, szczególnie w odniesieniu do konwencji nazewnictwa związanych z NVLink, technologią szybkiego połączenia firmy Nvidia. ‘Nazwaliśmy ten jeden chip GPU i to było błędne. Powodem tego jest to, że psuje to całą nomenklaturę NVLink’, wyjaśnił Huang. Chociaż uproszczenie numerów modeli oferuje pewien stopień logicznego porządku, ta redefinicja ma wagę znacznie wykraczającą poza zwykłą semantykę.
Istota zmiany polega na przejściu od liczenia fizycznych modułów (w szczególności formatu SXM powszechnego w serwerach o wysokiej wydajności) jako pojedynczych GPU do liczenia odrębnych matryc krzemowych w tych modułach. Ta pozornie niewielka korekta terminologii ma potencjał do dramatycznej zmiany krajobrazu finansowego dla organizacji wykorzystujących pakiet oprogramowania Nvidia AI Enterprise.
Finansowy efekt domina: Podwojenie kosztów licencji AI Enterprise?
Nvidia AI Enterprise to kompleksowa platforma oprogramowania zaprojektowana w celu usprawnienia rozwoju i wdrażania aplikacji AI. Obejmuje szeroką gamę narzędzi, frameworków i, co kluczowe, dostęp do Nvidia Inference Microservices (NIMs), które są zoptymalizowanymi kontenerami do wydajnego uruchamiania modeli AI. Model licencjonowania tego potężnego pakietu był historycznie bezpośrednio powiązany z liczbą wdrożonych GPU. Obecne struktury cenowe ustalają koszt na około 4500 USD za GPU rocznie lub stawkę chmurową 1 USD za GPU za godzinę.
Rozważmy poprzednią generację lub niektóre konfiguracje Blackwell. Serwer Nvidia HGX B200, wyposażony w osiem modułów SXM, gdzie każdy moduł zawierał to, co wówczas uważano za pojedynczy GPU Blackwell, wymagałby ośmiu licencji AI Enterprise. Przekładało się to na roczny koszt subskrypcji oprogramowania w wysokości 36 000 USD (8 GPU * 4500 USD/GPU) lub godzinowy koszt w chmurze w wysokości 8 USD (8 GPU * 1 USD/GPU/godzinę).
Teraz wejdźmy w nowo zdefiniowany krajobraz z systemami takimi jak HGX B300 NVL16. Ten system również zawiera osiem fizycznych modułów SXM. Jednak zgodnie ze zmienioną definicją, Nvidia liczy teraz każdą matrycę krzemową w tych modułach jako indywidualny GPU. Ponieważ każdy moduł w tej konkretnej konfiguracji zawiera dwie matryce, całkowita liczba GPU do celów licencyjnych skutecznie podwaja się do 16 GPU (8 modułów * 2 matryce/moduł).
Zakładając, że Nvidia utrzyma swoją istniejącą strukturę cenową za GPU dla pakietu AI Enterprise – co firma stwierdziła, że nie jest jeszcze sfinalizowane – implikacje są wyraźne. Ten sam ośmiomodułowy system HGX B300 potencjalnie wymagałby teraz 16 licencji, katapultując roczny koszt oprogramowania do 72 000 USD (16 GPU * 4500 USD/GPU) lub 16 USD za godzinę w chmurze. Stanowi to 100% wzrost kosztów subskrypcji oprogramowania dla pozornie porównywalnej gęstości sprzętowej, wynikający bezpośrednio ze zmiany sposobu liczenia ‘GPU’.
Opowieść o dwóch architekturach: Uzgadnianie przeszłych oświadczeń
Ta zmiana nomenklatury stanowi interesujący kontrast w stosunku do poprzednich charakterystyk architektury Blackwell przez Nvidię. Kiedy Blackwell został początkowo zaprezentowany, pojawiły się dyskusje dotyczące jego projektu, który obejmuje wiele kawałków krzemu (matryc) połączonych ze sobą w ramach jednej obudowy procesora. W tamtym czasie Nvidia aktywnie sprzeciwiała się opisywaniu Blackwell za pomocą terminu architektura ‘chiplet’ – powszechnego terminu branżowego dla projektów wykorzystujących wiele mniejszych, połączonych ze sobą matryc. Zamiast tego firma podkreślała inną perspektywę.
Jak donoszono podczas relacji z premiery Blackwell, Nvidia argumentowała, że zastosowała ‘architekturę matrycy ograniczonej do dwóch siatek fotolitograficznych, która działa jako zjednoczony, pojedynczy GPU‘. To sformułowanie mocno sugerowało, że pomimo fizycznej obecności dwóch matryc, funkcjonowały one spójnie jako jedna logiczna jednostka przetwarzająca. Nowa metoda liczenia zastosowana w konfiguracji B300 wydaje się odchodzić od tej koncepcji ‘zjednoczonego, pojedynczego GPU’, przynajmniej z punktu widzenia licencjonowania oprogramowania, traktując matryce jako odrębne jednostki. Rodzi to pytania, czy początkowy opis koncentrował się głównie na potencjale funkcjonalnym sprzętu, czy też strategiczna perspektywa dotycząca licencjonowania ewoluowała.
Wzrost wydajności kontra potencjalne podwyżki kosztów: Ocena propozycji B300
Rozważając potencjalne podwojenie opłat licencyjnych za oprogramowanie dla HGX B300 w porównaniu do jego poprzedników, takich jak B200, kluczowe jest zbadanie ulepszeń wydajności oferowanych przez nowszy sprzęt. Czy B300 zapewnia dwukrotnie większą moc przetwarzania AI, aby uzasadnić potencjalne podwojenie kosztów oprogramowania? Specyfikacje sugerują bardziej zniuansowany obraz.
HGX B300 może pochwalić się ulepszeniami:
- Zwiększona pojemność pamięci: Oferuje około 2,3 terabajta pamięci o wysokiej przepustowości (HBM) na system, co stanowi znaczący skok o około 1,5 raza w porównaniu do 1,5 TB dostępnych w B200. Jest to kluczowe dla obsługi większych modeli AI i zbiorów danych.
- Zwiększona wydajność w niskiej precyzji: B300 wykazuje zauważalny wzrost wydajności dla obliczeń wykorzystujących precyzję zmiennoprzecinkową 4-bitową (FP4). Jego przepustowość FP4 osiąga nieco ponad 105 gęstych petaFLOPS na system, co stanowi około 50% wzrost w porównaniu do B200. To przyspieszenie jest szczególnie korzystne dla niektórych zadań wnioskowania AI, gdzie dopuszczalna jest niższa precyzja.
Jednak przewaga wydajnościowa nie jest uniwersalna dla wszystkich obciążeń. Co istotne, w przypadku zadań wymagających arytmetyki zmiennoprzecinkowej o wyższej precyzji (takich jak FP8, FP16 lub FP32), B300 nie oferuje znaczącej przewagi w operacjach zmiennoprzecinkowych nad starszym systemem B200. Wiele złożonych zadań szkolenia AI i obliczeń naukowych w dużym stopniu opiera się na tych formatach o wyższej precyzji.
Dlatego organizacje oceniające B300 stają przed złożoną kalkulacją. Zyskują znaczną pojemność pamięci i wzrost wydajności FP4, ale potencjalne podwojenie kosztów oprogramowania AI Enterprise może nie być równoważone przez odpowiednie podwojenie wydajności dla ich specyficznych obciążeń o wyższej precyzji. Propozycja wartości staje się wysoce zależna od charakteru uruchamianych zadań AI.
Techniczne uzasadnienie: Interkonekty i niezależność
Co intrygujące, ta nowa metodologia liczenia matryc nie jest powszechnie stosowana we wszystkich nowych systemach opartych na Blackwell zapowiedzianych na GTC. Na przykład potężniejsze, chłodzone cieczą systemy GB300 NVL72 nadal przestrzegają starszej konwencji, licząc całą obudowę (zawierającą dwie matryce) jako pojedynczy GPU do celów licencyjnych. Ta rozbieżność nasuwa pytanie: skąd ta różnica?
Nvidia podaje techniczne uzasadnienie zakorzenione w technologii interkonektów w samych pakietach GPU. Według Iana Bucka, wiceprezesa i dyrektora generalnego ds. Hyperscale i HPC w Nvidii, rozróżnienie polega na obecności lub braku kluczowego interkonektu chip-to-chip (C2C) bezpośrednio łączącego dwie matryce w pakiecie.
Konfiguracja HGX B300: Specyficzne pakiety Blackwell używane w chłodzonych powietrzem systemach HGX B300 nie posiadają tego bezpośredniego interkonektu C2C. Jak wyjaśnił Buck, ten wybór projektowy został dokonany w celu optymalizacji zużycia energii i zarządzania termicznego w ramach ograniczeń obudowy chłodzonej powietrzem. Konsekwencją jest jednak to, że dwie matryce na jednym module B300 działają z większym stopniem niezależności. Jeśli jedna matryca potrzebuje dostępu do danych przechowywanych w pamięci o wysokiej przepustowości fizycznie podłączonej do drugiej matrycy na tym samym module, nie może tego zrobić bezpośrednio. Zamiast tego żądanie danych musi opuścić pakiet, przejść przez zewnętrzną sieć NVLink (prawdopodobnie przez chip przełącznika NVLink na płycie głównej serwera), a następnie wrócić do kontrolera pamięci drugiej matrycy. Ta okrężna droga wzmacnia pogląd, że są to dwie funkcjonalnie odrębne jednostki przetwarzające, współdzielące wspólną obudowę, ale wymagające zewnętrznych ścieżek komunikacji do pełnego współdzielenia pamięci. Ta separacja, argumentuje Nvidia, uzasadnia liczenie ich jako dwóch odrębnych GPU.
Konfiguracja GB300 NVL72: W przeciwieństwie do tego, pakiety ‘Superchip’ używane w wyższej klasy systemach GB300 zachowują szybki interkonekt C2C. To bezpośrednie połączenie pozwala dwóm matrycom w pakiecie komunikować się i współdzielić zasoby pamięci znacznie wydajniej i bezpośrednio, bez potrzeby okrężnej drogi poza pakietem przez przełącznik NVLink. Ponieważ mogą one funkcjonować bardziej spójnie i bezproblemowo współdzielić pamięć, są traktowane, z perspektywy oprogramowania i licencjonowania, jako pojedynczy, zjednoczony GPU, zgodnie z początkowym ‘zjednoczonym’ opisem architektury Blackwell.
To techniczne rozróżnienie stanowi logiczną podstawę dla różnych metod liczenia. Matryce B300 są funkcjonalnie bardziej oddzielone z powodu braku połączenia C2C, co potwierdza liczenie jako dwa GPU. Matryce GB300 są ściśle połączone, co wspiera liczenie jako pojedynczy GPU.
Spojrzenie w przyszłość: Vera Rubin ustanawia precedens
Chociaż GB300 obecnie stanowi wyjątek, podejście do liczenia matryc przyjęte dla B300 wydaje się wskazywać na przyszły kierunek Nvidii. Firma już zasygnalizowała, że jej platforma nowej generacji, o kryptonimie Vera Rubin, której premiera planowana jest w dalszej przyszłości, w pełni przyjmie tę nową nomenklaturę.
Sama konwencja nazewnictwa daje wskazówkę. Systemy oparte na architekturze Rubin są oznaczane wysokimi numerami, takimi jak NVL144. To oznaczenie mocno sugeruje liczenie poszczególnych matryc, a nie modułów. Zgodnie z logiką B300, system NVL144 prawdopodobnie składałby się z pewnej liczby modułów, z których każdy zawierałby wiele matryc, sumujących się do 144 policzalnych matryc GPU do celów licencyjnych i specyfikacyjnych.
Ten trend jest jeszcze bardziej wyraźny w mapie drogowej Nvidii na koniec 2027 roku z platformą Vera Rubin Ultra. Platforma ta może pochwalić się zdumiewającą liczbą 576 GPU na szafę rack. Jak wcześniej analizowano, ta imponująca liczba nie jest osiągana przez upakowanie 576 odrębnych fizycznych modułów w szafie. Zamiast tego odzwierciedla nowy paradygmat liczenia zastosowany multiplikatywnie. Architektura prawdopodobnie obejmuje 144 fizyczne moduły na szafę, ale każdy moduł zawiera cztery odrębne matryce krzemowe. Zatem 144 moduły pomnożone przez 4 matryce na moduł dają główną liczbę 576 ‘GPU’.
Ta perspektywa przyszłościowa sugeruje, że metoda liczenia matryc B300 nie jest jedynie tymczasową korektą dla konkretnych systemów chłodzonych powietrzem, ale raczej podstawową zasadą, według której Nvidia zamierza kwantyfikować swoje zasoby GPU w przyszłych generacjach. Klienci inwestujący w ekosystem Nvidii muszą przewidzieć, że ta zmiana stanie się standardem.
Niewypowiedziany czynnik: Maksymalizacja strumieni przychodów z oprogramowania?
Chociaż techniczne wyjaśnienie dotyczące interkonektu C2C dostarcza uzasadnienia dla odrębnego liczenia GPU w B300, czas i znaczące implikacje finansowe nieuchronnie prowadzą do spekulacji na temat ukrytych motywacji biznesowych. Czy ta redefinicja, przedstawiona początkowo jako korekta ‘błędu’ nomenklatury, może również służyć jako strategiczna dźwignia do zwiększenia powtarzalnych przychodów z oprogramowania?
W ciągu roku od pierwszego szczegółowego opisu Blackwell z jego przekazem o ‘zjednoczonym, pojedynczym GPU’, jest prawdopodobne, że Nvidia dostrzegła znaczącą, niewykorzystaną okazję do generowania przychodów. Pakiet AI Enterprise stanowi rosnący i wysokomarżowy komponent biznesu Nvidii. Powiązanie jego licencjonowania bezpośrednio z liczbą matryc krzemowych, a nie fizycznych modułów, oferuje ścieżkę do znacznego zwiększenia przychodów z oprogramowania uzyskiwanych z każdego wdrożenia sprzętowego, zwłaszcza że liczba matryc na moduł potencjalnie wzrośnie w przyszłych architekturach, takich jak Vera Rubin Ultra.
Zapytana o to, jak ta zmiana w definicji GPU wpłynie konkretnie na koszty licencjonowania AI Enterprise dla nowych systemów B300, Nvidia zachowała pewien stopień niejednoznaczności. Rzecznik firmy przekazał, że szczegóły finansowe są nadal rozważane. ‘Szczegóły cenowe dla B300 są nadal finalizowane i nie ma żadnych szczegółów do udostępnienia na temat Rubin poza tym, co zostało pokazane podczas GTC keynote w tym czasie’, stwierdził rzecznik, wyraźnie potwierdzając, że obejmuje to strukturę cenową dla AI Enterprise na tych platformach.
Ten brak sfinalizowanych cen, w połączeniu z podwojeniem policzalnych GPU w niektórych konfiguracjach sprzętowych, stwarza niepewność dla klientów planujących przyszłe inwestycje w infrastrukturę AI. Chociaż istnieją techniczne uzasadnienia, potencjał znacznego wzrostu kosztów subskrypcji oprogramowania jest duży. Zmiana ta podkreśla rosnące znaczenie oprogramowania w łańcuchu wartości półprzewodników oraz pozorną strategię Nvidii mającą na celu skuteczniejszą monetyzację jej kompleksowej platformy AI poprzez ściślejsze powiązanie metryk licencyjnych z bazową złożonością krzemu. W miarę jak organizacje budżetują na systemy AI nowej generacji, definicja ‘GPU’ nagle stała się krytyczną i potencjalnie znacznie droższą zmienną.