Nvidia Ubah Definisi 'GPU', Potensi Naikkan Biaya Infrastruktur AI

Koreksi Mengejutkan: Nvidia Memikirkan Ulang Jumlah GPU-nya

Dalam panggung inovasi semikonduktor yang penuh pertaruhan, GPU Technology Conference (GTC) Nvidia berfungsi sebagai panggung utama untuk mengungkap masa depan. Selama pertemuan terbarunya, di tengah kemeriahan yang diharapkan seputar kemajuan dalam kecerdasan buatan dan komputasi terakselerasi, perusahaan memperkenalkan perubahan yang halus namun berpotensi mendalam – modifikasi dalam cara mendefinisikan secara fundamental sebuah Graphics Processing Unit (GPU). Ini bukan sekadar catatan kaki teknis; ini adalah kalibrasi ulang dengan implikasi hilir yang signifikan, terutama mengenai struktur biaya untuk menerapkan solusi AI canggih Nvidia.

CEO Jensen Huang sendiri membahas perubahan tersebut langsung dari panggung GTC, membingkainya sebagai koreksi atas kekeliruan sebelumnya mengenai arsitektur Blackwell mutakhir mereka. ‘Salah satu hal yang saya keliru: Blackwell sebenarnya adalah dua GPU dalam satu chip Blackwell,’ katanya. Alasan yang disajikan berfokus pada kejelasan dan konsistensi, terutama mengenai konvensi penamaan yang terkait dengan NVLink, teknologi interkoneksi berkecepatan tinggi Nvidia. ‘Kami menyebut satu chip itu sebagai GPU dan itu salah. Alasannya adalah itu mengacaukan semua nomenklatur NVLink,’ Huang menjelaskan lebih lanjut. Meskipun menyederhanakan nomor model menawarkan tingkat kerapian logis, redefinisi ini membawa bobot jauh melampaui sekadar semantik.

Inti dari pergeseran ini terletak pada perpindahan dari menghitung modul fisik (khususnya, faktor bentuk SXM yang umum di server berkinerja tinggi) sebagai GPU individual menjadi menghitung die silikon yang berbeda di dalam modul tersebut. Penyesuaian terminologi yang tampaknya kecil ini berpotensi mengubah lanskap keuangan secara dramatis bagi organisasi yang memanfaatkan rangkaian perangkat lunak Nvidia AI Enterprise.

Efek Riak Finansial: Menggandakan Lisensi AI Enterprise?

Nvidia AI Enterprise adalah platform perangkat lunak komprehensif yang dirancang untuk menyederhanakan pengembangan dan penerapan aplikasi AI. Ini mencakup beragam alat, kerangka kerja, dan yang terpenting, akses ke Nvidia Inference Microservices (NIMs), yang merupakan kontainer yang dioptimalkan untuk menjalankan model AI secara efisien. Model lisensi untuk rangkaian canggih ini secara historis terkait langsung dengan jumlah GPU yang digunakan. Struktur harga saat ini menempatkan biaya sekitar $4.500 per GPU per tahun, atau tarif berbasis cloud sebesar $1 per GPU per jam.

Pertimbangkan generasi sebelumnya atau konfigurasi Blackwell tertentu. Server Nvidia HGX B200, yang dilengkapi dengan delapan modul SXM, di mana setiap modul menampung apa yang saat itu dianggap sebagai satu GPU Blackwell, akan memerlukan delapan lisensi AI Enterprise. Ini diterjemahkan menjadi biaya langganan perangkat lunak tahunan sebesar $36.000 (8 GPU * $4.500/GPU) atau biaya cloud per jam sebesar $8 (8 GPU * $1/GPU/jam).

Sekarang, masuki lanskap yang baru didefinisikan dengan sistem seperti HGX B300 NVL16. Sistem ini juga dilengkapi delapan modul SXM fisik. Namun, di bawah definisi yang direvisi, Nvidia sekarang menghitung setiap die silikon dalam modul ini sebagai GPU individual. Karena setiap modul dalam konfigurasi spesifik ini berisi dua die, jumlah total GPU untuk tujuan lisensi secara efektif berlipat ganda menjadi 16 GPU (8 modul * 2 die/modul).

Dengan asumsi Nvidia mempertahankan struktur harga per-GPU yang ada untuk rangkaian AI Enterprise – poin yang menurut perusahaan belum final – implikasinya sangat mencolok. Sistem HGX B300 delapan modul yang sama sekarang berpotensi memerlukan 16 lisensi, melambungkan biaya perangkat lunak tahunan menjadi $72.000 (16 GPU * $4.500/GPU) atau $16 per jam di cloud. Ini mewakili peningkatan 100% dalam biaya langganan perangkat lunak untuk kepadatan perangkat keras yang tampaknya sebanding, yang berasal langsung dari perubahan cara ‘GPU’ dihitung.

Kisah Dua Arsitektur: Merekonsiliasi Pernyataan Masa Lalu

Pergeseran nomenklatur ini menyajikan kontras yang menarik dengan karakterisasi Nvidia sebelumnya tentang arsitektur Blackwell. Ketika Blackwell awalnya diresmikan, diskusi muncul mengenai desainnya, yang melibatkan beberapa keping silikon (die) yang dihubungkan bersama dalam satu paket prosesor. Pada saat itu, Nvidia secara aktif menolak deskripsi Blackwell menggunakan istilah arsitektur ‘chiplet’ – istilah industri umum untuk desain yang menggunakan beberapa die yang lebih kecil dan saling terhubung. Sebaliknya, perusahaan menekankan perspektif yang berbeda.

Seperti yang dilaporkan selama liputan peluncuran Blackwell, Nvidia berargumen bahwa mereka menggunakan ‘arsitektur die terbatas dua-reticle yang bertindak sebagai GPU tunggal yang terpadu.’ Ungkapan ini sangat menyarankan bahwa meskipun ada kehadiran fisik dua die, mereka berfungsi secara kohesif sebagai satu unit pemrosesan logis. Metode penghitungan baru yang diterapkan pada konfigurasi B300 tampaknya berputar menjauh dari konsep ‘GPU tunggal yang terpadu’ ini, setidaknya dari sudut pandang lisensi perangkat lunak, memperlakukan die sebagai entitas yang berbeda. Hal ini menimbulkan pertanyaan tentang apakah deskripsi awal terutama difokuskan pada potensi fungsional perangkat keras atau apakah perspektif strategis tentang lisensi telah berkembang.

Peningkatan Kinerja vs. Potensi Kenaikan Biaya: Mengevaluasi Proposisi B300

Ketika mempertimbangkan potensi penggandaan biaya lisensi perangkat lunak untuk HGX B300 dibandingkan dengan pendahulunya seperti B200, sangat penting untuk memeriksa peningkatan kinerja yang ditawarkan oleh perangkat keras yang lebih baru. Apakah B300 memberikan dua kali lipat kekuatan pemrosesan AI untuk membenarkan potensi penggandaan biaya perangkat lunak? Spesifikasi menunjukkan gambaran yang lebih bernuansa.

HGX B300 memang membanggakan peningkatan:

  • Peningkatan Kapasitas Memori: Menawarkan sekitar 2,3 Terabyte memori bandwidth tinggi (HBM) per sistem, lompatan signifikan sekitar 1,5 kali dibandingkan dengan 1,5TB yang tersedia pada B200. Ini sangat penting untuk menangani model dan dataset AI yang lebih besar.
  • Peningkatan Kinerja Presisi Rendah: B300 menunjukkan peningkatan kinerja yang nyata untuk perhitungan menggunakan presisi floating-point 4-bit (FP4). Throughput FP4-nya mencapai lebih dari 105 petaFLOPS padat per sistem, kira-kira peningkatan 50% dibandingkan B200. Akselerasi ini sangat bermanfaat untuk tugas inferensi AI tertentu di mana presisi yang lebih rendah dapat diterima.

Namun, keunggulan kinerja tidak universal di semua beban kerja. Yang terpenting, untuk tugas yang memerlukan aritmatika floating-point presisi lebih tinggi (seperti FP8, FP16, atau FP32), B300 tidak menawarkan keunggulan operasi floating-point yang signifikan dibandingkan sistem B200 yang lebih tua. Banyak tugas pelatihan AI yang kompleks dan komputasi ilmiah sangat bergantung pada format presisi yang lebih tinggi ini.

Oleh karena itu, organisasi yang mengevaluasi B300 menghadapi perhitungan yang kompleks. Mereka memperoleh kapasitas memori yang substansial dan peningkatan kinerja FP4, tetapi potensi penggandaan biaya perangkat lunak AI Enterprise mungkin tidak diimbangi dengan penggandaan kinerja yang sesuai untuk beban kerja presisi tinggi spesifik mereka. Proposisi nilai menjadi sangat bergantung pada sifat tugas AI yang dijalankan.

Justifikasi Teknis: Interkoneksi dan Independensi

Menariknya, metodologi penghitungan die baru ini tidak diterapkan secara universal di semua sistem berbasis Blackwell baru yang diumumkan di GTC. Sistem GB300 NVL72 yang lebih kuat dan berpendingin cairan, misalnya, terus mengikuti konvensi lama, menghitung seluruh paket (berisi dua die) sebagai satu GPU untuk tujuan lisensi. Perbedaan ini menimbulkan pertanyaan: mengapa ada perbedaan?

Nvidia memberikan alasan teknis yang berakar pada teknologi interkoneksi di dalam paket GPU itu sendiri. Menurut Ian Buck, Wakil Presiden dan Manajer Umum Hyperscale dan HPC Nvidia, perbedaannya terletak pada ada atau tidak adanya interkoneksi chip-to-chip (C2C) penting yang secara langsung menghubungkan kedua die di dalam paket.

  • Konfigurasi HGX B300: Paket Blackwell spesifik yang digunakan dalam sistem HGX B300 berpendingin udara tidak memiliki interkoneksi C2C langsung ini. Seperti yang dijelaskan Buck, pilihan desain ini dibuat untuk mengoptimalkan konsumsi daya dan manajemen termal dalam batasan sasis berpendingin udara. Konsekuensinya, bagaimanapun, adalah bahwa kedua die pada satu modul B300 beroperasi dengan tingkat independensi yang lebih besar. Jika satu die perlu mengakses data yang disimpan dalam memori bandwidth tinggi yang secara fisik terhubung ke die lain pada modul yang sama, ia tidak dapat melakukannya secara langsung. Sebaliknya, permintaan data harus berjalan keluar dari paket, melintasi jaringan NVLink eksternal (kemungkinan melalui chip switch NVLink di motherboard server), dan kemudian kembali ke pengontrol memori die lainnya. Jalan memutar ini memperkuat gagasan bahwa ini adalah dua unit pemrosesan yang secara fungsional berbeda yang berbagi paket umum tetapi memerlukan jalur komunikasi eksternal untuk berbagi memori penuh. Pemisahan ini, menurut Nvidia, membenarkan penghitungan mereka sebagai dua GPU yang berbeda.

  • Konfigurasi GB300 NVL72: Sebaliknya, paket ‘Superchip’ yang digunakan dalam sistem GB300 kelas atas mempertahankan interkoneksi C2C berkecepatan tinggi. Tautan langsung ini memungkinkan kedua die di dalam paket untuk berkomunikasi dan berbagi sumber daya memori jauh lebih efisien dan langsung, tanpa perlu jalan memutar di luar paket melalui switch NVLink. Karena mereka dapat berfungsi lebih kohesif dan berbagi memori dengan mulus, mereka diperlakukan, dari perspektif perangkat lunak dan lisensi, sebagai GPU tunggal yang terpadu, sejalan dengan deskripsi ‘terpadu’ awal dari arsitektur Blackwell.

Perbedaan teknis ini memberikan dasar logis untuk metode penghitungan yang berbeda. Die B300 secara fungsional lebih terpisah karena kurangnya tautan C2C, memberikan kepercayaan pada hitungan dua-GPU. Die GB300 terhubung erat, mendukung hitungan satu-GPU.

Mengintip Masa Depan: Vera Rubin Menetapkan Preseden

Meskipun GB300 saat ini mewakili pengecualian, pendekatan penghitungan die yang diadopsi untuk B300 tampaknya menunjukkan arah masa depan Nvidia. Perusahaan telah memberi sinyal bahwa platform generasi berikutnya, dengan nama sandi Vera Rubin, yang dijadwalkan untuk dirilis lebih jauh di masa depan, akan sepenuhnya menganut nomenklatur baru ini.

Konvensi penamaan itu sendiri menawarkan petunjuk. Sistem berdasarkan arsitektur Rubin ditetapkan dengan angka tinggi, seperti NVL144. Penunjukan ini sangat menyiratkan penghitungan die individual daripada modul. Mengikuti logika B300, sistem NVL144 kemungkinan akan terdiri dari sejumlah modul, masing-masing berisi beberapa die, yang berjumlah 144 die GPU yang dapat dihitung untuk tujuan lisensi dan spesifikasi.

Tren ini bahkan lebih jelas dalam peta jalan Nvidia untuk akhir 2027 dengan platform Vera Rubin Ultra. Platform ini membanggakan 576 GPU per rak yang menakjubkan. Seperti yang dianalisis sebelumnya, jumlah yang mengesankan ini tidak dicapai dengan mengemas 576 modul fisik yang berbeda ke dalam rak. Sebaliknya, ini mencerminkan paradigma penghitungan baru yang diterapkan secara multiplikatif. Arsitektur tersebut kemungkinan melibatkan 144 modul fisik per rak, tetapi dengan setiap modul berisi empat die silikon yang berbeda. Jadi, 144 modul dikalikan dengan 4 die per modul menghasilkan angka utama 576 ‘GPU’.

Perspektif berwawasan ke depan ini menunjukkan bahwa metode penghitungan die B300 bukan hanya penyesuaian sementara untuk sistem berpendingin udara tertentu, melainkan prinsip dasar tentang bagaimana Nvidia bermaksud untuk mengukur sumber daya GPU-nya di generasi mendatang. Pelanggan yang berinvestasi dalam ekosistem Nvidia perlu mengantisipasi pergeseran ini menjadi standar.

Faktor Tak Terucapkan: Memaksimalkan Aliran Pendapatan Perangkat Lunak?

Meskipun penjelasan teknis mengenai interkoneksi C2C memberikan alasan untuk penghitungan GPU B300 yang berbeda, waktu dan implikasi finansial yang signifikan tak terhindarkan mengarah pada spekulasi tentang motivasi bisnis yang mendasarinya. Bisakah redefinisi ini, yang awalnya disajikan sebagai koreksi ‘kesalahan’ nomenklatur, juga berfungsi sebagai pengungkit strategis untuk meningkatkan pendapatan perangkat lunak berulang?

Dalam setahun sejak Blackwell pertama kali dirinci dengan pesan ‘GPU tunggal yang terpadu’, masuk akal bahwa Nvidia menyadari peluang pendapatan substansial yang dibiarkan belum dimanfaatkan. Rangkaian AI Enterprise mewakili komponen bisnis Nvidia yang berkembang dan bermargin tinggi. Mengikat lisensinya secara langsung ke jumlah die silikon, daripada modul fisik, menawarkan jalur untuk meningkatkan pendapatan perangkat lunak secara signifikan yang berasal dari setiap penerapan perangkat keras, terutama karena jumlah die per modul berpotensi meningkat dalam arsitektur masa depan seperti Vera Rubin Ultra.

Ketika ditanya tentang bagaimana perubahan definisi GPU ini secara spesifik akan memengaruhi biaya lisensi AI Enterprise untuk sistem B300 baru, Nvidia mempertahankan tingkat ambiguitas. Seorang juru bicara perusahaan menyampaikan bahwa rincian keuangan masih dalam pertimbangan. ‘Rincian harga masih diselesaikan untuk B300 dan tidak ada rincian untuk dibagikan tentang Rubin di luar apa yang ditunjukkan dalam keynote GTC saat ini,’ kata juru bicara itu, secara eksplisit mengkonfirmasi bahwa ini termasuk struktur harga untuk AI Enterprise pada platform ini.

Kurangnya penetapan harga final ini, ditambah dengan penggandaan GPU yang dapat dihitung pada konfigurasi perangkat keras tertentu, menciptakan ketidakpastian bagi pelanggan yang merencanakan investasi infrastruktur AI di masa depan. Meskipun justifikasi teknis ada, potensi peningkatan substansial dalam biaya langganan perangkat lunak tampak besar. Pergeseran ini menyoroti semakin pentingnya perangkat lunak dalam rantai nilai semikonduktor dan strategi nyata Nvidia untuk memonetisasi platform AI komprehensifnya secara lebih efektif dengan menyelaraskan metrik lisensi lebih dekat dengan kompleksitas silikon yang mendasarinya. Saat organisasi menganggarkan sistem AI generasi berikutnya, definisi ‘GPU’ tiba-tiba menjadi variabel penting, dan berpotensi jauh lebih mahal.