Peralihan Semantik Nvidia: Definisi Semula 'GPU' Naikkan Kos AI

Pembetulan Aneh: Nvidia Memikirkan Semula Kiraan GPUnya

Dalam arena inovasi semikonduktor yang penuh persaingan, Persidangan Teknologi GPU (GTC) Nvidia berfungsi sebagai pentas utama untuk mendedahkan masa depan. Semasa perhimpunan terbarunya, di tengah-tengah kemeriahan yang dijangkakan mengenai kemajuan dalam kecerdasan buatan dan pengkomputeran dipercepatkan, syarikat itu memperkenalkan perubahan yang halus namun berpotensi mendalam – pengubahsuaian dalam cara ia secara asasnya mentakrifkan Unit Pemprosesan Grafik (GPU). Ini bukan sekadar nota kaki teknikal; ia adalah penentukuran semula dengan implikasi hiliran yang signifikan, terutamanya mengenai struktur kos untuk menggunakan penyelesaian AI termaju Nvidia.

CEO Jensen Huang sendiri menangani perubahan itu secara langsung dari pentas GTC, menggambarkannya sebagai pembetulan terhadap kesilapan terdahulu mengenai seni bina Blackwell mereka yang canggih. ‘Salah satu perkara yang saya silap: Blackwell sebenarnya adalah dua GPU dalam satu cip Blackwell,’ katanya. Rasional yang dibentangkan memberi tumpuan kepada kejelasan dan konsistensi, terutamanya mengenai konvensyen penamaan yang berkaitan dengan NVLink, teknologi intersambung berkelajuan tinggi Nvidia. ‘Kami memanggil satu cip itu sebagai GPU dan itu salah. Sebabnya ialah ia mengacaukan semua tatanama NVLink,’ jelas Huang. Walaupun memudahkan nombor model menawarkan tahap kekemasan logik, pentakrifan semula ini membawa beban yang jauh melangkaui semantik semata-mata.

Inti peralihan terletak pada beralih daripada mengira modul fizikal (khususnya, faktor bentuk SXM yang biasa dalam pelayan berprestasi tinggi) sebagai GPU individu kepada mengira die silikon yang berbeza dalam modul tersebut. Penyesuaian yang kelihatan kecil dalam terminologi ini berpotensi mengubah secara dramatik landskap kewangan bagi organisasi yang memanfaatkan suite perisian AI Enterprise Nvidia.

Kesan Riak Kewangan: Menggandakan Pelesenan AI Enterprise?

AI Enterprise Nvidia ialah platform perisian komprehensif yang direka untuk menyelaraskan pembangunan dan penggunaan aplikasi AI. Ia merangkumi pelbagai alat, rangka kerja, dan yang penting, akses kepada Nvidia Inference Microservices (NIMs), iaitu bekas yang dioptimumkan untuk menjalankan model AI dengan cekap. Model pelesenan untuk suite berkuasa ini secara sejarahnya terikat secara langsung kepada bilangan GPU yang digunakan. Struktur harga semasa meletakkan kos pada kira-kira $4,500 setiap GPU setiap tahun, atau kadar berasaskan awan sebanyak $1 setiap GPU setiap jam.

Pertimbangkan generasi sebelumnya atau konfigurasi Blackwell tertentu. Pelayan Nvidia HGX B200, dilengkapi dengan lapan modul SXM, di mana setiap modul menempatkan apa yang ketika itu dianggap sebagai GPU Blackwell tunggal, akan memerlukan lapan lesen AI Enterprise. Ini diterjemahkan kepada kos langganan perisian tahunan sebanyak $36,000 (8 GPU * $4,500/GPU) atau kos awan setiap jam sebanyak $8 (8 GPU * $1/GPU/jam).

Sekarang, masuki landskap yang baru ditakrifkan dengan sistem seperti HGX B300 NVL16. Sistem ini juga mempunyai lapan modul SXM fizikal. Walau bagaimanapun, di bawah definisi yang disemak semula, Nvidia kini mengira setiap die silikon dalam modul ini sebagai GPU individu. Memandangkan setiap modul dalam konfigurasi khusus ini mengandungi dua die, jumlah kiraan GPU untuk tujuan pelesenan secara efektif berganda kepada 16 GPU (8 modul * 2 die/modul).

Dengan mengandaikan Nvidia mengekalkan struktur harga per-GPU sedia ada untuk suite AI Enterprise – satu perkara yang syarikat nyatakan belum dimuktamadkan – implikasinya adalah jelas. Sistem HGX B300 lapan modul yang sama kini berpotensi memerlukan 16 lesen, melonjakkan kos perisian tahunan kepada $72,000 (16 GPU * $4,500/GPU) atau $16 sejam di awan. Ini mewakili peningkatan 100% dalam kos langganan perisian untuk kepadatan perkakasan yang kelihatan setanding, berpunca secara langsung daripada perubahan dalam cara ‘GPU’ dikira.

Kisah Dua Seni Bina: Menyelaraskan Kenyataan Lalu

Peralihan dalam tatanama ini memberikan kontras yang menarik kepada pencirian Nvidia sebelum ini mengenai seni bina Blackwell. Apabila Blackwell pertama kali diperkenalkan, perbincangan timbul mengenai reka bentuknya, yang melibatkan beberapa kepingan silikon (die) yang dihubungkan bersama dalam satu pakej pemproses. Pada masa itu, Nvidia secara aktif menolak penggunaan istilah seni bina ‘chiplet’ – istilah industri biasa untuk reka bentuk yang menggunakan berbilang die yang lebih kecil dan saling bersambung – untuk menggambarkan Blackwell. Sebaliknya, syarikat menekankan perspektif yang berbeza.

Seperti yang dilaporkan semasa liputan pelancaran Blackwell, Nvidia berhujah bahawa ia menggunakan ‘seni bina die terhad dua-retikel yang bertindak sebagai GPU tunggal yang bersatu.’ Frasa ini sangat mencadangkan bahawa walaupun terdapat kehadiran fizikal dua die, ia berfungsi secara kohesif sebagai satu unit pemprosesan logik. Kaedah pengiraan baru yang digunakan pada konfigurasi B300 nampaknya beralih daripada konsep ‘GPU tunggal yang bersatu’ ini, sekurang-kurangnya dari sudut pandangan pelesenan perisian, menganggap die sebagai entiti yang berbeza. Ini menimbulkan persoalan sama ada penerangan awal tertumpu terutamanya pada potensi fungsian perkakasan atau jika perspektif strategik mengenai pelesenan telah berkembang.

Peningkatan Prestasi lwn Potensi Kenaikan Kos: Menilai Proposisi B300

Apabila mempertimbangkan potensi penggandaan yuran pelesenan perisian untuk HGX B300 berbanding pendahulunya seperti B200, adalah penting untuk meneliti peningkatan prestasi yang ditawarkan oleh perkakasan yang lebih baru. Adakah B300 memberikan dua kali ganda kuasa pemprosesan AI untuk mewajarkan potensi penggandaan kos perisian? Spesifikasi mencadangkan gambaran yang lebih bernuansa.

HGX B300 memang mempunyai penambahbaikan:

  • Peningkatan Kapasiti Memori: Ia menawarkan kira-kira 2.3 Terabait memori lebar jalur tinggi (HBM) setiap sistem, lonjakan signifikan kira-kira 1.5 kali ganda berbanding 1.5TB yang tersedia pada B200. Ini penting untuk mengendalikan model AI dan set data yang lebih besar.
  • Prestasi Kejituan Rendah yang Dipertingkatkan: B300 menunjukkan peningkatan prestasi yang ketara untuk pengiraan menggunakan kejituan titik terapung 4-bit (FP4). Daya pemprosesan FP4nya mencapai lebih sedikit daripada 105 petaFLOPS padat setiap sistem, kira-kira peningkatan 50% berbanding B200. Pecutan ini amat bermanfaat untuk tugas inferens AI tertentu di mana kejituan yang lebih rendah boleh diterima.

Walau bagaimanapun, kelebihan prestasi tidak universal merentas semua beban kerja. Yang penting, untuk tugas yang memerlukan aritmetik titik terapung berketepatan tinggi (seperti FP8, FP16, atau FP32), B300 tidak menawarkan kelebihan operasi titik terapung yang signifikan berbanding sistem B200 yang lebih lama. Banyak tugas latihan AI yang kompleks dan pengkomputeran saintifik sangat bergantung pada format berketepatan tinggi ini.

Oleh itu, organisasi yang menilai B300 menghadapi pengiraan yang kompleks. Mereka memperoleh kapasiti memori yang besar dan peningkatan dalam prestasi FP4, tetapi potensi penggandaan kos perisian AI Enterprise mungkin tidak sepadan dengan penggandaan prestasi yang sepadan untuk beban kerja berketepatan tinggi khusus mereka. Proposisi nilai menjadi sangat bergantung pada sifat tugas AI yang dijalankan.

Justifikasi Teknikal: Intersambung dan Kebebasan

Menariknya, metodologi pengiraan die baru ini tidak digunakan secara universal merentas semua sistem berasaskan Blackwell baru yang diumumkan di GTC. Sistem GB300 NVL72 yang lebih berkuasa dan disejukkan cecair, misalnya, terus mematuhi konvensyen lama, mengira keseluruhan pakej (yang mengandungi dua die) sebagai GPU tunggal untuk tujuan pelesenan. Perbezaan ini menimbulkan persoalan: mengapa perbezaan itu?

Nvidia memberikan rasional teknikal yang berakar pada teknologi intersambung dalam pakej GPU itu sendiri. Menurut Ian Buck, Naib Presiden dan Pengurus Besar Hyperscale dan HPC Nvidia, perbezaan terletak pada kehadiran atau ketiadaan intersambung cip-ke-cip (C2C) penting yang menghubungkan secara langsung kedua-dua die dalam pakej.

  • Konfigurasi HGX B300: Pakej Blackwell khusus yang digunakan dalam sistem HGX B300 yang disejukkan udara tidak mempunyai intersambung C2C langsung ini. Seperti yang dijelaskan oleh Buck, pilihan reka bentuk ini dibuat untuk mengoptimumkan penggunaan kuasa dan pengurusan terma dalam kekangan casis yang disejukkan udara. Akibatnya, bagaimanapun, ialah kedua-dua die pada satu modul B300 beroperasi dengan tahap kebebasan yang lebih besar. Jika satu die perlu mengakses data yang disimpan dalam memori lebar jalur tinggi yang secara fizikal disambungkan ke die lain pada modul yang sama, ia tidak boleh melakukannya secara langsung. Sebaliknya, permintaan data mesti bergerak keluar dari pakej, melintasi rangkaian NVLink luaran (kemungkinan melalui cip suis NVLink pada papan induk pelayan), dan kemudian kembali ke pengawal memori die yang lain. Lencongan ini mengukuhkan tanggapan bahawa ini adalah dua unit pemprosesan yang berfungsi secara berbeza berkongsi pakej yang sama tetapi memerlukan laluan komunikasi luaran untuk perkongsian memori penuh. Pemisahan ini, hujah Nvidia, mewajarkan pengiraan mereka sebagai dua GPU yang berbeza.

  • Konfigurasi GB300 NVL72: Sebaliknya, pakej ‘Superchip’ yang digunakan dalam sistem GB300 mewah mengekalkan intersambung C2C berkelajuan tinggi. Pautan langsung ini membolehkan kedua-dua die dalam pakej berkomunikasi dan berkongsi sumber memori dengan lebih cekap dan langsung, tanpa memerlukan lencongan luar pakej melalui suis NVLink. Kerana mereka boleh berfungsi dengan lebih kohesif dan berkongsi memori dengan lancar, mereka dianggap, dari perspektif perisian dan pelesenan, sebagai GPU tunggal yang bersatu, sejajar dengan penerangan ‘bersatu’ awal seni bina Blackwell.

Perbezaan teknikal ini memberikan asas logik untuk kaedah pengiraan yang berbeza. Die B300 secara fungsional lebih terpisah kerana kekurangan pautan C2C, memberikan kepercayaan kepada kiraan dua-GPU. Die GB300 digandingkan dengan ketat, menyokong kiraan GPU tunggal.

Meninjau Masa Depan: Vera Rubin Menetapkan Preseden

Walaupun GB300 pada masa ini mewakili pengecualian, pendekatan pengiraan die yang diguna pakai untuk B300 nampaknya menunjukkan arah masa depan Nvidia. Syarikat itu telah pun memberi isyarat bahawa platform generasi seterusnya, dengan nama kod Vera Rubin, yang dijadualkan untuk dikeluarkan pada masa akan datang, akan menerima sepenuhnya tatanama baru ini.

Konvensyen penamaan itu sendiri menawarkan petunjuk. Sistem berdasarkan seni bina Rubin ditetapkan dengan nombor tinggi, seperti NVL144. Penetapan ini sangat membayangkan pengiraan die individu dan bukannya modul. Mengikuti logik B300, sistem NVL144 kemungkinan akan terdiri daripada sejumlah modul, setiap satu mengandungi berbilang die, berjumlah 144 die GPU yang boleh dikira untuk tujuan pelesenan dan spesifikasi.

Trend ini lebih ketara dalam peta jalan Nvidia untuk akhir 2027 dengan platform Vera Rubin Ultra. Platform ini mempunyai 576 GPU setiap rak yang menakjubkan. Seperti yang dianalisis sebelum ini, nombor yang mengagumkan ini tidak dicapai dengan memasukkan 576 modul fizikal yang berbeza ke dalam rak. Sebaliknya, ia mencerminkan paradigma pengiraan baru yang digunakan secara berganda. Seni bina ini kemungkinan melibatkan 144 modul fizikal setiap rak, tetapi dengan setiap modul mengandungi empat die silikon yang berbeza. Oleh itu, 144 modul didarab dengan 4 die setiap modul menghasilkan angka utama 576 ‘GPU’.

Perspektif berpandangan ke hadapan ini menunjukkan bahawa kaedah pengiraan die B300 bukan sekadar penyesuaian sementara untuk sistem penyejukan udara tertentu tetapi merupakan prinsip asas bagaimana Nvidia berhasrat untuk mengukur sumber GPUnya dalam generasi akan datang. Pelanggan yang melabur dalam ekosistem Nvidia perlu menjangkakan peralihan ini menjadi standard.

Faktor yang Tidak Disebutkan: Memaksimumkan Aliran Pendapatan Perisian?

Walaupun penjelasan teknikal mengenai intersambung C2C memberikan rasional untuk pengiraan GPU B300 yang berbeza, masa dan implikasi kewangan yang signifikan tidak dapat dielakkan membawa kepada spekulasi mengenai motivasi perniagaan yang mendasari. Bolehkah pentakrifan semula ini, yang pada mulanya dibentangkan sebagai pembetulan ‘kesilapan’ tatanama, juga berfungsi sebagai tuil strategik untuk meningkatkan pendapatan perisian berulang?

Dalam tahun sejak Blackwell pertama kali diperincikan dengan mesej ‘GPU tunggal yang bersatu’, adalah munasabah bahawa Nvidia menyedari peluang pendapatan yang besar sedang dibiarkan tidak dimanfaatkan. Suite AI Enterprise mewakili komponen perniagaan Nvidia yang berkembang dan bermargin tinggi. Mengikat pelesenannya secara langsung kepada bilangan die silikon, bukannya modul fizikal, menawarkan laluan untuk meningkatkan pendapatan perisian yang diperoleh daripada setiap penggunaan perkakasan dengan ketara, terutamanya apabila kiraan die setiap modul berpotensi meningkat dalam seni bina masa depan seperti Vera Rubin Ultra.

Apabila ditanya bagaimana perubahan dalam definisi GPU ini secara khusus akan memberi kesan kepada kos pelesenan AI Enterprise untuk sistem B300 baru, Nvidia mengekalkan tahap kekaburan. Jurucakap syarikat menyampaikan bahawa butiran kewangan masih dalam pertimbangan. ‘Butiran harga masih dimuktamadkan untuk B300 dan tiada butiran untuk dikongsi mengenai Rubin selain daripada apa yang ditunjukkan dalam ucaptama GTC pada masa ini,’ kata jurucakap itu, secara eksplisit mengesahkan bahawa ini termasuk struktur harga untuk AI Enterprise pada platform ini.

Kekurangan harga yang dimuktamadkan ini, ditambah dengan penggandaan GPU yang boleh dikira pada konfigurasi perkakasan tertentu, mewujudkan ketidakpastian bagi pelanggan yang merancang pelaburan infrastruktur AI masa depan. Walaupun justifikasi teknikal ada, potensi peningkatan besar dalam kos langganan perisian kelihatan besar. Peralihan ini menonjolkan kepentingan perisian yang semakin meningkat dalam rantaian nilai semikonduktor dan strategi jelas Nvidia untuk mengewangkan platform AI komprehensifnya dengan lebih berkesan dengan menyelaraskan metrik pelesenan dengan lebih rapat dengan kerumitan silikon asas. Apabila organisasi membuat belanjawan untuk sistem AI generasi akan datang, definisi ‘GPU’ tiba-tiba menjadi pembolehubah yang kritikal, dan berpotensi jauh lebih mahal.