Strategi Dua Arah Nvidia Targetkan Inferensi AI Agent

Nvidia mengarahkan pandangannya ke gelombang masa depan AI berbasis agent, sebuah domain yang menjanjikan untuk menempatkan tuntutan yang belum pernah terjadi sebelumnya pada kemampuan inferensi. Untuk memenuhi tantangan ini, Nvidia telah meluncurkan strategi komprehensif yang mencakup inovasi hardware dan software.

Strategi Hardware: Peningkatan Skala Vertikal dan Horizontal

Inti dari strategi hardware Nvidia terletak pada pengejaran tanpa henti GPU yang semakin kuat. Perusahaan ini mengadopsi pendekatan dua cabang, pertama berfokus pada peningkatan skala vertikal, kemudian pada peningkatan skala horizontal. Tujuannya bukan hanya untuk mengembangkan satu superkomputer AI ultra-kuat dalam satu rak, tetapi untuk menciptakan seluruh ekosistem rak yang saling terhubung, membentuk kompleks superkomputer AI yang masif. Pendekatan ‘pabrik AI’ ini dirancang untuk menyediakan kekuatan komputasi yang dibutuhkan untuk beban kerja AI yang paling menuntut.

Superkomputer AI yang dipasang di rak Blackwell Ultra yang baru, yang diumumkan di konferensi GTC baru-baru ini, mencontohkan strategi ini. Dirancang untuk mempercepat pelatihan dan inferensi skala waktu pengujian, Blackwell Ultra memanfaatkan arsitektur Blackwell yang ada tetapi menggabungkan GB300 NVL72 yang lebih kuat. Konfigurasi ini menampilkan 72 GPU Blackwell Ultra yang saling terhubung melalui NVLink, memberikan daya komputasi presisi FP4 yang mengejutkan sebesar 1,1 Exaflops. GB300 NVL72 menawarkan kinerja AI 1,5 kali lebih besar dari GB200 NVL72. Satu sistem DGS GB300 menawarkan 15 Exaflops komputasi. Dijadwalkan untuk rilis pada paruh kedua tahun 2025, Blackwell Ultra akan didukung oleh berbagai vendor peralatan server, termasuk Cisco, Dell, HPE, Lenovo, ASUS, Foxconn, Gigabyte, Pegatron, dan Quanta. Selain itu, penyedia layanan cloud seperti AWS, GCP, dan Azure akan menawarkan layanan komputasi berdasarkan Blackwell Ultra.

Di luar sistem pabrik AI tingkat pembangkit listrik ini, Nvidia juga telah memperkenalkan lini komputer baru yang menargetkan kebutuhan inferensi di dalam perusahaan. Ini termasuk komputer AI pribadi DGX Spark dan DGX Station. DGX Spark, yang ukurannya menyerupai Mac mini, memberikan daya komputasi hingga 1 PFlops.

Untuk menempatkan ini dalam perspektif, superkomputer Taiwania 3, yang diluncurkan pada tahun 2021 dengan lebih dari 50.000 core, hanya memberikan kinerja 2,7 PFlops. Hanya dalam empat tahun, kekuatan komputasi dari tiga komputer AI pribadi seukuran desktop telah melampaui Taiwania 3. Dengan harga $3.999 (sekitar NT$130.000) untuk konfigurasi memori 128GB, komputer AI pribadi baru ini dirancang untuk mendukung kebutuhan AI internal masa depan di dalam perusahaan, berfungsi sebagai pabrik AI mini atau bahkan beroperasi di lingkungan AI edge.

Roadmap Masa Depan: Vera Rubin dan Selanjutnya

Ke depan, CEO Nvidia Jensen Huang telah menguraikan roadmap produk untuk dua tahun ke depan. Pada paruh kedua tahun 2026, perusahaan berencana untuk merilis Vera Rubin NVL144, yang dinamai dari astronom Amerika yang menemukan materi gelap. Vera Rubin NVL144 akan menawarkan kinerja 3,3 kali lipat dari GB300 NVL72, dengan kapasitas memori, bandwidth, dan kecepatan NVLink meningkat lebih dari 1,6 kali lipat. Pada paruh kedua tahun 2027, Nvidia akan meluncurkan Rubin Ultra NVL576, yang akan memberikan kinerja 14 kali lipat dari GB300 NVL72, dengan kapasitas memori dan kecepatan bandwidth yang ditingkatkan secara signifikan melalui NVLink7 dan CX9.

Setelah arsitektur Vera Rubin, arsitektur generasi berikutnya Nvidia akan dinamai dari fisikawan Amerika terkenal Richard Feynman, yang dikenal karena karyanya pada penyelidikan bencana pesawat ulang-alik Challenger.

Strategi Software: Nvidia Dynamo

Nvidia selalu menempatkan penekanan yang kuat pada software, menganggapnya bahkan lebih penting daripada hardware. Fokus strategis ini meluas ke inisiatif pabrik AI perusahaan.

Selain memperluas pustaka akselerasi AI CUDA-X ke berbagai domain dan mengembangkan pustaka akselerasi khusus, Nvidia telah memperkenalkan Nvidia Dynamo, sistem operasi pabrik AI yang baru. Yang penting, Nvidia telah membuka sumber sistem operasi ini.

Nvidia Dynamo adalah kerangka kerja layanan inferensi open-source yang dirancang untuk membangun platform yang menyediakan layanan inferensi LLM. Ini dapat digunakan pada lingkungan K8s dan digunakan untuk menyebarkan dan mengelola tugas inferensi AI skala besar. Nvidia berencana untuk mengintegrasikan Dynamo ke dalam kerangka kerja layanan mikro NIM-nya, menjadikannya komponen dari kerangka kerja Nvidia AI Enterprise.

Dynamo adalah produk generasi berikutnya dari platform server inferensi open-source Nvidia yang ada, Triton. Fitur utamanya adalah pembagian tugas inferensi LLM menjadi dua tahap, memungkinkan pemanfaatan GPU yang lebih fleksibel dan efisien untuk mengoptimalkan pemrosesan inferensi, meningkatkan efisiensi, dan memaksimalkan pemanfaatan GPU. Dynamo dapat secara dinamis mengalokasikan GPU berdasarkan persyaratan inferensi dan mempercepat transfer data asinkron antar GPU, mengurangi waktu respons inferensi model.

Model GAI berbasis Transformer membagi inferensi menjadi dua tahap: Prefill (pra-input), yang mengubah data input menjadi token untuk penyimpanan, dan Decode, proses berurutan yang menghasilkan token berikutnya berdasarkan yang sebelumnya.

Inferensi LLM tradisional menugaskan tugas Prefill dan Decode ke GPU yang sama. Namun, karena karakteristik komputasi yang berbeda dari tugas-tugas ini, Dynamo membaginya, menugaskan sumber daya GPU yang sesuai dan secara dinamis menyesuaikan alokasi berdasarkan karakteristik tugas. Ini mengoptimalkan kinerja cluster GPU.

Pengujian Nvidia menunjukkan bahwa menggunakan Dynamo dengan model DeepSeek-R1 671 miliar parameter pada GB200 NVL72 dapat meningkatkan kinerja inferensi sebanyak 30 kali lipat. Kinerja pada Llama 70B yang berjalan di GPU Hopper juga dapat ditingkatkan lebih dari dua kali lipat.

Mengelola tugas inferensi itu rumit karena sifat komputasi inferensi yang rumit dan berbagai model pemrosesan paralel. Huang menekankan bahwa Nvidia meluncurkan kerangka kerja Dynamo untuk menyediakan sistem operasi untuk pabrik AI.

Pusat data tradisional mengandalkan sistem operasi seperti VMware untuk mengatur berbagai aplikasi pada sumber daya TI perusahaan. Agen AI adalah aplikasi masa depan, dan pabrik AI membutuhkan Dynamo, bukan VMware.

Penamaan Huang atas sistem operasi pabrik AI baru setelah Dynamo, mesin yang memicu revolusi industri, mengungkapkan harapan dan ambisinya untuk platform tersebut.