Strategi Dua Hala Nvidia Sasar Inferens AI Agen

Nvidia sedang mengintai gelombang masa depan AI berasaskan ejen, sebuah domain yang menjanjikan untuk meletakkan tuntutan yang belum pernah terjadi sebelumnya pada keupayaan inferens. Untuk memenuhi cabaran ini, Nvidia telah melancarkan strategi komprehensif yang merangkumi inovasi perkakasan dan perisian.

Strategi Perkakasan: Penskalaan Ke Atas dan Keluar

Di tengah-tengah strategi perkakasan Nvidia terletak usaha tanpa henti untuk GPU yang sentiasa lebih berkuasa. Syarikat itu menggunakan pendekatan dua cabang, pertama memberi tumpuan kepada penskalaan menegak, kemudian pada penskalaan mendatar. Matlamatnya bukan hanya untuk membangunkan satu superkomputer AI ultra-berkuasa dalam rak, tetapi untuk mewujudkan keseluruhan ekosistem rak yang saling berkaitan, membentuk kompleks superkomputer AI yang besar. Pendekatan ‘kilang AI’ ini direka untuk menyediakan otot pengiraan yang diperlukan untuk beban kerja AI yang paling mencabar.

Superkomputer AI yang dipasang di rak Blackwell Ultra yang baharu, yang dilancarkan pada persidangan GTC baru-baru ini, mencontohi strategi ini. Direka untuk mempercepatkan kedua-dua latihan dan inferens penskalaan masa ujian, Blackwell Ultra memanfaatkan seni bina Blackwell sedia ada tetapi menggabungkan GB300 NVL72 yang lebih berkuasa. Konfigurasi ini menampilkan 72 GPU Blackwell Ultra yang saling berkaitan melalui NVLink, menyampaikan kuasa pengkomputeran ketepatan FP4 sebanyak 1.1 Exaflop yang mengejutkan. GB300 NVL72 menawarkan 1.5 kali prestasi AI GB200 NVL72. Satu sistem DGS GB300 menawarkan 15 Exaflop pengiraan. Dijadualkan untuk dikeluarkan pada separuh kedua 2025, Blackwell Ultra akan disokong oleh pelbagai vendor peralatan pelayan, termasuk Cisco, Dell, HPE, Lenovo, ASUS, Foxconn, Gigabyte, Pegatron, dan Quanta. Selain itu, penyedia perkhidmatan awan seperti AWS, GCP, dan Azure akan menawarkan perkhidmatan pengiraan berdasarkan Blackwell Ultra.

Selain daripada sistem kilang AI peringkat loji kuasa ini, Nvidia juga telah memperkenalkan barisan baharu komputer yang menyasarkan keperluan inferens dalam perusahaan. Ini termasuk komputer AI peribadi DGX Spark dan DGX Station. DGX Spark, menyerupai Mac mini dari segi saiz, memberikan sehingga 1 PFlops kuasa pengiraan.

Untuk meletakkan ini dalam perspektif, superkomputer Taiwania 3, yang dilancarkan pada tahun 2021 dengan lebih 50,000 teras, hanya menyediakan 2.7 PFlops prestasi. Dalam masa empat tahun sahaja, kuasa pengkomputeran tiga komputer AI peribadi bersaiz desktop telah melebihi Taiwania 3. Berharga $3,999 (kira-kira NT$130,000) untuk konfigurasi memori 128GB, komputer AI peribadi baharu ini direka untuk menjana keperluan AI dalaman masa depan dalam perusahaan, berfungsi sebagai kilang AI mini atau bahkan beroperasi dalam persekitaran AI tepi.

Hala Tuju Masa Depan: Vera Rubin dan Seterusnya

Menjelang masa hadapan, Ketua Pegawai Eksekutif Nvidia Jensen Huang telah menggariskan hala tuju produk untuk dua tahun akan datang. Pada separuh kedua 2026, syarikat itu merancang untuk mengeluarkan Vera Rubin NVL144, dinamakan sempena ahli astronomi Amerika yang menemui jirim gelap. Vera Rubin NVL144 akan menawarkan 3.3 kali ganda prestasi GB300 NVL72, dengan kapasiti memori, lebar jalur dan kelajuan NVLink meningkat lebih daripada 1.6 kali ganda. Pada separuh kedua 2027, Nvidia akan melancarkan Rubin Ultra NVL576, yang akan memberikan 14 kali ganda prestasi GB300 NVL72, dengan kapasiti memori dan kelajuan lebar jalur yang dipertingkatkan dengan ketara melalui NVLink7 dan CX9.

Berikutan seni bina Vera Rubin, seni bina generasi akan datang Nvidia akan dinamakan sempena ahli fizik Amerika yang terkenal Richard Feynman, yang terkenal dengan kerjanya dalam penyiasatan bencana pesawat ulang-alik Challenger.

Strategi Perisian: Nvidia Dynamo

Nvidia sentiasa memberi penekanan yang kuat pada perisian, menganggapnya lebih kritikal daripada perkakasan. Tumpuan strategik ini meluas kepada inisiatif kilang AI syarikat.

Sebagai tambahan kepada mengembangkan perpustakaan pecutan AI CUDA-X ke pelbagai domain dan membangunkan perpustakaan pecutan khusus, Nvidia telah memperkenalkan Nvidia Dynamo, sistem pengendalian kilang AI baharu. Pentingnya, Nvidia telah membuka sumber sistem pengendalian ini.

Nvidia Dynamo ialah rangka kerja perkhidmatan inferens sumber terbuka yang direka untuk membina platform yang menyediakan perkhidmatan inferens LLM. Ia boleh digunakan dalam persekitaran K8s dan digunakan untuk menggunakan dan mengurus tugas inferens AI berskala besar. Nvidia merancang untuk menyepadukan Dynamo ke dalam rangka kerja perkhidmatan mikro NIMnya, menjadikannya komponen rangka kerja Nvidia AI Enterprise.

Dynamo ialah produk generasi akan datang bagi platform pelayan inferens sumber terbuka sedia ada Nvidia, Triton. Ciri utamanya ialah pembahagian tugas inferens LLM kepada dua peringkat, yang membolehkan penggunaan GPU yang lebih fleksibel dan cekap untuk mengoptimumkan pemprosesan inferens, meningkatkan kecekapan dan memaksimumkan penggunaan GPU. Dynamo boleh memperuntukkan GPU secara dinamik berdasarkan keperluan inferens dan mempercepatkan pemindahan data tak segerak antara GPU, mengurangkan masa tindak balas inferens model.

Model GAI berasaskan Transformer membahagikan inferens kepada dua peringkat: Prefill (pra-input), yang menukar data input kepada token untuk penyimpanan, dan Decode, proses berurutan yang menjana token seterusnya berdasarkan yang sebelumnya.

Inferens LLM tradisional memberikan kedua-dua tugas Prefill dan Decode kepada GPU yang sama. Walau bagaimanapun, disebabkan oleh ciri pengiraan tugas yang berbeza ini, Dynamo membahagikannya, memberikan sumber GPU sewajarnya dan melaraskan peruntukan secara dinamik berdasarkan ciri tugas. Ini mengoptimumkan prestasi kluster GPU.

Ujian Nvidia menunjukkan bahawa menggunakan Dynamo dengan model DeepSeek-R1 671 bilion parameter pada GB200 NVL72 boleh meningkatkan prestasi inferens sebanyak 30 kali ganda. Prestasi pada Llama 70B yang berjalan pada Hopper GPU juga boleh dipertingkatkan lebih daripada dua kali ganda.

Mengurus tugas inferens adalah rumit disebabkan oleh sifat rumit pengiraan inferens dan pelbagai model pemprosesan selari. Huang menekankan bahawa Nvidia melancarkan rangka kerja Dynamo untuk menyediakan sistem pengendalian untuk kilang AI.

Pusat data tradisional bergantung pada sistem pengendalian seperti VMware untuk mengatur aplikasi yang berbeza pada sumber IT perusahaan. Ejen AI ialah aplikasi masa depan, dan kilang AI memerlukan Dynamo, bukan VMware.

Penamaan Huang bagi sistem pengendalian kilang AI baharu itu sempena Dynamo, enjin yang mencetuskan revolusi perindustrian, mendedahkan jangkaan dan cita-citanya untuk platform itu.