Chiến lược kép của Nvidia cho suy luận AI Agent | vi

Nvidia đang đặt mục tiêu vào làn sóng AI dựa trên agent trong tương lai, một lĩnh vực hứa hẹn sẽ đặt ra những yêu cầu chưa từng có đối với khả năng suy luận. Để đáp ứng thách thức này, Nvidia đã công bố một chiến lược toàn diện bao gồm cả những đổi mới về phần cứng và phần mềm.

Chiến lược Phần cứng: Mở rộng Quy mô

Trọng tâm trong chiến lược phần cứng của Nvidia là không ngừng theo đuổi các GPU ngày càng mạnh mẽ hơn. Công ty đang áp dụng một phương pháp tiếp cận hai hướng, đầu tiên tập trung vào mở rộng quy mô theo chiều dọc, sau đó là mở rộng quy mô theo chiều ngang. Mục tiêu không chỉ là phát triển một siêu máy tính AI cực mạnh duy nhất trong một giá đỡ, mà là tạo ra một hệ sinh thái toàn diện gồm các giá đỡ được kết nối với nhau, tạo thành một phức hợp siêu máy tính AI khổng lồ. Cách tiếp cận ‘nhà máy AI’ này được thiết kế để cung cấp sức mạnh tính toán cần thiết cho các khối lượng công việc AI đòi hỏi khắt khe nhất.

Siêu máy tính AI gắn trên giá đỡ Blackwell Ultra mới, được công bố tại hội nghị GTC gần đây, là một ví dụ điển hình cho chiến lược này. Được thiết kế để tăng tốc cả quá trình đào tạo và suy luận mở rộng quy mô thời gian thử nghiệm, Blackwell Ultra tận dụng kiến trúc Blackwell hiện có nhưng kết hợp GB300 NVL72 mạnh mẽ hơn. Cấu hình này có 72 GPU Blackwell Ultra được kết nối với nhau thông qua NVLink, mang lại sức mạnh tính toán chính xác FP4 đáng kinh ngạc là 1,1 Exaflops. GB300 NVL72 tự hào có hiệu suất AI gấp 1,5 lần so với GB200 NVL72. Một hệ thống DGS GB300 duy nhất cung cấp 15 Exaflops tính toán. Dự kiến phát hành vào nửa cuối năm 2025, Blackwell Ultra sẽ được hỗ trợ bởi một loạt các nhà cung cấp thiết bị máy chủ, bao gồm Cisco, Dell, HPE, Lenovo, ASUS, Foxconn, Gigabyte, Pegatron và Quanta. Ngoài ra, các nhà cung cấp dịch vụ đám mây như AWS, GCP và Azure sẽ cung cấp các dịch vụ điện toán dựa trên Blackwell Ultra.

Ngoài các hệ thống nhà máy AI cấp nhà máy điện này, Nvidia cũng đã giới thiệu một dòng máy tính mới nhắm đến nhu cầu suy luận trong các doanh nghiệp. Chúng bao gồm máy tính AI cá nhân DGX Spark và DGX Station. DGX Spark, có kích thước tương tự như Mac mini, cung cấp công suất tính toán lên đến 1 PFlops.

Để đưa điều này vào перспектива, siêu máy tính Taiwania 3, ra mắt vào năm 2021 với hơn 50.000 lõi, chỉ cung cấp hiệu suất 2,7 PFlops. Chỉ trong bốn năm, sức mạnh tính toán của ba máy tính AI cá nhân kích thước máy tính để bàn đã vượt qua Taiwania 3. Với giá 3.999 đô la (khoảng 130.000 Đài tệ) cho cấu hình bộ nhớ 128GB, những máy tính AI cá nhân mới này được thiết kế để cung cấp năng lượng cho các nhu cầu AI nội bộ trong tương lai trong các doanh nghiệp, đóng vai trò là các nhà máy AI mini hoặc thậm chí hoạt động trong môi trường AI biên.

Lộ trình Tương lai: Vera Rubin và Hơn Thế Nữa

Nhìn về phía trước, Giám đốc điều hành của Nvidia, Jensen Huang đã vạch ra một lộ trình sản phẩm cho hai năm tới. Vào nửa cuối năm 2026, công ty có kế hoạch phát hành Vera Rubin NVL144, được đặt theo tên nhà thiên văn học người Mỹ đã khám phá ra vật chất tối. Vera Rubin NVL144 sẽ cung cấp hiệu suất gấp 3,3 lần so với GB300 NVL72, với dung lượng bộ nhớ, băng thông và tốc độ NVLink tăng hơn 1,6 lần. Vào nửa cuối năm 2027, Nvidia sẽ ra mắt Rubin Ultra NVL576, sản phẩm này sẽ cung cấp hiệu suất gấp 14 lần so với GB300 NVL72, với dung lượng bộ nhớ và tốc độ băng thông được tăng cường đáng kể thông qua NVLink7 và CX9.

Sau kiến trúc Vera Rubin, kiến trúc thế hệ tiếp theo của Nvidia sẽ được đặt theo tên nhà vật lý người Mỹ nổi tiếng Richard Feynman, người nổi tiếng với công việc điều tra thảm họa tàu con thoi Challenger.

Chiến lược Phần mềm: Nvidia Dynamo

Nvidia luôn nhấn mạnh vào phần mềm, coi nó thậm chí còn quan trọng hơn phần cứng. Trọng tâm chiến lược này mở rộng sang các sáng kiến nhà máy AI của công ty.

Ngoài việc mở rộng thư viện tăng tốc AI CUDA-X sang nhiều lĩnh vực khác nhau và phát triển các thư viện tăng tốc chuyên dụng, Nvidia đã giới thiệu Nvidia Dynamo, một hệ điều hành nhà máy AI mới. Điều quan trọng là Nvidia đã mở mã nguồn hệ điều hành này.

Nvidia Dynamo là một khuôn khổ dịch vụ suy luận mã nguồn mở được thiết kế để xây dựng các nền tảng cung cấp dịch vụ suy luận LLM. Nó có thể được triển khai trên môi trường K8s và được sử dụng để triển khai và quản lý các tác vụ suy luận AI quy mô lớn. Nvidia có kế hoạch tích hợp Dynamo vào khuôn khổ vi dịch vụ NIM của mình, biến nó thành một thành phần của khuôn khổ Nvidia AI Enterprise.

Dynamo là sản phẩm thế hệ tiếp theo của nền tảng máy chủ suy luận mã nguồn mở hiện có của Nvidia, Triton. Tính năng chính của nó là phân chia các tác vụ suy luận LLM thành hai giai đoạn, cho phép sử dụng GPU linh hoạt và hiệu quả hơn để tối ưu hóa quá trình suy luận, cải thiện hiệu quả và tối đa hóa việc sử dụng GPU. Dynamo có thể phân bổ động GPU dựa trên yêu cầu suy luận và tăng tốc truyền dữ liệu không đồng bộ giữa các GPU, giảm thời gian phản hồi suy luận mô hình.

Các mô hình GAI dựa trên Transformer chia suy luận thành hai giai đoạn: Prefill (tiền nhập), chuyển đổi dữ liệu đầu vào thành mã thông báo để lưu trữ và Decode, một quy trình tuần tự tạo ra mã thông báo tiếp theo dựa trên mã thông báo trước đó.

Suy luận LLM truyền thống gán cả tác vụ Prefill và Decode cho cùng một GPU. Tuy nhiên, do đặc tính tính toán khác nhau của các tác vụ này, Dynamo chia chúng, phân bổ tài nguyên GPU cho phù hợp và điều chỉnh phân bổ một cách linh hoạt dựa trên các đặc tính của tác vụ. Điều này tối ưu hóa hiệu suất cụm GPU.

Thử nghiệm của Nvidia cho thấy rằng việc sử dụng Dynamo với mô hình DeepSeek-R1 671 tỷ tham số trên GB200 NVL72 có thể cải thiện hiệu suất suy luận lên 30 lần. Hiệu suất trên Llama 70B chạy trên Hopper GPU cũng có thể được cải thiện hơn gấp đôi.

Việc quản lý các tác vụ suy luận rất phức tạp do tính chất phức tạp của tính toán suy luận và sự đa dạng của các mô hình xử lý song song. Huang nhấn mạnh rằng Nvidia đã ra mắt khuôn khổ Dynamo để cung cấp một hệ điều hành cho các nhà máy AI.

Các trung tâm dữ liệu truyền thống dựa vào các hệ điều hành như VMware để điều phối các ứng dụng khác nhau trên tài nguyên CNTT của doanh nghiệp. Các agent AI là các ứng dụng của tương lai và các nhà máy AI yêu cầu Dynamo, không phải VMware.

Việc Huang đặt tên cho hệ điều hành nhà máy AI mới theo Dynamo, một động cơ đã châm ngòi cho cuộc cách mạng công nghiệp, cho thấy kỳ vọng và tham vọng của ông đối với nền tảng này.

cập nhật lúc 2025-04-13

# LLM # Agent # Nvidia