Nvidia định nghĩa lại 'GPU': Chi phí hạ tầng AI có thể tăng

Một sự điều chỉnh đáng chú ý: Nvidia xem xét lại cách đếm GPU của mình

Trong sân khấu đầy cạnh tranh của đổi mới bán dẫn, Hội nghị Công nghệ GPU (GTC) của Nvidia đóng vai trò là một sân khấu hàng đầu để hé lộ tương lai. Trong lần họp mặt gần đây nhất, giữa những tiếng reo hò mong đợi xung quanh những tiến bộ trong trí tuệ nhân tạo và điện toán tăng tốc, công ty đã giới thiệu một thay đổi tinh tế nhưng có khả năng sâu sắc – một sự sửa đổi trong cách họ định nghĩa cơ bản một Bộ xử lý đồ họa (GPU). Đây không chỉ đơn thuần là một chú thích kỹ thuật; đó là một sự hiệu chỉnh lại với những tác động đáng kể về sau, đặc biệt liên quan đến cấu trúc chi phí cho việc triển khai các giải pháp AI tiên tiến của Nvidia.

Chính CEO Jensen Huang đã trực tiếp đề cập đến sự thay đổi này từ sân khấu GTC, coi đó là sự sửa chữa cho một sự giám sát trước đó liên quan đến kiến trúc Blackwell tiên tiến của họ. ‘Một trong những điều tôi đã mắc lỗi: Blackwell thực sự là hai GPU trong một chip Blackwell’, ông tuyên bố. Lý do được đưa ra tập trung vào sự rõ ràng và nhất quán, đặc biệt liên quan đến quy ước đặt tên liên quan đến NVLink, công nghệ kết nối tốc độ cao của Nvidia. ‘Chúng tôi đã gọi con chip đó là một GPU và điều đó là sai. Lý do là nó làm rối tung tất cả danh pháp NVLink’, Huang giải thích thêm. Mặc dù việc đơn giản hóa số hiệu model mang lại một mức độ gọn gàng hợp lý, việc định nghĩa lại này mang trọng lượng vượt xa ngữ nghĩa đơn thuần.

Cốt lõi của sự thay đổi nằm ở việc chuyển từ việc đếm các module vật lý (cụ thể là yếu tố hình thức SXM phổ biến trong các máy chủ hiệu năng cao) là các GPU riêng lẻ sang việc đếm các die silicon riêng biệt bên trong các module đó. Sự điều chỉnh dường như nhỏ nhặt này trong thuật ngữ có khả năng thay đổi đáng kể bối cảnh tài chính cho các tổ chức tận dụng bộ phần mềm AI Enterprise của Nvidia.

Hiệu ứng gợn sóng tài chính: Tăng gấp đôi giấy phép AI Enterprise?

Nvidia AI Enterprise là một nền tảng phần mềm toàn diện được thiết kế để hợp lý hóa việc phát triển và triển khai các ứng dụng AI. Nó bao gồm một loạt các công cụ, framework và quan trọng là quyền truy cập vào Nvidia Inference Microservices (NIMs), là các container được tối ưu hóa để chạy các mô hình AI một cách hiệu quả. Mô hình cấp phép cho bộ phần mềm mạnh mẽ này trong lịch sử đã được gắn trực tiếp với số lượng GPU được triển khai. Các cấu trúc giá hiện tại đặt chi phí vào khoảng $4,500 mỗi GPU hàng năm, hoặc mức giá dựa trên đám mây là $1 mỗi GPU mỗi giờ.

Hãy xem xét thế hệ trước hoặc một số cấu hình Blackwell nhất định. Một máy chủ Nvidia HGX B200, được trang bị tám module SXM, trong đó mỗi module chứa cái mà sau đó được coi là một GPU Blackwell duy nhất, sẽ yêu cầu tám giấy phép AI Enterprise. Điều này chuyển thành chi phí đăng ký phần mềm hàng năm là $36,000 (8 GPU * $4,500/GPU) hoặc chi phí đám mây hàng giờ là $8 (8 GPU * $1/GPU/giờ).

Bây giờ, hãy bước vào bối cảnh mới được định nghĩa với các hệ thống như HGX B300 NVL16. Hệ thống này cũng có tám module SXM vật lý. Tuy nhiên, theo định nghĩa sửa đổi, Nvidia hiện đếm mỗi die silicon trong các module này là một GPU riêng lẻ. Vì mỗi module trong cấu hình cụ thể này chứa hai die, tổng số GPU cho mục đích cấp phép tăng gấp đôi một cách hiệu quả lên 16 GPU (8 module * 2 die/module).

Giả sử Nvidia duy trì cấu trúc giá mỗi GPU hiện có cho bộ AI Enterprise – một điểm mà công ty đã tuyên bố là chưa được hoàn thiện – thì các tác động là rõ ràng. Cùng một hệ thống HGX B300 tám module đó giờ đây có khả năng yêu cầu 16 giấy phép, đẩy chi phí phần mềm hàng năm lên $72,000 (16 GPU * $4,500/GPU) hoặc $16 mỗi giờ trên đám mây. Điều này thể hiện sự tăng 100% chi phí đăng ký phần mềm cho mật độ phần cứng có vẻ tương đương, xuất phát trực tiếp từ sự thay đổi trong cách một ‘GPU’ được đếm.

Câu chuyện về hai kiến trúc: Dung hòa các tuyên bố trong quá khứ

Sự thay đổi trong danh pháp này thể hiện một sự tương phản thú vị với các đặc điểm trước đây của Nvidia về kiến trúc Blackwell. Khi Blackwell lần đầu tiên được công bố, các cuộc thảo luận đã nảy sinh liên quan đến thiết kế của nó, bao gồm nhiều mảnh silicon (die) được liên kết với nhau trong một gói bộ xử lý duy nhất. Vào thời điểm đó, Nvidia đã tích cực phản đối việc mô tả Blackwell bằng thuật ngữ kiến trúc ‘chiplet’ – một thuật ngữ công nghiệp phổ biến cho các thiết kế sử dụng nhiều die nhỏ hơn, được kết nối với nhau. Thay vào đó, công ty nhấn mạnh một quan điểm khác.

Như đã được báo cáo trong quá trình đưa tin về buổi ra mắt Blackwell, Nvidia lập luận rằng họ đã sử dụng một ‘kiến trúc die giới hạn hai reticle hoạt động như một GPU đơn lẻ, thống nhất.’ Cách diễn đạt này gợi ý mạnh mẽ rằng mặc dù có sự hiện diện vật lý của hai die, chúng hoạt động gắn kết như một đơn vị xử lý logic. Phương pháp đếm mới được áp dụng cho cấu hình B300 dường như xoay trục khỏi khái niệm ‘GPU đơn lẻ, thống nhất’ này, ít nhất là từ quan điểm cấp phép phần mềm, coi các die là các thực thể riêng biệt. Điều này đặt ra câu hỏi về việc liệu mô tả ban đầu chủ yếu tập trung vào tiềm năng chức năng của phần cứng hay quan điểm chiến lược về cấp phép đã phát triển.

Lợi ích hiệu năng so với khả năng tăng chi phí: Đánh giá đề xuất B300

Khi xem xét khả năng tăng gấp đôi phí cấp phép phần mềm cho HGX B300 so với các phiên bản tiền nhiệm như B200, điều quan trọng là phải kiểm tra các cải tiến hiệu năng do phần cứng mới hơn cung cấp. Liệu B300 có cung cấp gấp đôi sức mạnh xử lý AI để biện minh cho khả năng tăng gấp đôi chi phí phần mềm không? Các thông số kỹ thuật cho thấy một bức tranh phức tạp hơn.

HGX B300 tự hào có những cải tiến:

  • Tăng dung lượng bộ nhớ: Nó cung cấp khoảng 2.3 Terabyte bộ nhớ băng thông cao (HBM) cho mỗi hệ thống, một bước nhảy đáng kể khoảng 1.5 lần so với 1.5TB có sẵn trên B200. Điều này rất quan trọng để xử lý các mô hình AI và bộ dữ liệu lớn hơn.
  • Nâng cao hiệu năng độ chính xác thấp: B300 thể hiện sự nâng cao đáng kể về hiệu năng cho các phép tính sử dụng độ chính xác dấu phẩy động 4-bit (FP4). Thông lượng FP4 của nó đạt hơn 105 petaFLOPS dày đặc mỗi hệ thống, tăng khoảng 50% so với B200. Sự tăng tốc này đặc biệt có lợi cho một số tác vụ suy luận AI nhất định nơi độ chính xác thấp hơn được chấp nhận.

Tuy nhiên, lợi thế về hiệu năng không phổ biến trên tất cả các khối lượng công việc. Quan trọng là, đối với các tác vụ yêu cầu số học dấu phẩy động có độ chính xác cao hơn (như FP8, FP16 hoặc FP32), B300 không cung cấp lợi thế đáng kể về hoạt động dấu phẩy động so với hệ thống B200 cũ hơn. Nhiều tác vụ đào tạo AI phức tạp và tính toán khoa học phụ thuộc nhiều vào các định dạng có độ chính xác cao hơn này.

Do đó, các tổ chức đánh giá B300 phải đối mặt với một phép tính phức tạp. Họ có được dung lượng bộ nhớ đáng kể và sự gia tăng hiệu năng FP4, nhưng khả năng tăng gấp đôi chi phí phần mềm AI Enterprise có thể không tương xứng với việc tăng gấp đôi hiệu năng cho các khối lượng công việc có độ chính xác cao hơn cụ thể của họ. Đề xuất giá trị trở nên phụ thuộc nhiều vào bản chất của các tác vụ AI đang được chạy.

Lý giải kỹ thuật: Các kết nối liên kết và tính độc lập

Điều thú vị là, phương pháp đếm die mới này không được áp dụng phổ biến trên tất cả các hệ thống dựa trên Blackwell mới được công bố tại GTC. Ví dụ, các hệ thống GB300 NVL72 mạnh mẽ hơn, được làm mát bằng chất lỏng, tiếp tục tuân thủ quy ước cũ hơn, đếm toàn bộ gói (chứa hai die) là một GPU duy nhất cho mục đích cấp phép. Sự khác biệt này đặt ra câu hỏi: tại sao lại có sự khác biệt?

Nvidia cung cấp một lý giải kỹ thuật bắt nguồn từ công nghệ kết nối liên kết bên trong chính các gói GPU. Theo Ian Buck, Phó chủ tịch và Tổng giám đốc Hyperscale và HPC của Nvidia, sự khác biệt nằm ở sự hiện diện hay vắng mặt của một kết nối chip-to-chip (C2C) quan trọng liên kết trực tiếp hai die trong gói.

  • Cấu hình HGX B300: Các gói Blackwell cụ thể được sử dụng trong các hệ thống HGX B300 làm mát bằng không khí thiếu kết nối C2C trực tiếp này. Như Buck giải thích, lựa chọn thiết kế này được thực hiện để tối ưu hóa mức tiêu thụ điện năng và quản lý nhiệt trong các giới hạn khung gầm làm mát bằng không khí. Tuy nhiên, hậu quả là hai die trên một module B300 duy nhất hoạt động với mức độ độc lập cao hơn. Nếu một die cần truy cập dữ liệu được lưu trữ trong bộ nhớ băng thông cao được kết nối vật lý với die khác trên cùng một module, nó không thể làm như vậy trực tiếp. Thay vào đó, yêu cầu dữ liệu phải đi ra khỏi gói, đi qua mạng NVLink bên ngoài (có khả năng thông qua chip chuyển mạch NVLink trên bo mạch chủ máy chủ), và sau đó định tuyến trở lại bộ điều khiển bộ nhớ của die kia. Đường vòng này củng cố quan điểm rằng đây là hai đơn vị xử lý chức năng riêng biệt chia sẻ một gói chung nhưng yêu cầu các đường dẫn giao tiếp bên ngoài để chia sẻ bộ nhớ đầy đủ. Sự tách biệt này, Nvidia lập luận, biện minh cho việc đếm chúng là hai GPU riêng biệt.

  • Cấu hình GB300 NVL72: Ngược lại, các gói ‘Superchip’ được sử dụng trong các hệ thống GB300 cao cấp hơn giữ lại kết nối C2C tốc độ cao. Liên kết trực tiếp này cho phép hai die trong gói giao tiếp và chia sẻ tài nguyên bộ nhớ hiệu quả và trực tiếp hơn nhiều, mà không cần đường vòng ra khỏi gói thông qua bộ chuyển mạch NVLink. Bởi vì chúng có thể hoạt động gắn kết hơn và chia sẻ bộ nhớ liền mạch, chúng được coi, từ quan điểm phần mềm và cấp phép, là một GPU đơn lẻ, thống nhất, phù hợp với mô tả ‘thống nhất’ ban đầu của kiến trúc Blackwell.

Sự khác biệt kỹ thuật này cung cấp một cơ sở logic cho các phương pháp đếm khác nhau. Các die của B300 về mặt chức năng tách biệt hơn do thiếu liên kết C2C, tạo cơ sở cho việc đếm hai GPU. Các die của GB300 được kết nối chặt chẽ, hỗ trợ việc đếm một GPU.

Nhìn về tương lai: Vera Rubin tạo tiền lệ

Mặc dù GB300 hiện tại đại diện cho một ngoại lệ, cách tiếp cận đếm die được áp dụng cho B300 dường như là dấu hiệu cho hướng đi tương lai của Nvidia. Công ty đã báo hiệu rằng nền tảng thế hệ tiếp theo của mình, có tên mã là Vera Rubin, dự kiến phát hành xa hơn trong tương lai, sẽ hoàn toàn áp dụng danh pháp mới này.

Chính quy ước đặt tên đã đưa ra một manh mối. Các hệ thống dựa trên kiến trúc Rubin đang được chỉ định với các số cao, chẳng hạn như NVL144. Chỉ định này ngụ ý mạnh mẽ việc đếm các die riêng lẻ thay vì các module. Theo logic của B300, một hệ thống NVL144 có khả năng bao gồm một số lượng module nhất định, mỗi module chứa nhiều die, tổng cộng lên đến 144 die GPU có thể đếm được cho mục đích cấp phép và đặc tả kỹ thuật.

Xu hướng này thậm chí còn rõ rệt hơn trong lộ trình của Nvidia cho cuối năm 2027 với nền tảng Vera Rubin Ultra. Nền tảng này tự hào có con số đáng kinh ngạc là 576 GPU mỗi rack. Như đã phân tích trước đây, con số ấn tượng này không đạt được bằng cách đóng gói 576 module vật lý riêng biệt vào một rack. Thay vào đó, nó phản ánh mô hình đếm mới được áp dụng theo cấp số nhân. Kiến trúc này có khả năng liên quan đến 144 module vật lý mỗi rack, nhưng với mỗi module chứa bốn die silicon riêng biệt. Do đó, 144 module nhân với 4 die mỗi module mang lại con số tiêu đề là 576 ‘GPU’.

Quan điểm hướng tới tương lai này cho thấy rằng phương pháp đếm die của B300 không chỉ đơn thuần là một sự điều chỉnh tạm thời cho các hệ thống làm mát bằng không khí cụ thể mà còn là nguyên tắc nền tảng cho cách Nvidia dự định định lượng tài nguyên GPU của mình trong các thế hệ tương lai. Khách hàng đầu tư vào hệ sinh thái của Nvidia cần dự đoán sự thay đổi này sẽ trở thành tiêu chuẩn.

Yếu tố không được nói đến: Tối đa hóa nguồn doanh thu phần mềm?

Mặc dù giải thích kỹ thuật liên quan đến kết nối C2C cung cấp lý do cho việc đếm GPU riêng biệt của B300, thời điểm và những tác động tài chính đáng kể không thể tránh khỏi dẫn đến suy đoán về động cơ kinh doanh tiềm ẩn. Liệu việc định nghĩa lại này, ban đầu được trình bày như một sự sửa chữa ‘lỗi’ danh pháp, cũng có thể đóng vai trò là một đòn bẩy chiến lược để tăng cường doanh thu phần mềm định kỳ không?

Trong năm kể từ khi Blackwell lần đầu tiên được mô tả chi tiết với thông điệp ‘GPU đơn lẻ, thống nhất’, có thể Nvidia đã nhận ra một cơ hội doanh thu đáng kể đang bị bỏ lỡ. Bộ AI Enterprise đại diện cho một thành phần đang phát triển và có tỷ suất lợi nhuận cao trong hoạt động kinh doanh của Nvidia. Việc gắn giấy phép của nó trực tiếp với số lượng die silicon, thay vì các module vật lý, mang lại một con đường để tăng đáng kể doanh thu phần mềm thu được từ mỗi lần triển khai phần cứng, đặc biệt là khi số lượng die trên mỗi module có khả năng tăng lên trong các kiến trúc tương lai như Vera Rubin Ultra.

Khi được hỏi về việc thay đổi định nghĩa GPU này sẽ ảnh hưởng cụ thể như thế nào đến chi phí cấp phép AI Enterprise cho các hệ thống B300 mới, Nvidia vẫn duy trì một mức độ mơ hồ nhất định. Một phát ngôn viên của công ty cho biết các chi tiết tài chính vẫn đang được xem xét. ‘Chi tiết về giá vẫn đang được hoàn thiện cho B300 và không có chi tiết nào để chia sẻ về Rubin ngoài những gì đã được trình bày trong bài phát biểu quan trọng tại GTC vào thời điểm này’, người phát ngôn tuyên bố, xác nhận rõ ràng rằng điều này bao gồm cả cấu trúc giá cho AI Enterprise trên các nền tảng này.

Việc thiếu giá cuối cùng này, cùng với việc tăng gấp đôi số lượng GPU có thể đếm được trên một số cấu hình phần cứng nhất định, tạo ra sự không chắc chắn cho khách hàng đang lên kế hoạch đầu tư cơ sở hạ tầng AI trong tương lai. Mặc dù các lý giải kỹ thuật là có, khả năng tăng đáng kể chi phí đăng ký phần mềm vẫn hiện hữu. Sự thay đổi này nhấn mạnh tầm quan trọng ngày càng tăng của phần mềm trong chuỗi giá trị bán dẫn và chiến lược rõ ràng của Nvidia nhằm kiếm tiền hiệu quả hơn từ nền tảng AI toàn diện của mình bằng cách điều chỉnh các chỉ số cấp phép chặt chẽ hơn với độ phức tạp silicon cơ bản. Khi các tổ chức lập ngân sách cho các hệ thống AI thế hệ tiếp theo, định nghĩa về ‘GPU’ đột nhiên trở thành một biến số quan trọng và có khả năng đắt đỏ hơn nhiều.