Sự trỗi dậy của Llama Nemotron: Tăng cường khả năng lập luận cho AI thông minh hơn
Tại hội nghị GTC 2025, Nvidia đã báo hiệu một bước tiến lớn vào lĩnh vực trí tuệ nhân tạo tác tử (agentic artificial intelligence) đang phát triển. Công ty không chỉ tập trung vào cơ sở hạ tầng cơ bản cung cấp năng lượng cho các hệ thống này; mà còn phát triển chính các mô hình sẽ thúc đẩy thế hệ tác tử AI tự động tiếp theo.
Trọng tâm trong chiến lược của Nvidia là việc ra mắt dòng mô hình AI Llama Nemotron. Các mô hình này tự hào có khả năng lập luận được nâng cao đáng kể, đánh dấu một bước tiến trong việc tìm kiếm AI tinh vi hơn. Được xây dựng dựa trên các mô hình Llama nguồn mở của Meta Platforms Inc., dòng Nemotron được thiết kế để cung cấp cho các nhà phát triển một nền tảng vững chắc để tạo ra các tác tử AI tiên tiến. Các tác tử này được hình dung để thực hiện các nhiệm vụ với sự giám sát tối thiểu của con người, thể hiện một tiến bộ đáng kể trong tính tự chủ của AI.
Nvidia đã đạt được những cải tiến này thông qua các cải tiến sau đào tạo tỉ mỉ. Hãy coi đó như việc đưa một học sinh đã có kỹ năng và cung cấp cho họ sự hướng dẫn chuyên biệt. Việc ‘hướng dẫn’ này tập trung vào việc tăng cường khả năng của các mô hình trong toán học đa bước, mã hóa, ra quyết định phức tạp và lập luận tổng thể. Theo Nvidia, kết quả là độ chính xác tăng 20% so với các mô hình Llama ban đầu. Nhưng những cải tiến không dừng lại ở độ chính xác. Tốc độ suy luận – về cơ bản là tốc độ mô hình có thể xử lý thông tin và đưa ra câu trả lời – đã tăng gấp 5 lần. Điều này chuyển thành việc xử lý các tác vụ phức tạp hơn với chi phí hoạt động giảm, một yếu tố quan trọng để triển khai trong thế giới thực.
Các mô hình Llama Nemotron được cung cấp với ba kích thước riêng biệt thông qua nền tảng dịch vụ vi mô NIM của Nvidia:
- Nano: Được thiết kế để triển khai trên các thiết bị có khả năng xử lý hạn chế, chẳng hạn như máy tính cá nhân và thiết bị biên. Điều này mở ra khả năng cho các tác tử AI hoạt động trong môi trường hạn chế tài nguyên.
- Super: Được tối ưu hóa để thực thi trên một đơn vị xử lý đồ họa (GPU). Điều này cung cấp sự cân bằng giữa hiệu suất và yêu cầu tài nguyên.
- Ultra: Được thiết kế cho hiệu suất tối đa, yêu cầu nhiều máy chủ GPU. Điều này phục vụ cho các ứng dụng đòi hỏi mức độ khả năng AI cao nhất.
Quá trình tinh chỉnh sử dụng nền tảng Nvidia DGX Cloud, sử dụng dữ liệu tổng hợp chất lượng cao từ Nvidia Nemotron, cùng với các bộ dữ liệu được quản lý riêng của Nvidia. Trong một động thái thúc đẩy tính minh bạch và hợp tác, Nvidia đang cung cấp công khai các bộ dữ liệu này, các công cụ được sử dụng và chi tiết về các kỹ thuật tối ưu hóa của mình. Cách tiếp cận mở này khuyến khích cộng đồng AI rộng lớn hơn xây dựng dựa trên công việc của Nvidia và phát triển các mô hình lập luận nền tảng của riêng họ.
Tác động của Llama Nemotron đã thể hiện rõ trong các mối quan hệ đối tác mà Nvidia đã tạo dựng. Các công ty lớn như Microsoft Corp. đang tích hợp các mô hình này vào các dịch vụ dựa trên đám mây của họ.
- Microsoft đang cung cấp chúng trên dịch vụ Azure AI Foundry của mình.
- Chúng cũng sẽ được cung cấp như một tùy chọn cho khách hàng tạo các tác tử mới bằng Dịch vụ tác tử Azure AI cho Microsoft 365.
- SAP SE đang tận dụng Llama Nemotron để nâng cao trợ lý AI của mình, Joule và danh mục giải pháp AI kinh doanh SAP rộng lớn hơn.
- Các công ty nổi bật khác, bao gồm Accenture Plc, Atlassian Corp., Box Inc. và ServiceNow Inc., cũng đang hợp tác với Nvidia để cung cấp cho khách hàng của họ quyền truy cập vào các mô hình này.
Vượt ra ngoài các mô hình: Một hệ sinh thái toàn diện cho AI tác tử
Nvidia hiểu rằng việc xây dựng các tác tử AI đòi hỏi nhiều hơn là các mô hình ngôn ngữ mạnh mẽ. Cần có một hệ sinh thái hoàn chỉnh, bao gồm cơ sở hạ tầng, công cụ, quy trình dữ liệu, v.v. Công ty đang giải quyết những nhu cầu này bằng một bộ các khối xây dựng AI tác tử bổ sung, cũng được công bố tại GTC 2025.
Nvidia AI-Q Blueprint: Kết nối kiến thức với hành động
Framework này được thiết kế để tạo điều kiện kết nối giữa cơ sở kiến thức và tác tử AI, cho phép chúng hoạt động tự chủ. Được xây dựng bằng các dịch vụ vi mô Nvidia NIM và tích hợp với Nvidia NeMo Retriever, bản thiết kế đơn giản hóa quá trình truy xuất dữ liệu đa phương thức – thông tin ở nhiều định dạng khác nhau như văn bản, hình ảnh và âm thanh – cho các tác tử AI.
Nền tảng dữ liệu Nvidia AI: Tối ưu hóa luồng dữ liệu để lập luận
Thiết kế tham chiếu có thể tùy chỉnh này đang được cung cấp cho các nhà cung cấp lưu trữ lớn. Mục tiêu là hỗ trợ các công ty như Dell Technologies Inc., Hewlett Packard Enterprise Co., Hitachi Vantara, IBM Corp., NetApp Inc.. Nutanix Inc., Vast Data Inc. và Pure Storage Inc. trong việc phát triển các nền tảng dữ liệu hiệu quả hơn, đặc biệt cho khối lượng công việc suy luận AI tác tử. Bằng cách kết hợp các tài nguyên lưu trữ được tối ưu hóa với phần cứng điện toán tăng tốc của Nvidia, các nhà phát triển có thể mong đợi hiệu suất tăng đáng kể trong lập luận AI. Điều này đạt được bằng cách đảm bảo luồng thông tin trôi chảy và nhanh chóng từ cơ sở dữ liệu đến mô hình AI.
Dịch vụ vi mô Nvidia NIM nâng cao: Học tập và thích ứng liên tục
Các dịch vụ vi mô NIM của Nvidia đã được cập nhật để tối ưu hóa suy luận AI tác tử, hỗ trợ học tập và thích ứng liên tục. Các dịch vụ vi mô này cho phép khách hàng triển khai một cách đáng tin cậy các mô hình AI tác tử mới nhất và mạnh mẽ nhất, bao gồm Llama Nemotron của Nvidia và các lựa chọn thay thế từ các công ty như Meta, Microsoft và Mistral AI.
Dịch vụ vi mô Nvidia NeMo: Xây dựng bánh đà dữ liệu mạnh mẽ
Nvidia cũng đang tăng cường các dịch vụ vi mô NeMo của mình, cung cấp một framework cho các nhà phát triển đểtạo ra các bánh đà dữ liệu mạnh mẽ và hiệu quả. Điều này rất quan trọng để đảm bảo rằng các tác tử AI có thể liên tục học hỏi và cải thiện dựa trên cả phản hồi do con người tạo ra và do AI tạo ra.
Quan hệ đối tác chiến lược: Thúc đẩy đổi mới trên toàn cảnh AI
Cam kết của Nvidia đối với AI tác tử mở rộng đến sự hợp tác của hãng với các công ty hàng đầu khác trong ngành.
Mở rộng quan hệ đối tác Oracle: AI tác tử trên Oracle Cloud Infrastructure
Nvidia đang mở rộng hợp tác với Oracle Corp. để mang các khả năng AI tác tử đến Oracle Cloud Infrastructure (OCI). Quan hệ đối tác này liên quan đến việc tích hợp GPU tăng tốc và phần mềm suy luận của Nvidia vào cơ sở hạ tầng đám mây của Oracle, làm cho chúng tương thích với các dịch vụ AI tổng quát của Oracle. Điều này sẽ đẩy nhanh sự phát triển của các tác tử AI trên OCI. Nvidia hiện cung cấp hơn 160 công cụ AI và dịch vụ vi mô NIM nguyên bản thông qua bảng điều khiển OCI. Hai công ty cũng đang làm việc để tăng tốc tìm kiếm vector trên nền tảng Oracle Database 23ai.
Tăng cường hợp tác với Google: Nâng cao khả năng truy cập và tính toàn vẹn của AI
Nvidia cũng cung cấp thông tin cập nhật về sự hợp tác mở rộng của mình với Google LLC, tiết lộ một số sáng kiến nhằm cải thiện khả năng truy cập vào AI và các công cụ cơ bản của nó.
Điểm nổi bật chính là Nvidia trở thành tổ chức đầu tiên tận dụng SynthID của Google DeepMind. Công nghệ này nhúng trực tiếp các hình mờ kỹ thuật số vào nội dung do AI tạo ra, bao gồm hình ảnh, video và văn bản. Điều này giúp bảo vệ tính toàn vẹn của đầu ra AI và chống lại thông tin sai lệch. SynthID ban đầu đang được tích hợp với các mô hình nền tảng Cosmos World của Nvidia.
Ngoài ra, Nvidia đã hợp tác với các nhà nghiên cứu DeepMind của Google để tối ưu hóa Gemma, một dòng mô hình AI nguồn mở, nhẹ, cho GPU Nvidia. Hai công ty cũng đang hợp tác trong một sáng kiến xây dựng robot hỗ trợ AI với kỹ năng nắm bắt, cùng với các dự án khác.
Sự hợp tác giữa các nhà nghiên cứu và kỹ sư của Google và Nvidia đang giải quyết một loạt các thách thức. Từ khám phá thuốc đến robot, làm nổi bật tiềm năng biến đổi của.