Các mô hình Llama-Nemotron series của Nvidia đã chính thức vượt qua DeepSeek-R1, và các chi tiết về quá trình huấn luyện của chúng đã được tiết lộ đầy đủ, cung cấp những hiểu biết sâu sắc về cách các mô hình này được phát triển để đạt được hiệu suất vượt trội.
Các mô hình này hiện hoàn toàn là mã nguồn mở (open-source), đánh dấu một bước tiến quan trọng trong công nghệ AI dễ tiếp cận. Điều này có nghĩa là một loạt các mô hình suy luận vượt trội hơn đáng kể so với DeepSeek-R1 về thông lượng suy luận và hiệu quả bộ nhớ hiện có sẵn cho bất kỳ ai sử dụng và sửa đổi.
Khám phá bí mật đằng sau thành công của mô hình
Vậy, chính xác thì các mô hình này, vượt qua DeepSeek-R1, đã được tạo ra như thế nào? Báo cáo kỹ thuật của Nvidia tiết lộ các yếu tố quan trọng trong quy trình huấn luyện của họ:
- Tinh chỉnh có giám sát với dữ liệu tổng hợp + Học tăng cường: Sự kết hợp này tăng cường đáng kể khả năng suy luận của mô hình.
- Quy trình hậu huấn luyện toàn diện: Một quy trình hậu huấn luyện mạnh mẽ và được thiết kế tốt là rất quan trọng để tối ưu hóa hiệu suất của mô hình.
Tháng trước, Nvidia chính thức công bố Llama-Nemotron 253B, nhanh chóng làm lu mờ Llama 4 (chỉ mới ba ngày tuổi và phải đối mặt với “khủng hoảng tính toàn vẹn” do thao túng bảng xếp hạng). Việc phát hành loạt mô hình này đã gây ra một sự khuấy động trong ngành.
Theo Chỉ số Phân tích Trí tuệ Nhân tạo, Llama-Nemotron-Ultra hiện được coi là mô hình mã nguồn mở “thông minh nhất” tính đến tháng 4 năm 2025.
Nvidia đã ra mắt ba mô hình trong series Llama-Nemotron: LN-Nano 8B, LN-Super 49B và LN-Ultra 253B.
Đáng chú ý, LN-Ultra không chỉ vượt trội DeepSeek-R1 về hiệu suất mà còn chạy trên một nút 8xH100 duy nhất, mang lại thông lượng suy luận cao hơn.
Các mô hình này được tối ưu hóa cho suy luận thông lượng cao trong khi vẫn duy trì khả năng suy luận mạnh mẽ và độ dài ngữ cảnh lên đến 128K.
Hơn nữa, Nvidia đã giới thiệu một tính năng chuyển đổi suy luận đột phá trong cộng đồng mã nguồn mở AI toàn cầu. Người dùng có thể chuyển đổi linh hoạt giữa chế độ trò chuyện tiêu chuẩn và chế độ suy luận bằng cách sử dụng lời nhắc hệ thống “detailed thinking on/off.”
Thiết kế này cho phép mô hình đáp ứng các nhu cầu hàng ngày chung và xử lý các tác vụ suy luận phức tạp, nhiều bước mà không cần các mô hình hoặc kiến trúc khác nhau.
Quy trình xây dựng: Một phương pháp tiếp cận năm giai đoạn
Việc xây dựng các mô hình Llama-Nemotron được chia thành năm giai đoạn riêng biệt:
Giai đoạn 1: Tối ưu hóa hiệu quả suy luận bằng cách sử dụng tìm kiếm kiến trúc thần kinh (NAS) dựa trên các mô hình series Llama 3, với việc giới thiệu Feedforward Network Fusion (FFN Fusion).
Giai đoạn 2: Phục hồi hiệu suất mô hình thông qua chưng cất kiến thức và tiếp tục huấn luyện trước.
Giai đoạn 3: Tinh chỉnh có giám sát (SFT), kết hợp dữ liệu hướng dẫn tiêu chuẩn với các quy trình suy luận từ các mô hình giáo viên mạnh mẽ như DeepSeek-R1, cho phép mô hình thực hiện suy luận nhiều bước.
Giai đoạn 4: Học tăng cường quy mô lớn trên các tập dữ liệu toán học và STEM phức tạp, rất quan trọng để mô hình học sinh vượt qua khả năng của mô hình giáo viên. Đối với LN-Ultra, giai đoạn này cải thiện đáng kể hiệu suất trên benchmark GPQA-D, thiết lập nó như là mô hình mạnh nhất cho suy luận khoa học trong lĩnh vực mã nguồn mở.
Để hỗ trợ huấn luyện học tăng cường quy mô lớn như vậy, nhóm đã phát triển một framework huấn luyện mới với nhiều biện pháp tối ưu hóa, quan trọng nhất là hỗ trợ khả năng tạo độ chính xác FP8.
Giai đoạn 5: Huấn luyện căn chỉnh ngắn gọn tập trung vào việc tuân theo hướng dẫn và tuân thủ các sở thích của con người.
Kiến trúc sáng tạo cho hiệu quả suy luận tối ưu hóa
LN-Super và LN-Ultra tận dụng framework Puzzle để tìm kiếm kiến trúc thần kinh để tối ưu hóa hiệu quả suy luận mô hình.
Puzzle chuyển đổi các mô hình ngôn ngữ lớn thành các phiên bản hiệu quả, thích ứng với phần cứng, được tối ưu hóa cho việc triển khai.
Thông qua “chưng cất cục bộ theo khối,” các nhà phát triển đã xây dựng một thư viện các mô-đun Transformer thay thế bằng cách sử dụng Llama 3 Instruct.
Trong quá trình này, mỗi mô-đun được huấn luyện độc lập và song song, xấp xỉ chức năng của mô-đun ban đầu đồng thời tối ưu hóa hiệu suất tính toán.
Mỗi mô-đun thay thế có sự đánh đổi “độ chính xác-hiệu quả” cụ thể. Một số mô-đun hiệu quả hơn nhưng có thể dẫn đến giảm chất lượng nhất định, tạo ra sự đánh đổi rõ ràng giữa chi phí tính toán và độ chính xác của mô hình.
Các biến thể mô-đun này bao gồm:
Loại bỏ cơ chế chú ý: Một số mô-đun hoàn toàn bỏ qua cơ chế chú ý, giảm lượng tính toán và mức tiêu thụ bộ nhớ KV cache.
Kích thước FFN biến đổi: Các kích thước trung gian của các mạng feedforward được điều chỉnh, cho phép nén mô hình ở các mức độ chi tiết khác nhau.
Sau khi xây dựng thư viện mô-đun, Puzzle chọn một mô-đun từ mỗi lớp để lắp ráp một mô hình hoàn chỉnh.
Quá trình lựa chọn này được kiểm soát bởi bộ giải lập trình số nguyên hỗn hợp (MIP), bộ này tìm cấu hình tối ưu dựa trên các ràng buộc như khả năng tương thích phần cứng, độ trễ tối đa cho phép, ngân sách bộ nhớ hoặc thông lượng suy luận mong muốn.
Nén dọc và FFN Fusion
Trong mô hình LN-Ultra, các nhà nghiên cứu đã giới thiệu FFN Fusion (Feedforward Network Fusion), một kỹ thuật nén bổ sung để giảm độ sâu chuỗi của mô hình và cải thiện hiệu quả độ trễ suy luận.
Việc Puzzle loại bỏ một số lớp chú ý dẫn đến một cấu trúc duy nhất: nhiều khối FFN liên tục thường xuyên xuất hiện trong cấu trúc mô hình.
FFN Fusion xác định các cấu trúc liên tục này và thay thế chúng bằng ít lớp FFN hơn nhưng rộng hơn, có thể thực thi song song.
Phương pháp thay thế này làm giảm các bước tính toán tuần tự mà không hy sinh khả năng diễn đạt của mô hình, cải thiện đáng kể việc sử dụng tài nguyên tính toán - đặc biệt là trong môi trường đa GPU, nơi chi phí giao tiếp giữa các lớp là đáng kể.
Mô hình LN-Ultra liên tục vượt trội DeepSeek-R1 và Llama-3.1-405B về độ chính xác và hiệu quả, đạt được sự cân bằng tối ưu.
Huấn luyện sau NAS: Chưng cất kiến thức và tiếp tục huấn luyện trước
Sau giai đoạn tìm kiếm kiến trúc thần kinh (NAS), cả LN-Super và LN-Ultra đều trải qua quá trình huấn luyện bổ sung để cải thiện khả năng tương thích giữa các mô-đun và phục hồi mọi tổn thất chất lượng có thể xảy ra trong quá trình thay thế mô-đun.
- LN-Super được huấn luyện trên tập dữ liệu Distillation Mix cho 40 tỷ token theo mục tiêu chưng cất kiến thức.
- LN-Ultra ban đầu được huấn luyện trên cùng một tập dữ liệu chưng cất cho 65 tỷ token, sau đó là tiếp tục huấn luyện trên tập dữ liệu huấn luyện trước giai đoạn thứ tư của Nemotron-H cho 88 tỷ token.
Bước huấn luyện trước cuối cùng này cho phép LN-Ultra không chỉ bắt kịp mô hình tham chiếu, Llama 3.1-405B-Instruct mà còn vượt qua nó trong các bài kiểm tra benchmark quan trọng.
Điều này cho thấy rằng chưng cất và huấn luyện trước ngắn gọn có thể đạt được khả năng tương thích giữa tối ưu hóa kiến trúc tích cực và hiệu suất mô hình cao.
Tinh chỉnh có giám sát: Nâng cao năng lực suy luận
Tinh chỉnh có giám sát (SFT) hoạt động như một “huấn luyện viên cá nhân” cho các mô hình Llama-Nemotron, đặc biệt nhắm mục tiêu các bước suy luận cho các tác vụ cụ thể và học các kỹ thuật suy luận từ các mô hình “học sinh ngôi sao” như DeepSeek-R1.
Để thấm nhuần các kỹ năng suy luận thực sự, dữ liệu huấn luyện suy luận chất lượng cao, quy mô lớn là rất cần thiết.
Dữ liệu tổng hợp: Được thiết kế riêng cho suy luận
Các nhà nghiên cứu đã cẩn thận lựa chọn các mẫu dữ liệu chứa cả dữ liệu suy luận và không suy luận để tinh chỉnh có giám sát.
Đối với các mẫu suy luận, họ đã thêm “detailed thinking on” vào các hướng dẫn hệ thống, trong khi đối với các mẫu không suy luận, họ đã sử dụng “detailed thinking off.”
Cài đặt này cho phép mô hìnhchuyển đổi hành vi suy luận dựa trên lời nhắc trong giai đoạn suy luận.
Dữ liệu tổng hợp cho suy luận đã được chuẩn bị trong toán học, lập trình và các lĩnh vực liên quan.
Để huấn luyện mô hình tuân theo các hướng dẫn “chuyển đổi suy luận”, các nhà nghiên cứu đã xây dựng các tập dữ liệu được ghép nối, trong đó mỗi lời nhắc tương ứng với một phản hồi có suy luận và một phản hồi không có suy luận.
Việc ghép nối này cho phép mô hình học cách điều chỉnh hành vi suy luận của mình dựa trên các hướng dẫn hệ thống.
Việc lọc tiếp theo các phản hồi này được thực hiện dựa trên các câu trả lời tiêu chuẩn hoặc các mô hình phần thưởng.
Quy trình tinh chỉnh
Tất cả các mô hình đều được huấn luyện trên dữ liệu tinh chỉnh hướng dẫn bằng cách sử dụng tổn thất cross-entropy cấp token.
Trong hầu hết các cài đặt huấn luyện, dữ liệu suy luận và không suy luận được trộn lẫn để tạo thành các lô huấn luyện, trong đó mỗi lời nhắc được ghép nối với một phản hồi tương ứng dựa trên các hướng dẫn hệ thống “detailed thinking on/off”.
Việc mở rộng huấn luyện sang nhiều vòng có thể cải thiện hiệu suất, đặc biệt đối với các mô hình nhỏ hơn.
NeMo-Aligner đã được sử dụng để huấn luyện học tăng cường, hỗ trợ GRPO và huấn luyện các mô hình không đồng nhất.
vLLM đã được sử dụng cho giai đoạn tạo và Megatron-LM đã được sử dụng cho giai đoạn huấn luyện.
Giai đoạn huấn luyện và suy luận dùng chung cùng một lô GPU, hoàn thành trên cùng một thiết bị.
Toàn bộ quy trình huấn luyện đã sử dụng 72 nút, mỗi nút được trang bị 8 GPU H100.
Giai đoạn tạo đã sử dụng độ chính xác FP8, giai đoạn huấn luyện đã sử dụng độ chính xác BF16 và trạng thái trình tối ưu hóa đã sử dụng FP32.
Mỗi giai đoạn duy trì trọng số mô hình độc lập, được đồng bộ hóa khi bắt đầu mỗi bước.
Học tăng cường: Chìa khóa để vượt qua khả năng suy luận của R1
Tinh chỉnh có giám sát (SFT) cho phép mô hình trích xuất kiến thức từ các mô hình giáo viên mạnh mẽ, đạt được các khả năng xuất sắc.
Tuy nhiên, chưng cất kiến thức vốn có giới hạn hiệu suất của mô hình học sinh, đặc biệt khi khả năng mô hình cơ sở của mô hình học sinh không vượt quá khả năng của mô hình giáo viên.
Thông qua tinh chỉnh có giám sát, hiệu suất của LN-Ultra có thể tiếp cận DeepSeek-R1 nhưng không thể vượt qua nó.
Học tăng cường (RL) quy mô lớn là một phương pháp khả thi để cho phép mô hình học sinh vượt qua mô hình giáo viên vì nó cho phép mô hình liên tục khám phá các khả năng mới và tự học.
Do hạn chế về tài nguyên, các nhà nghiên cứu chỉ áp dụng RL suy luận cho LN-Ultra, dẫn đến một mô hình học sinh vượt qua mô hình giáo viên.
Trong suốt quá trình huấn luyện học tăng cường suy luận, độ chính xác của LN-Ultra trên tập dữ liệu GPQA-Diamond đã được cải thiện.
Quy trình huấn luyện: Tập trung vào suy luận khoa học
Đối với LN-Ultra, các nhà nghiên cứu đã tăng cường khả năng suy luận khoa học của nó thông qua học tăng cường (RL) quy mô lớn, sử dụng thuật toán Grouped Relative Policy Optimization (GRPO), giống như DeepSeek-R1 đã sử dụng.
Toàn bộ quy trình huấn luyện yêu cầu khoảng 140.000 giờ H100, liên tục huấn luyện mô hình cho đến khi nó hội tụ vào các tác vụ suy luận.
Thiết kế cơ chế phần thưởng bao gồm hai loại:
- Phần thưởng độ chính xác: Dựa trên các câu trả lời tiêu chuẩn (số/câu/đoạn văn), gọi mô hình Llama-3.3-70B-Instruct để đánh giá mức độ phù hợp của kết quả dự đoán.
- Phần thưởng định dạng: Theo lược đồ của DeepSeek-AI, mô hình bị buộc phải bọc quy trình suy luận bằng các thẻ <think\> trong chế độ “detailed thinking” và sự xuất hiện của các thẻ đó bị cấm trong chế độ không “detailed thinking”.
Nhóm nghiên cứu cũng đã xử lý trước dữ liệu, bao gồm lọc dữ liệu và huấn luyện theo chương trình.
- Sàng lọc dữ liệu: LN-Super được sử dụng trước để tạo 8 phản hồi cho mỗi câu hỏi và các mẫu đơn giản có tỷ lệ vượt qua ≥ 75% sẽ bị xóa.
- Huấn luyện theo chương trình: Phân bổ lô lũy tiến dựa trên tỷ lệ vượt qua được áp dụng.
Phân phối động: Mô hình hóa độ khó của lô bằng hàm Gaussian, ban đầu tập trung vào các mẫu có tỷ lệ vượt qua cao (đơn giản) và sau đó chuyển sang các mẫu có tỷ lệ vượt qua thấp (khó).
Logic Padding: Các mẫu được phân bổ theo phân phối mục tiêu trước và dung lượng còn lại được bổ sung từ nhóm mẫu còn lại lớn nhất.
Xử lý trong lô: Các mẫu trong cùng một lô được xáo trộn ngẫu nhiên để duy trì sự đa dạng.
Học tăng cường để tối ưu hóa tùy chọn
Sau khi hoàn thành huấn luyện suy luận khoa học, các nhà nghiên cứu đã tiến hành một giai đoạn học tăng cường ngắn gọn cho các mô hình LN-Super và LN-Ultra, tập trung vào việc cải thiện khả năng tuân theo hướng dẫn của chúng.
Các nhà nghiên cứu cũng đã sử dụng RLHF để tối ưu hóa khả năng trợ giúp chung và hiệu suất trò chuyện của các mô hình trong khi vẫn giữ lại khả năng của các mô hình trong toán học, khoa học và các lĩnh vực khác.
LN-Super đạt được điểm số cao là 88,3 trong bài kiểm tra Arena Hard, vượt qua các mô hình độc quyền như Claude 3.5 Sonnet và GPT-4o-2024-05-13, và cũng tốt hơn các mô hình mã nguồn mở lớn hơn.
Để đạt được kết quả này, họ đã áp dụng phương pháp “OnLine Reward-Policy Optimization“, tối đa hóa phần thưởng dự đoán của mô hình trên tập dữ liệu HelpSteer2. Mô hình phần thưởng được sử dụng là Llama-3.1-Nemotron-70B-Reward.
Hai vòng huấn luyện RPO trực tuyến tăng điểm số Arena Hard từ 69,1 lên 88,1.
Đối với LN-Ultra, họ đã sử dụng một quy trình tương tự nhưng đã áp dụng GRPO.
Đối với LN-Nano, họ đã tiến hành hai vòng huấn luyện RPO ngoại tuyến, sử dụng dữ liệu huấn luyện do chính sách tạo ra.
Vòng đầu tiên kết hợp dữ liệu suy luận và không suy luận với các lời nhắc hệ thống thích hợp để tối ưu hóa khả năng kiểm soát suy luận của mô hình. Vòng thứ hai tập trung vào việc cải thiện khả năng tuân theo hướng dẫn.
Kết quả đánh giá: Đánh giá toàn diện
Các nhà nghiên cứu đã đánh giá hiệu suất của tất cả các mô hình Llama-Nemotron trên hai danh mục benchmark: tác vụ suy luận và tác vụ không suy luận.
Các benchmark suy luận bao gồm: AIME24 và AIME25, GPQA-Diamond, LiveCodeBench và MATH500.
Các benchmark không suy luận bao gồm: IFEval để đánh giá tuân theo hướng dẫn, BFCL V2 Live để đánh giá việc sử dụng công cụ gọi hàm và Arena-Hard để đánh giá sự phù hợp với sở thích hội thoại của con người.
LN-Nano đạt được hiệu suất tuyệt vời trong tất cả các benchmark suy luận, mặc dù kích thước nhỏ của nó.
Điều này chứng minh rằng các quy trình tinh chỉnh có giám sát và các tập dữ liệu suy luận được tuyển chọn kỹ lưỡng có hiệu quả trong việc chuyển giao các khả năng suy luận có cấu trúc cho các mô hình nhỏ hơn.
LN-Super cho thấy tính cạnh tranh mạnh mẽ trong cả tác vụ suy luận và không suy luận khi so sánh với các mô hình có quy mô tham số tương tự.
Ở chế độ “reasoning off”, hiệu suất của LN-Super tương đương với mô hình nguồn được chưng cất của nó, Llama-3.3-70B; ở chế độ “reasoning on”, nó vượt qua các mô hình cạnh tranh khác, chẳng hạn như DeepSeek-R1-Distilled-Llama-70B, thể hiện khả năng suy luận mạnh mẽ đồng thời duy trì khả năng tuân theo hướng dẫn tốt.
Những kết quả này chỉ ra rằng LN-Super là một mô hình linh hoạt kết hợp những ưu điểm của các mô hình được tối ưu hóa suy luận và các mô hình không suy luận, làm cho nó phù hợp cho các tác vụ trợ lý hàng ngày và các tác vụ suy luận có cấu trúc.
LN-Ultra hoạt động ngang bằng hoặc tốt hơn tất cả các mô hình trọng lượng mã nguồn mở hiện có trong các benchmark suy luận và không suy luận. Nó đạt được mức độ tiên tiến nhất trong các mô hình mã nguồn mở trên GPQA, thể hiện đầy đủ hiệu quả của các phương pháp huấn luyện học tăng cường quy mô lớn của các nhà nghiên cứu Nvidia.
Không giống như DeepSeek-R1, yêu cầu cấu hình phần cứng 8×H200, LN-Ultra được tối ưu hóa để chạy hiệu quả trên một nút 8×H100 duy nhất, cung cấp thông lượng suy luận và hiệu quả triển khai cao hơn.
Giai đoạn SFT của LN-Ultra đã tiếp cận hoặc đạt đến hiệu suất của DeepSeek-R1 trên nhiều benchmark suy luận (bao gồm GPQA và AIME).
Ngoài các khả năng suy luận và đối thoại mà mô hình ban đầu được huấn luyện, họ cũng đã thử nghiệm mô hình trên một tác vụ phân phối.
Cụ thể, mô hìnhđã được thử nghiệm trên tập dữ liệu JudgeBench, yêu cầu nó phân biệt giữa các câu trả lời chất lượng cao và chất lượng thấp.
Mô hình mới vượt trội hơn các mô hình độc quyền và mã nguồn mở hàng đầu hiện tại trong tác vụ này.
LN-Ultra trở thành mô hình mã nguồn mở hoạt động tốt nhất, vượt xa đáng kể DeepSeek-R1, chỉ đứng sau mô hình độc quyền o3-mini(high).
Ngoài ra, hiệu suất của LN-Super cũng vượt quá o1-mini, cho thấy rằng mô hình mới có khả năng tổng quát hóa mạnh mẽ trong các tác vụ khác nhau.