Trong lĩnh vực trí tuệ nhân tạo, việc theo đuổi lý luận thực sự từ lâu đã là một mục tiêu trung tâm. Những khuấy động ban đầu của sự phấn khích xung quanh mô hình “o1” của OpenAI đã khơi dậy một sự quan tâm rộng rãi trong việc tận dụng các kỹ thuật học tăng cường (RL) quy mô lớn để xây dựng các hệ thống có khả năng lý luận phức tạp. Tiếp theo đó, quyết định của DeepSeek-R1 để phát hành mô hình của mình dưới dạng mã nguồn mở đã thúc đẩy thêm sự nhiệt tình và trao quyền cho cộng đồng AI để tích cực theo đuổi sự phát triển của các mô hình lý luận tiên tiến.
Tuy nhiên, sự bùng nổ hoạt động ban đầu này đã nhanh chóng bị kiềm chế bởi một trở ngại đáng kể. Các chi tiết kỹ thuật quan trọng, cực kỳ quan trọng để sao chép thành công – cụ thể là các chiến lược chính xác được sử dụng để tuyển chọn dữ liệu và các công thức phức tạp chi phối việc đào tạo RL – đã vắng mặt một cách đáng chú ý trong báo cáo gốc của DeepSeek-R1. Sự thiếu sót này đã khiến các nhà nghiên cứu ở trong một trạng thái thất vọng đáng kể, vật lộn với thách thức tái tạo lại những thành công được báo cáo. Hậu quả là một bối cảnh nghiên cứu có phần rời rạc, với vô số nỗ lực độc lập khám phá các kích thước mô hình khác nhau, các điểm kiểm tra ban đầu khác nhau và một loạt các miền mục tiêu đa dạng. Mặc dù hoạt động mạnh mẽ này, một công thức đào tạo toàn diện và hiệu quả nhất quán vẫn khó nắm bắt.
Các phương pháp truyền thống để đào tạo các mô hình ngôn ngữ cho lý luận chủ yếu tập trung vào các lĩnh vực toán học và mã máy tính. Các phương pháp này thường dựa vào sự kết hợp giữa việc đào tạo trước trên các bộ dữ liệu lớn và tinh chỉnh có giám sát để chuyên môn hóa các mô hình cho các nhiệm vụ cụ thể này. Những nỗ lực ban đầu để kết hợp học tăng cường vào quy trình này, thường bằng cách sử dụng các mô hình phần thưởng cụ thể theo miền, chỉ mang lại những lợi ích hạn chế. Điều này bắt nguồn từ những thách thức vốn có liên quan đến các nhiệm vụ toán học và mã hóa, nơi những lỗi nhỏ có thể dẫn đến kết quả sai lệch nghiêm trọng.
Các cuộc điều tra gần đây hơn, được thúc đẩy bởi việc phát hành DeepSeek-R1, đã khám phá việc sử dụng các phương pháp xác minh dựa trên quy tắc. Trong lĩnh vực toán học, các phương pháp này thường liên quan đến việc yêu cầu các định dạng đầu ra cụ thể cho phép xác minh chính xác và tự động giải pháp. Tương tự, trong bối cảnh mã, các nhà nghiên cứu đã tận dụng các cơ chế phản hồi vốn có của quá trình biên dịch và thực thi để hướng dẫn quá trình học tập. Tuy nhiên, những cách tiếp cận này thường chỉ tập trung hẹp vào các miền riêng lẻ, thiếu khả năng xử lý hiệu quả các lời nhắc không đồng nhất kết hợp các bài toán toán học và mã hóa. Hơn nữa, các đánh giá thường bị giới hạn trong các điểm chuẩn cụ thể như AIME và LiveCodeBench, hạn chế khả năng khái quát hóa của các phát hiện. Cuối cùng, sự không ổn định trong quá trình đào tạo tiếp tục là một vấn đề dai dẳng, thường đòi hỏi phải sử dụng các kỹ thuật phức tạp như tăng độ dài phản hồi lũy tiến và giảm thiểu sự sụp đổ entropy.
Giờ đây, các nhà nghiên cứu tại NVIDIA đang thay đổi cuộc chơi, khi họ chứng minh tiềm năng đáng kể của học tăng cường quy mô lớn để nâng cao đáng kể khả năng lý luận của các mô hình có kích thước tương đối nhỏ và vừa. Các phương pháp của họ đạt được mức hiệu suất vượt qua các phương pháp hiện đại dựa trên các kỹ thuật chưng cất. Cách tiếp cận của NVIDIA sử dụng một chiến lược đào tạo tuần tự: đầu tiên, thực hiện đào tạo RL độc quyền trên các lời nhắc liên quan đến toán học, và sau đó chuyển sang các lời nhắc chỉ tập trung vào mã.
Một phương pháp tuần tự để nâng cao lý luận
Các phát hiện? Đào tạo RL ban đầu về các bài toán toán học không chỉ cải thiện đáng kể hiệu suất trên các điểm chuẩn toán học mà, đáng ngạc nhiên, còn tạo ra một sự tăng cường đáng kể về khả năng lý luận mã. Hơn nữa, các lần lặp lại mở rộng của đào tạo RL tập trung đặc biệt vào mã tiếp tục tăng cường hiệu suất mã chỉ với sự suy giảm tối thiểu về hiệu suất toán học. Cách tiếp cận này làm nổi bật một điểm quan trọng: đào tạo toán học có thể hoạt động như một nền tảng vững chắc cho các nhiệm vụ lý luận phức tạp hơn như mã hóa.
Không thể thiếu cho thành công của cách tiếp cận NVIDIA là một quy trình tuyển chọn dữ liệu mạnh mẽ. Quy trình này được thiết kế tỉ mỉ để thu thập các lời nhắc đầy thách thức được đặc trưng bởi cả độ khó cao và tính khả dụng của các câu trả lời và trường hợp thử nghiệm chất lượng cao, có thể xác minh. Điều này cho phép RL dựa trên xác minh được áp dụng hiệu quả trên cả hai miền toán học và mã hóa.
Tuyển chọn dữ liệu cho Toán học và Mã
Phương pháp tuyển chọn dữ liệu được các nhà nghiên cứu NVIDIA sử dụng cẩn thận để phân biệt giữa các yêu cầu cho RL chỉ toán học và RL chỉ mã.
RL chỉ toán học: Việc tạo dữ liệu đào tạo cho RL chỉ toán học bao gồm việc hợp nhất dữ liệu từ các bộ dữ liệu DeepScaler và NuminaMath. Các bộ dữ liệu này bao gồm một loạt các chủ đề toán học, bao gồm đại số, tổ hợp, lý thuyết số và hình học. Để duy trì tính toàn vẹn của dữ liệu, một quy trình lọc nghiêm ngặt được áp dụng, sử dụng bộ lọc 9 gram để loại bỏ nội dung dư thừa hoặc không phù hợp và thực hiện các quy tắc loại trừ nghiêm ngặt để loại bỏ các mục nhập có khả năng gây ra vấn đề. Mô hình DeepSeek-R1 sau đó đóng một vai trò quan trọng trong việc xác thực chất lượng của các câu hỏi. Mỗi câu hỏi đều phải trải qua tám nỗ lực độc lập của mô hình và chỉ những giải pháp nhận được đa số phiếu bầu về tính chính xác thông qua xác minh dựa trên quy tắc mới được giữ lại để đưa vào bộ dữ liệu cuối cùng.
RL chỉ mã: Bộ dữ liệu cho RL chỉ mã được xây dựng bằng cách sử dụng dữ liệu có nguồn gốc từ các nền tảng lập trình cạnh tranh hiện đại. Các nền tảng này cung cấp một nguồn phong phú các bài toán mã hóa bao gồm một loạt các chủ đề thuật toán đa dạng. Các bài toán được định dạng để phù hợp với các quy ước gọi hàm và đầu vào/đầu ra tiêu chuẩn (stdin/stdout) thường được sử dụng trong các môi trường này. Các nhà nghiên cứu thực hiện một quy trình lọc tỉ mỉ để loại bỏ các bài toán không tương thích và tỉ mỉ tuyển chọn các trường hợp thử nghiệm toàn diện được thiết kế để bao gồm các trường hợp biên và điều kiện biên. Hơn nữa, mỗi bài toán được gán một điểm khó khăn được xác định thông qua đánh giá bởi mô hình DeepSeek-R1-671B. Quy trình nghiêm ngặt này tạo ra một bộ dữ liệu chất lượng cao bao gồm 8.520 bài toán mã hóa đã được xác minh.
AceReason-Nemotron: Kết quả và Điểm chuẩn
Kết quả nghiên cứu của NVIDIA rất hấp dẫn. Mô hình AceReason-Nemotron-7B đạt được những cải thiện đáng kể về độ chính xác là 14,5% và 14,6% trong các cuộc thi AIME 2024 và 2025 đầy thách thức, tương ứng, so với các mô hình SFT ban đầu. Hơn nữa, nó thể hiện những mức tăng đáng kể là 14,2% và 8% trên các điểm chuẩn LiveCodeBench v5 và v6, tương ứng. Biến thể 14B lớn hơn của mô hình thể hiện hiệu suất thậm chí còn lớn hơn, vượt trội hơn các mô hình lớn hơn như DeepSeek-R1-Distill-Qwen-32B và DeepSeek-R1-Distill-Llama-70B. Điều này đạt được kết quả tốt nhất trong số các mô hình lý luận dựa trên RL mở.
So với các mô hình dựa trên chưng cất hiện đại, AceReason-Nemotron-14B vượt trội hơn OpenMath-14B/32B với 2,1%/4,4% trên các điểm chuẩn AIME và OpenCodeReasoning-14B với 1,7%/0,8% trên LiveCodeBench. Điều này chứng minh một cách thuyết phục rằng RL có thể đạt được các giới hạn trên hiệu suất cao hơn so với cáccách tiếp cận chưng cất trong khi vẫn duy trì hiệu suất cạnh tranh so với các mô hình tiên phong tiên tiến như QWQ-32B và o3-mini.
Ý nghĩa của những kết quả này là rất quan trọng. Chúng gợi ý rằng RL quy mô lớn có tiềm năng mở ra các cấp độ khả năng lý luận mới trong các mô hình AI, vượt qua những hạn chế của các cách tiếp cận truyền thống. Chiến lược đào tạo cụ thể theo miền tuần tự, kết hợp với một quy trình tuyển chọn dữ liệu mạnh mẽ, cung cấp một bản thiết kế cho nghiên cứu trong tương lai trong lĩnh vực này.
Học tăng cường thúc đẩy các giới hạn lý luận
Nghiên cứu này nhấn mạnh tiềm năng đáng kể của học tăng cường để thúc đẩy ranh giới của khả năng lý luận mô hình. Bằng cách sử dụng chiến lược đào tạo cụ thể theo miền và tuyển chọn tỉ mỉ dữ liệu chất lượng cao, điều này cho phép các mô hình AI giải quyết các bài toán trước đây không thể giải quyết được và thiết lập các điểm chuẩn mới cho việc phát triển mô hình lý luận và cuối cùng dẫn đến một thế hệ hệ thống AI mới có khả năng giải quyết các thách thức trong thế giới thực với độ chính xác và hiệu quả chưa từng có. Khả năng lý luận hiệu quả là một nền tảng của trí thông minh và những tiến bộ đạt được bởi NVIDIA đại diện cho một bước tiến lớn hướng tới việc hiện thực hóa toàn bộ tiềm năng của trí tuệ nhân tạo. Nghiên cứu trong tương lai có thể sẽ tập trung vào việc mở rộng các kỹ thuật này cho các mô hình thậm chí lớn hơn và khám phá các chiến lược tuyển chọn dữ liệu mới để cải thiện hơn nữa hiệu suất lý luận. Việc phát triển các hàm phần thưởng và chiến lược khám phá phức tạp hơn cũng sẽ rất quan trọng để vượt qua những thách thức liên quan đến việc đào tạo các mô hình AI cho các nhiệm vụ lý luận phức tạp. Cuối cùng, mục tiêu là tạo ra các hệ thống AI có thể lý luận, học hỏi và thích ứng theo cách tương tự như con người, cho phép chúng giải quyết các vấn đề phức tạp và đưa ra các quyết định sáng suốt trên một loạt các lĩnh vực.
Hơn nữa, việc sử dụng RL mang lại những lợi thế vượt xa độ chính xác thô. Các tác nhân RL có thể học cách tối ưu hóa cho nhiều mục tiêu khác nhau, chẳng hạn như hiệu quả, tính mạnh mẽ và khả năng giải thích. Ví dụ, một tác nhân RL có thể được đào tạo để tạo ra mã không chỉ chính xác mà còn hiệu quả và dễ hiểu. Khả năng này đặc biệt quan trọng trong các ứng dụng quan trọng về an toàn, nơi điều cần thiết là đảm bảo rằng các hệ thống AI là đáng tin cậy và có thể dự đoán được.
Công việc của NVIDIA làm nổi bật tầm quan trọng ngày càng tăng của việc tuyển chọn dữ liệu trong nghiên cứu AI. Chất lượng của dữ liệu huấn luyện có tác động đáng kể đến hiệu suất của các mô hình AI và các bộ dữ liệu được tuyển chọn cẩn thận là điều cần thiết để đạt được kết quả hiện đại. Quy trình tuyển chọn dữ liệu được phát triển bởi NVIDIA là một nguồn tài nguyên quý giá cho các nhà nghiên cứu làm việc trên các mô hình lý luận và nó có thể được điều chỉnh để sử dụng trong các lĩnh vực khác.
Sự kết hợp giữa RL quy mô lớn, đào tạo cụ thể theo miền và tuyển chọn dữ liệu mạnh mẽ đã được chứng minh là một công thức chiến thắng để cải thiện khả năng lý luận của các mô hình AI. Khi các kỹ thuật này tiếp tục phát triển, chúng ta có thể mong đợi sẽ thấy những tiến bộ ấn tượng hơn nữa trong lĩnh vực AI và chúng tôi hy vọng sẽ thấy những tiến bộ liên tục của các mô hình AI trong tương lai gần.