Giới thiệu
Sự mong đợi xung quanh các AI agent đã tăng lên trong nhiều năm, với nhiều chuyên gia dự đoán rằng năm 2025 sẽ là năm mà các triển khai AI dành riêng cho tác vụ này, được hỗ trợ bởi các mô hình ngôn ngữ lớn và đa phương thức tiên tiến (LLM), thực sự cất cánh. Tuy nhiên, thực tế là hầu hết các AI agent vẫn ở trong trạng thái lấp lửng thử nghiệm, изо всех сил để chuyển đổi từ phòng thí nghiệm nghiên cứu sang các ứng dụng trong thế giới thực.
Giờ đây, một nỗ lực hợp tác từ các nhà nghiên cứu tại Đại học Northwestern, Microsoft, Stanford và Đại học Washington, bao gồm một cựu nhà nghiên cứu DeepSeek tên là Zihan Wang, đã giới thiệu một hệ thống mới được gọi là RAGEN. Khuôn khổ mới này nhằm mục đích đào tạo và đánh giá các AI agent, làm cho chúng đáng tin cậy và linh hoạt hơn cho việc sử dụng thực tế, cấp doanh nghiệp.
Không giống như các tác vụ AI truyền thống tập trung vào các vấn đề tĩnh như toán học hoặc mã hóa, RAGEN giải quyết các сценарии tương tác nhiều lượt, trong đó các agent phải thích ứng, học hỏi và lý luận trong môi trường không chắc chắn. Cách tiếp cận này rất quan trọng để phát triển AI có thể xử lý sự phức tạp của các tình huống trong thế giới thực.
Trọng tâm của RAGEN là một khung học tăng cường (RL) tùy chỉnh được gọi là StarPO (Tối ưu hóa Chính sách Phần thưởng Trạng thái-Tư duy-Hành động). Hệ thống này khám phá cách LLM có thể học hỏi thông qua kinh nghiệm, thay vì chỉ dựa vào ghi nhớ. StarPO tập trung vào toàn bộ quá trình ra quyết định, xem xét không chỉ các phản hồi riêng lẻ mà còn toàn bộ quỹ đạo tương tác.
StarPO hoạt động thông qua hai giai đoạn riêng biệt hoạt động song song. Giai đoạn đầu tiên, được gọi là giai đoạn triển khai, bao gồm LLM tạo ra các chuỗi tương tác hoàn chỉnh được hướng dẫn bởi lý luận. Giai đoạn thứ hai, giai đoạn cập nhật, tối ưu hóa mô hình bằng cách sử dụng phần thưởng tích lũy được chuẩn hóa. Cấu trúc này tạo ra một vòng lặp học tập ổn định và minh bạch hơn so với các phương pháp tối ưu hóa chính sách tiêu chuẩn.
Các nhà nghiên cứu đã triển khai và thử nghiệm nghiêm ngặt khuôn khổ này bằng cách sử dụng các phiên bản tinh chỉnh của các mô hình Qwen của Alibaba, cụ thể là Qwen 1.5 và Qwen 2.5. Các mô hình này được chọn vì trọng số mở của chúng và khả năng tuân theo hướng dẫn một cách hiệu quả, điều này cho phép khả năng tái tạo và so sánh cơ bản nhất quán trên nhiều tác vụ tượng trưng.
Vượt qua ‘Bẫy Tiếng Vọng’: Học Tăng Cường và Mất Lý Luận
Zihan Wang nhấn mạnh một thách thức cốt lõi trong một chủ đề X được chia sẻ rộng rãi: ‘Tại sao quá trình đào tạo RL của bạn luôn sụp đổ?’ Theo nhóm, các LLM agent ban đầu tạo ra các phản hồi tượng trưng, có lý luận tốt. Tuy nhiên, các hệ thống RL có xu hướng khen thưởng các phím tắt theo thời gian, dẫn đến các hành vi lặp đi lặp lại cuối cùng làm giảm hiệu suất tổng thể. Hiện tượng này là những gì họ gọi là ‘Bẫy Tiếng Vọng’.
Sự hồi quy này xảy ra do các vòng phản hồi, trong đó một số cụm từ hoặc chiến lược nhất định mang lại phần thưởng cao ngay từ đầu, dẫn đến việc sử dụng quá mức chúng và cản trở việc khám phá các cách tiếp cận mới. Wang chỉ ra rằng điều này có thể định lượng được, với các vách đá phương sai phần thưởng có thể đo lường được, gai độ dốc và sự biến mất của dấu vết lý luận.
Để kiểm tra những hành vi này trong một môi trường được kiểm soát, RAGEN sử dụng ba môi trường tượng trưng:
- Bandit: Đây là một tác vụ ngẫu nhiên, một lượt duy nhất, đánh giá lý luận rủi ro-phần thưởng tượng trưng.
- Sokoban: Một câu đố xác định nhiều lượt, liên quan đến các quyết định không thể đảo ngược.
- Frozen Lake: Đây là một tác vụ ngẫu nhiên, nhiều lượt, đòi hỏi lập kế hoạch thích ứng.
Mỗi môi trường được thiết kế tỉ mỉ để giảm thiểu sự thiên vị trong thế giới thực, thay vào đó tập trung vào các chiến lược ra quyết định xuất hiện trong quá trình đào tạo.
Ví dụ, trong môi trường Bandit, các agent được thông báo rằng các nhánh ‘Rồng’ và ‘Phượng hoàng’ đại diện cho các phân phối phần thưởng khác nhau. Thay vì trực tiếp cung cấp xác suất, các agent phải lý luận một cách tượng trưng, diễn giải ‘Rồng’ là ‘sức mạnh’ và ‘Phượng hoàng’ là ‘hy vọng’ để dự đoán kết quả. Thiết lập này khuyến khích mô hình tạo ra lý luận tương tự, có thể giải thích được.
Ổn định Học Tăng Cường với StarPO-S
Để giải quyết vấn đề sụp đổ đào tạo, các nhà nghiên cứu đã phát triển StarPO-S, một phiên bản ổn định của khung ban đầu. StarPO-S kết hợp ba can thiệp chính:
- Lọc triển khai dựa trên sự không chắc chắn: Điều này ưu tiên các triển khai trong đó agent thể hiện sự không chắc chắn về kết quả.
- Loại bỏ hình phạt KL: Cho phép mô hình đi lệch tự do hơn khỏi chính sách ban đầu và khám phá các hành vi mới.
- Cắt PPO bất đối xứng: Điều này khuếch đại các quỹ đạo phần thưởng cao nhiều hơn các quỹ đạo phần thưởng thấp để tăng cường học tập.
Những điều chỉnh này trì hoãn hoặc loại bỏ sự sụp đổ đào tạo, dẫn đến cải thiện hiệu suất trên cả ba tác vụ. Theo Wang, ‘StarPO-S… hoạt động trên cả 3 tác vụ. Giải tỏa sự sụp đổ. Phần thưởng tốt hơn.’
Sự thành công của đào tạo RL không chỉ phụ thuộc vào kiến trúc mà còn phụ thuộc vào chất lượng của dữ liệu do chính các agent tạo ra. Nhóm đã xác định ba chiều quan trọng ảnh hưởng đáng kể đến quá trình đào tạo:
- Sự đa dạng của tác vụ: Cho mô hình tiếp xúc với một loạt các сценарии ban đầu giúp tăng cường khả năng khái quát hóa.
- Mức độ chi tiết tương tác: Cho phép nhiều hành động trên mỗi lượt cho phép lập kế hoạch có ý nghĩa hơn.
- Độ mới của triển khai: Giữ cho dữ liệu đào tạo phù hợp với chính sách mô hình hiện tại tránh các tín hiệu học tập lỗi thời.
Cùng với nhau, những yếu tố này góp phần vào một quá trình đào tạo ổn định và hiệu quả hơn.
Tiết lộ Quy trình Tư duy của Agent
Một trang web demo tương tác do các nhà nghiên cứu tạo ra trên GitHub thể hiện trực quan các triển khai agent dưới dạng các lượt đối thoại đầy đủ, tiết lộ không chỉ các hành động được thực hiện mà còn cả quy trình tư duy từng bước đằng sau chúng.
Ví dụ: khi giải một bài toán, một agent có thể trước tiên ‘nghĩ’ về việc cô lập một biến trước khi gửi câu trả lời như ‘x = 5.’ Những suy nghĩ trung gian này có thể nhìn thấy và theo dõi được, cung cấp sự minh bạch về cách các agent đi đến quyết định.
Mặc dù lý luận rõ ràng cải thiện hiệu suất trong các tác vụ đơn giản, một lượt như Bandit, nhưng nó có xu hướng suy giảm trong quá trình đào tạo nhiều lượt. Mặc dù sử dụng các dấu nhắc và mã thông báo có cấu trúc, nhưng dấu vết lý luận thường co lại hoặc biến mất trừ khi được thưởng rõ ràng.
Điều này làm nổi bật một hạn chế trong thiết kế phần thưởng truyền thống: tập trung vào việc hoàn thành tác vụ có thể bỏ qua chất lượng của quy trình. Nhóm đã thử nghiệm với các hình phạt dựa trên định dạng để khuyến khích lý luận có cấu trúc tốt hơn, но признаёт rằng việc định hình phần thưởng tinh tế hơn có thể là cần thiết.
Công cụ Mã nguồn Mở để Phát triển AI Agent
RAGEN, cùng với các khung StarPO và StarPO-S của nó, hiện có sẵn dưới dạng một dự án mã nguồn mở. Điều này cung cấp một nền tảng có giá trị cho những người quan tâm đến việc phát triển các AI agent không chỉ hoàn thành các tác vụ mà còn suy nghĩ, lập kế hoạch và phát triển.
Khi AI tiến tới quyền tự chủ lớn hơn, các dự án như RAGEN làm sáng tỏ những gì cần thiết để đào tạo các mô hình học hỏi từ cả dữ liệu và hậu quả của hành động của chính chúng.
Các Câu hỏi Chính cho Việc Triển khai trong Thế giới Thực
Mặc dù bài báo RAGEN cung cấp một khuôn khổ kỹ thuật chi tiết, но một số câu hỏi thực tế vẫn còn đối với những người xem xét việc áp dụng nó trong môi trường doanh nghiệp. Ví dụ: cách tiếp cận của RAGEN chuyển đổi tốt như thế nào ngoài các tác vụ tượng trưng, cách điệu này? Liệu các công ty có cần tạo ra các môi trường và chức năng phần thưởng hoàn toàn mới để sử dụng hệ thống này trong các quy trình làm việc như xử lý hóa đơn hoặc hỗ trợ khách hàng không?
Một cân nhắc quan trọng khác là khả năng mở rộng. Ngay cả với những cải tiến do StarPO-S cung cấp, bài báo thừa nhận rằng quá trình đào tạo vẫn có thể sụp đổ trong thời gian dài hơn. Điều này đặt ra câu hỏi liệu có một con đường lý thuyết hoặc thực tế để duy trì lý luận trên các chuỗi tác vụ mở hoặc liên tục phát triển hay không.
RAGEN đại diện cho một bước tiến quan trọng hướng tới việc tạo ra các AI agent có khả năng lý luận, tự trị hơn, vượt xa những đóng góp kỹ thuật đơn thuần để cung cấp một khuôn khổ khái niệm cho sự phát triển trong tương lai. Liệu nó có trở thành một thành phần tiêu chuẩn của bộ công cụ AI doanh nghiệp hay không vẫn còn phải xem, nhưng những hiểu biết sâu sắc của nó về động lực học tập của agent đã định hình tương lai của đào tạo LLM.
Phương pháp mới này giải quyết nhu cầu cấp thiết về các AI agent đáng tin cậy và có khả năng thích ứng, mang đến một con đường đầy hứa hẹn cho các ứng dụng trong thế giới thực. Bằng cách tập trung vào việc học hỏi thông qua kinh nghiệm và tối ưu hóa quỹ đạo ra quyết định, RAGEN giúp thu hẹp khoảng cách giữa các mô hình lý thuyết và các triển khai thực tế. Tính khả dụng mã nguồn mở của khuôn khổ hơn nữa đẩy nhanh sự đổi mới trong lĩnh vực này, trao quyền cho các nhà nghiên cứu và nhà phát triển xây dựng dựa trên các nền tảng của nó và khám phá các lĩnh vực mới trong công nghệ AI agent.