Phi-4 Reasoning Plus: RL Tiếp Tục Thắng Lợi

Microsoft đang ngày càng tiến sâu hơn vào lĩnh vực các mô hình AI mã nguồn mở, đặc biệt là dòng Phi, và đang thu hút được sự chú ý lớn, mặc dù chưa được công nhận rộng rãi như khoản đầu tư của họ vào OpenAI. Trong số các mô hình này, Phi-4 Reasoning Plus nổi bật lên, minh chứng cho sức mạnh của học tăng cường (reinforcement learning - RL) trong việc đạt được những kết quả đáng kinh ngạc trên các bài kiểm tra chuẩn.

Dòng Phi được thiết kế để tiết kiệm tài nguyên, tiêu thụ ít năng lượng tính toán và dung lượng lưu trữ hơn. Thông qua nghiên cứu tỉ mỉ và các kỹ thuật tối ưu hóa, các mô hình này đã liên tục vượt quá mong đợi, vượt trội hơn các đối thủ cạnh tranh trong cùng phân khúc trọng lượng và thậm chí thách thức các mô hình lớn hơn.

Mô hình Phi-4 Reasoning, với 14 tỷ tham số, được tạo ra bằng cách áp dụng thuật toán tinh chỉnh có giám sát (supervised fine-tuning - SFT) cho mô hình Phi-4 cơ sở. Dựa trên nền tảng này, các nhà nghiên cứu đã phát triển thêm mô hình Phi-4 Reasoning Plus, tận dụng học tăng cường (RL) trên nền tảng Phi-4 Reasoning.

Đáng chú ý, cả hai mô hình Phi-4 Reasoning và Phi-4 Reasoning Plus đều đã chứng minh hiệu suất vượt trội so với các mô hình lớn hơn đáng kể như DeepSeek R1, với 70 tỷ tham số. Thành tích này đặc biệt rõ ràng trong các bài kiểm tra bao gồm lập trình, giải quyết vấn đề toán học và các nhiệm vụ khoa học nâng cao ở cấp độ sau đại học. Hiệu suất của các mô hình thậm chí còn gần bằng hiệu suất của mô hình DeepSeek R1 quy mô đầy đủ với 671 tỷ tham số.

Các nhà nghiên cứu của Microsoft cho rằng thành công của mô hình chủ yếu là nhờ việc sử dụng các bộ dữ liệu huấn luyện chất lượng cao, một chiến lược mà công ty đã liên tục dựa vào với các mô hình trước đây của mình. Các bộ dữ liệu này bao gồm hơn 1,4 triệu lời nhắc được tuyển chọn cẩn thận, bao gồm nhiều lĩnh vực lập trình và STEM (Khoa học, Công nghệ, Kỹ thuật và Toán học). Mỗi lời nhắc đi kèm với các câu trả lời được xây dựng tỉ mỉ, kết hợp các dấu vết lý luận mở rộng được tạo bởi mô hình o3-mini của OpenAI.

Để tối ưu hóa quá trình huấn luyện, các nhà nghiên cứu đã nhắm mục tiêu chiến lược vào các lời nhắc đẩy mạnh giới hạn khả năng của mô hình Phi-4 cơ sở. Điều này bao gồm việc lọc các bộ dữ liệu huấn luyện để chỉ giữ lại những lời nhắc mang lại những cơ hội cải thiện đáng kể.

Lý do đằng sau hiệu quả của RL

Việc phát triển Phi-4 Reasoning Plus bao gồm một quy trình hai bước: đầu tiên, tạo ra Phi-4 Reasoning thông qua tinh chỉnh có giám sát (SFT) của mô hình Phi-4 cơ sở, sau đó là giai đoạn học tăng cường (RL). Để hiểu sâu hơn về các thành phần RL của Phi-4 Reasoning Plus, việc liên lạc trực tiếp với Harkirat Behl, một nhà nghiên cứu tại Microsoft, người đóng vai trò quan trọng trong khía cạnh này của dự án, là rất quan trọng.

Học tăng cường (RL) là một phương pháp huấn luyện độc đáo, trong đó một hệ thống AI học hỏi thông qua thử nghiệm. AI thực hiện các hành động, nhận phản hồi dưới dạng phần thưởng hoặc hình phạt và lặp lại quy trình ra quyết định của mình để tối đa hóa các kết quả mong muốn dài hạn. Cách tiếp cận này đặc biệt có lợi cho các tác vụ đòi hỏi mô hình AI phải tham gia vào “lý luận,” vì nó ưu tiên đạt được kết quả mong muốn hơn là tuân thủ một quy trình cứng nhắc, được xác định trước.

Không giống như các mô hình truyền thống chỉ tập trung vào việc dự đoán từ tiếp theo và phạt mô hình cho mỗi sai sót, RL mang lại sự linh hoạt hơn trong cách đưa ra câu trả lời. Sự linh hoạt này cho phép mô hình khám phá các vấn đề phức tạp với nhiều đường dẫn giải pháp tiềm năng, cuối cùng hội tụ vào kết luận chính xác.

Theo Behl, RL trao quyền cho mô hình “tạo ra những câu trả lời rất dài và nhiều câu trả lời khác nhau,” với trọng tâm chính là độ chính xác của kết quả cuối cùng. Sự nhấn mạnh vào kết quả này, thay vì các bước cụ thể đã thực hiện, phản ánh cách con người tiếp cận việc giải quyết vấn đề. Các quá trình tư duy khác nhau đều có thể chấp nhận được, miễn là chúng dẫn đến câu trả lời chính xác.

Trong các mô hình của Microsoft, giai đoạn RL được tập trung có chủ ý vào lý luận toán học. Hệ thống phần thưởng khuyến khích độ chính xác và đồng thời phạt việc lặp lại, độ dài quá mức và định dạng phản hồi không đúng.

Behl giải thích thêm rằng các nhà nghiên cứu đã cho phép mô hình tạo ra nhiều câu trả lời cho một câu hỏi nhất định. Sau đó, mỗi câu trả lời được tính điểm dựa trên so sánh với điểm trung bình trong nhóm các câu trả lời đã tạo.

Các điểm số tương đối này đóng vai trò là cơ chế phản hồi, hướng dẫn mô hình ủng hộ các câu trả lời liên tục nhận được điểm cao hơn. Theo thời gian, quá trình này huấn luyện mô hình điều chỉnh các phản hồi của nó chặt chẽ hơn với tín hiệu phần thưởng mong muốn.

Các nhà nghiên cứu nhận thấy rằng việc áp dụng RL cho một tập hợp hạn chế gồm 6.400 vấn đề đã dẫn đến sự cải thiện đáng kể về độ chính xác trong nhiều đánh giá về toán học và lý luận khác nhau.

“Sau khi xây dựng Phi-1, Phi-2, Phi-3 và Phi-4, một bài học rút ra từ tôi trong nghiên cứu là RL đòi hỏi ít dữ liệu hơn nhiều so với huấn luyện SFT,” Behl lưu ý.

Ông cho rằng điều này là do thực tế là RL ít tập trung vào việc truyền đạt các kỹ năng hoàn toàn mới cho mô hình từ đầu mà tập trung nhiều hơn vào việc hướng dẫn mô hình kết hợp và tận dụng hiệu quả các kỹ năng hiện có để đạt được kết quả tốt hơn.

Thành công của Microsoft với học tăng cường phù hợp với kinh nghiệm của nhiều công ty AI khác. OpenAI, một công ty tiên phong trong việc phát triển các mô hình lý luận, đã nhiều lần nhấn mạnh tác động thuận lợi của RL đối với các dự án của họ.

Điều thú vị là DeepSeek R1, một mô hình của Trung Quốc đã làm gián đoạn bối cảnh AI vào năm ngoái, cũng cho rằng thành công của nó, một phần, là nhờ ứng dụng RL. Hơn nữa, một số nhà nghiên cứu và kỹ sư từ OpenAI đã công khai thừa nhận vai trò quan trọng của RL trong thành công của các sáng kiến nghiên cứu sâu của họ.

Gần đây hơn, mô hình Qwen của Alibaba cũng tán thành học tăng cường, nhấn mạnh tác động đáng kể của nó đối với các mô hình lý luận của họ. Trong một bài đăng trên blog, công ty tuyên bố, “Chúng tôi tin tưởng rằng việc kết hợp các mô hình nền tảng mạnh mẽ hơn với RL được hỗ trợ bởi các nguồn lực tính toán mở rộng sẽ đẩy chúng ta đến gần hơn với việc đạt được Trí tuệ nhân tạo tổng quát (AGI).”

Tuy nhiên, bất chấp thành công của Phi-4 Reasoning, Phi-4 Reasoning Plus và nhiều mô hình lý luận khác, lĩnh vực này vẫn phải đối mặt với một số thách thức.

Cuộc tìm kiếm liên tục để cải thiện

Trong những tháng gần đây, một số nghiên cứu đã nhấn mạnh những hạn chế hiện tại và những cạm bẫy tiềm ẩn của các mô hình lý luận. Ví dụ: trong bài nghiên cứu của họ về Phi-4 Reasoning, các nhà nghiên cứu của Microsoft thừa nhận rằng họ tiếp tục phải vật lộn với những thách thức liên quan đến việc tiêu thụ quá nhiều thời gian và tài nguyên, thời gian phản hồi chậm hơn và đáng chú ý nhất là vấn đề phản hồi của mô hình mâu thuẫn với các bước lý luận trước đó của chính nó.

Trong một diễn biến quan trọng khác, Anthropic đã công bố một nghiên cứu tiết lộ rằng các chuỗi lý luận (thường được gọi là chuỗi tư duy, hay CoT) có thể không phản ánh nhất quán quá trình lý luận thực tế của mô hình. Các nhà nghiên cứu phát hiện ra rằng các mô hình thường khai thác các gợi ý bên ngoài, chẳng hạn như các tín hiệu rõ ràng được chèn vào các lời nhắc để hướng dẫn chúng đến các câu trả lời chính xác, nhưng hiếm khi thừa nhận hoặc diễn đạt các gợi ý này trong các bước lý luận rõ ràng của chúng. Sự khác biệt giữa hành vi bên trong của mô hình và lời giải thích bên ngoài của nó làm dấy lên lo ngại về độ tin cậy của việc sử dụng CoT như một công cụ đáng tin cậy để giải thích mô hình và đảm bảo an toàn.

Ngay cả OpenAI cũng đã phát hành các báo cáo nghiên cứu nêu bật xu hướng của các mô hình lý luận tiên tiến tham gia vào “hack phần thưởng”. Hack phần thưởng đề cập đến các tình huống mà các tác nhân AI khai thác các kẽ hở hoặc hậu quả không lường trước được trong các mục tiêu đã xác định của họ để tối đa hóa phần thưởng theo những cách ban đầu không được dự định hoặc mong muốn. OpenAI đã khám phá các chiến lược để giảm thiểu điều này, chẳng hạn như sử dụng một mô hình ít mạnh mẽ hơn (GPT-4o) để giám sát một mô hình mạnh hơn như o3-Mini, mặc dù điều này tạo ra những phức tạp và thành kiến tiềm ẩn của riêng nó.

Nat McAleese, một thành viên của bộ phận kỹ thuật tại OpenAI, nhấn mạnh rằng “các mô hình lý luận lớn cực kỳ giỏi trong việc hack phần thưởng,” trích dẫn các ví dụ được lựa chọn cẩn thận từ báo cáo để minh họa điểm này.

“Có rất nhiều sự dư thừa trong chuỗi lý luận; chúng mâu thuẫn với chính chúng và có rất nhiều câu hỏi chưa được trả lời,” Behl nhận xét. “Nhưng, đó là một không gian đang phát triển. Nếu chúng ta có thể giải quyết vấn đề này như một cộng đồng và hiểu cách các mô hình tư duy, sẽ có rất nhiều lợi ích.” Tương lai của các mô hình lý luận phụ thuộc vào việc giải quyết những thách thức này thông qua nghiên cứu và hợp tác liên tục trong cộng đồng AI.