Mô Hình Nhỏ Microsoft 'Ăn Gian' Toán Học

Sự Trỗi Dậy của Các Mô Hình Suy Luận Phi-4

Thế giới AI hiện đang bị cuốn hút bởi các mô hình suy luận, và Microsoft gần đây đã giới thiệu dòng mô hình suy luận Phi-4. Dòng này bao gồm Phi-4-reasoning, Phi-4-reasoning-plusPhi-4-mini-reasoning. Điều đặc biệt đáng chú ý là ngay cả mô hình lớn nhất trong số này, với chỉ 14 tỷ tham số, có thể chạy trơn tru trên máy tính xách tay hiệu năng cao. Hơn nữa, Phi-4-mini-reasoning với 3,8 tỷ tham số vượt trội so với mô hình DeepSeek-R1 distilled với 8 tỷ tham số trong suy luận toán học, làm nổi bật sức mạnh của các mô hình nhỏ hơn trong các tác vụ suy luận.

Thay vì chờ đợi sự ra mắt của mô hình suy luận DeepSeek-R2 thế hệ thứ hai vào tháng Tư, Microsoft đã công bố một loạt mô hình suy luận Phi-4 mới. Các mô hình này thể hiện hiệu suất vượt trội trong suy luận toán học, vượt qua mô hình DeepSeek-R1 distilled, mặc dù Phi-4-Mini-Reasoning có quy mô tham số nhỏ hơn.

Ahmed Awadallah, Partner Research Manager tại phòng thí nghiệm Microsoft AI Frontiers, đã mô tả về Phi-4-reasoning và tóm tắt các tính năng của mô hình mới.

  • Mô hình được huấn luyện bằng Supervised Fine-tuning (sử dụng một bộ dữ liệu ví dụ suy luận được lựa chọn cẩn thận) và Reinforcement Learning.
  • Nó hoạt động tốt trong các điểm chuẩn suy luận và có thể so sánh với các mô hình hàng đầu lớn hơn như DeepSeek R1.
  • Nó tiếp tục hoạt động mạnh mẽ trên các bài kiểm tra mới (chẳng hạn như AIME 2025, HMMT)
  • Khả năng suy luận có khả năng chuyển giao/khái quát hóa mạnh mẽ, ngay cả sau khi chỉ tinh chỉnh có giám sát, nó có thể thích ứng với các tác vụ mới (chẳng hạn như k-SAT, giải phương trình toán học, lập lịch, v.v.)
  • Giữ lại và cải thiện đáng kể các khả năng chung (chẳng hạn như hiểu và thực hiện hướng dẫn)

Ông nói rằng Phi-4 vẫn còn một số khía cạnh cần cải thiện, đặc biệt là về độ dài ngữ cảnh, khả năng mã hóa và tích hợp công cụ.

Ngoài bản thân mô hình, Microsoft cũng chia sẻ một báo cáo kỹ thuật chi tiết cung cấp phân tích chuyên sâu về quá trình đào tạo và đánh giá của mô hình.

Trên X, Dimitris Papailiopoulos, Principal Researcher tại phòng thí nghiệm Microsoft Research AI Frontiers và Associate Professor tại Đại học Wisconsin, đã giới thiệu thêm thông tin về mô hình suy luận Phi-4.

Ông tin rằng Phi-4-reasoning đã hoàn toàn đạt đến trình độ sau đại học và có thể chạy trên một PC cục bộ.

Điều này vượt quá mong đợi của ông về sự phát triển của AI.

Mô hình mới có ít tham số nhưng hiệu suất mạnh mẽ.

Một Cỗ Máy Hiệu Năng

Mặc dù có kích thước khiêm tốn, mô hình này vượt trội trong các điểm chuẩn toán học như AIME, HMMT và OmniMath. Nó hoạt động ngang bằng hoặc vượt trội so với các mô hình open-weight lớn hơn như QwQ-32B, R1-70B và R1, và các mô hình kín như o1-mini và sonnet 3.7.

Mô hình này có kích thước nhỏ và phù hợp để chạy trơn tru trên máy tính xách tay hiệu năng cao.

Đồng thời, nó có khả năng giải quyết nhiều câu đố mà ngay cả các mô hình không suy luận lớn hơn và một số mô hình suy luận không thể giải quyết.

Nó cũng đã vượt qua bài kiểm tra DimitrisEval!

Đáng ngạc nhiên là, suy luận dường như là một ‘siêu kỹ năng’ có thể chuyển giao thực sự có thể được học ngay cả thông qua SFT có giám sát!

Bằng chứng 1: Ngay cả khi không được đào tạo chuyên biệt về các tác vụ không suy luận, các nhà nghiên cứu vẫn quan sát thấy sự cải thiện đáng kể về hiệu suất trên IFEval, FlenQA và PhiBench nội bộ (tăng hơn 10 điểm!).

Ngoài ra, có rất ít dữ liệu liên quan đến mã hóa trong giai đoạn SFT (và hoàn toàn không có trong giai đoạn RL), nhưng mô hình vẫn hoạt động tốt về mặt này.

Ngoài ra, Dimitris Papailiopoulos tiết lộ rằng lập trình là trọng tâm chính cho các phiên bản tiếp theo.

Bằng chứng 2: Trong trường hợp một số vấn đề cụ thể mà không được đào tạo rõ ràng (giai đoạn SFT hoặc RL), chẳng hạn như bài toán người bán hàng rong, giải mê cung, k-SAT, lập kế hoạch ràng buộc, v.v., mô hình hoạt động rất tốt trong các tác vụ này!

Và Phi-4 (và thậm chí cả GPT-4) không thể làm điều này.

Điều này minh họa đầy đủ rằng khả năng suy luận thực sự có thể được chuyển giao như một kỹ năng!

Sau một vòng học tăng cường rất ngắn (chỉ sử dụng 6.000 mẫu, so với 1,4 triệu ví dụ cho SFT), cơ chế suy luận của mô hình dường như đã bị ‘khóa’.

Điều này khiến Dimitris Papailiopoulos đặc biệt sốc.

Ông cảm thấy như thể học tăng cường đã dạy mô hình suy luận bằng ‘ngôn ngữ riêng của nó’, tăng độ chính xác khoảng 10% trên AIME và HMMT, và tăng độ dài câu trả lời trung bình lên 50% trong các bài toán khó.

Học tăng cường thực sự hiệu quả!!

Hiện tượng cơ chế suy luận bị ‘khóa’ thường làm cho phân phối đầu ra của mô hình tập trung hơn và độ chính xác cũng cao hơn.

Thực tế là học tăng cường có thể cải thiện đáng kể khả năng của mô hình cũng đã được phản ánh trong các nghiên cứu trước đây của Microsoft.

Trong giai đoạn học tăng cường, mô hình mới thậm chí không được tối ưu hóa đặc biệt cho dữ liệu: 6.000 câu hỏi chỉ được chọn ngẫu nhiên từ một lựa chọn lớn hơn các bộ dữ liệu.

Vậy tại sao Microsoft không tiến hành đào tạo học tăng cường nhiều hơn?

Bởi vì mô hình tạo ra câu trả lời cho các câu hỏi vượt quá độ dài ngữ cảnh 32k (độ dài mà mô hình không được đào tạo), họ chỉ có thể cắt bớt nó.

Ngoài ra, với sự trợ giúp của các tính toán suy luận song song (chẳng hạn như Maj@N), mô hình suy luận mới gần như đã đạt đến giới hạn hiệu suất trên AIME 2025, và thậm chí còn vượt qua hiệu suất pass@1 của mô hình giáo viên của nó (o3-mini).

Và đã hoàn thành tất cả quá trình thu thập dữ liệu trước tháng 2 năm 2025, cũng như HMMT.

Trong các tác vụ khác, các nhà nghiên cứu cũng đã quan sát thấy hiện tượng ‘vượt qua giáo viên’, chẳng hạn như các tác vụ OmniMath và Lập kế hoạch Lịch.

Thiết kế lời nhắc trong giai đoạn SFT, cùng với quá trình học tăng cường tiếp theo, dường như đã mang lại cho mô hình khả năng ‘tự cải thiện’, vượt ra ngoài phạm vi kiến thức do mô hình giáo viên cung cấp.

Trong hình dưới đây, màu đỏ tươi đại diện cho o3-mini và màu xanh lá cây đại diện cho Phi.

Một hiện tượng thú vị là: các văn bản dài có độ dài phản hồi nằm trong top 25% thường có mối tương quan chặt chẽ với các câu trả lời sai!

Tuy nhiên, mặt khác, trong hầu hết các đánh giá, độ dài câu trả lời trung bình tổng thể dài hơn và độ chính xác cao hơn.

Nói cách khác, tăng tài nguyên tính toán trong quá trình thử nghiệm sẽ giúp ích, nhưng mô hình cũng dễ bị ‘lan man’ khi nó ‘mắc kẹt’.

Về những hạn chế của mô hình, cũng có một số điều cần lưu ý:

  • Khả năng xử lý độ dài ngữ cảnh vượt quá 32k chưa được mở rộng hoặc thử nghiệm đầy đủ.
  • Mô hình có xu hướng ‘suy nghĩ quá mức’ khi đối phó với các vấn đề đơn giản và có vẻ quá dài dòng trong tự đánh giá.
  • Khả năng đối thoại nhiều lượt chưa được thử nghiệm rộng rãi.

Tất nhiên, có nhiều ‘điểm mù’ hơn cần được khám phá, nhưng nhìn chung, nhóm nghiên cứu cảm thấy rằng họ đang đi đúng hướng!

Những Bất Ngờ Trong Huấn Luyện

Suriya Gunasekar, Principal Research Manager tại Microsoft Research và thuộc nhóm ‘AGI Physics’ chịu trách nhiệm phát triển dòng mô hình Phi, tập trung vào việc giới thiệu các nguyên tắc cốt lõi của công việc.

Lần này, nhóm Microsoft Phi tập trung vào giai đoạn sau đào tạo và ra mắt Phi-4-reasoning (chỉ sử dụng SFT) và Phi-4-reasoning-plus (SFT + một lượng nhỏ RL).

Cả hai đều là các mô hình 14B đã chứng minh khả năng mạnh mẽ trong các điểm chuẩn suy luận và tác vụ chung.

Cốt lõi của công việc này nằm ở việc lựa chọn lời nhắc và khám phá thực nghiệm các kỹ năng suy luận có thể chuyển giao, tự cải thiện.

Có hai khám phá đáng ngạc nhiên trong quá trình đào tạo:

Thứ nhất, chỉ cần sử dụng một vài quỹ đạo suy luận chuỗi dài (CoT) được đào tạo theo miền, Phi-4 có thể đạt được những cải thiện đáng kể về hiệu suất trong nhiều tác vụ như lập lịch, giải mê cung (không cần đầu vào hình ảnh), IFEva, FlenQA, KITAB (trả lời câu hỏi dựa trên tra cứu) và PhiBench nội bộ;

Thứ hai, ngay cả khi chỉ sử dụng 6.000 ví dụ toán học để đào tạo RL tối thiểu, hiệu suất của mô hình được cải thiện đáng kể trong một số điểm chuẩn, với mức cải thiện cao nhất đạt 10% (nhưng việc sử dụng mã thông báo tăng khoảng 1,5 lần) và khả năng chuyển giao kỹ năng chéo miền cũng được quan sát thấy trong giai đoạn RL.

Nói cách khác, so với các đối thủ cạnh tranh lớn như OpenAI và Google, dòng suy luận Microsoft Phi-4 thể hiện những khả năng mới: các mô hình nhỏ có thể phù hợp hoặc thậm chí vượt trội so với các mô hình lớn trong các tác vụ cụ thể bằng cách sử dụng dữ liệu chất lượng cao và các chiến lược đào tạo được tinh chỉnh.

Các Phương Pháp Cốt Lõi

Mô hình suy luận Phi-4-reasoning có 14 tỷ tham số và hoạt động mạnh mẽ trong các tác vụ suy luận phức tạp.

Mô hình dựa trên Phi-4 để đào tạo tinh chỉnh có giám sát, sử dụng một tập hợp các lời nhắc ‘dễ dạy’ được lựa chọn cẩn thận, vừa có độ phức tạp vừa có tính đa dạng phù hợp; các ví dụ suy luận được tạo bởi o3-mini được sử dụng làm tài liệu tham khảo trong quá trình đào tạo.

Phi-4-reasoning có thể tạo ra các chuỗi suy luận chi tiết và tận dụng tối đa tài nguyên tính toán trong quá trình suy luận.

Trên cơ sở này, Microsoft đã phát triển thêm Phi-4-reasoning-plus.

Nó được tăng cường trên cơ sở mô hình ban đầu thông qua một giai đoạn nhỏ học tăng cường dựa trên kết quả và tạo ra các chuỗi suy luận dài hơn và mạnh mẽ hơn.

Nghiên cứu cho thấy rằng bộ dữ liệu SFT được thiết kế tốt có thể cải thiện đáng kể hiệu quả của các mô hình ngôn ngữ suy luận, và học tăng cường (RL) có thể khuếch đại thêm sự cải thiện này trên cơ sở này.

Trong các thí nghiệm SFT, ngay cả trong cài đặt tạo tương đối đơn giản này, việc lựa chọn cẩn thận và lọc nghiêm ngặt các vấn đề ban đầu vẫn là chìa khóa thành công của mô hình.

Họ đã tuân thủ toàn bộ tập dữ liệu đào tạo một quy trình khử ô nhiễm nghiêm ngặt để đảm bảo rằng nó không chứa dữ liệu chồng chéo cao với các câu hỏi điểm chuẩn suy luận hoặc chung được sử dụng rộng rãi, bao gồm một số điểm chuẩn không được đề cập trong báo cáo này.

Danh sách đầy đủ các bài kiểm tra điểm chuẩn đã được khử ô nhiễm như sau:

  • Toán học và Suy luận: AIME-2024, MATH, GPQA, OmniMATH, GSM8k
  • Lập trình: LiveCodeBench, Codeforces, HumanEval, MBPP
  • Trả lời Câu hỏi và Kiến thức Chung: SimpleQA, DROP, AGIEval, ARC-Challenge, ARC-Easy, CommonsenseQA, OpenBookQA, PIQA, WinoGrande
  • Các Tác Vụ Đánh Giá Khác: SWE-Bench Verified, ArenaHard, MT-Bench, PhiBench

Thông qua Supervised Finetuning (SFT) của mô hình Phi-4 với 14 tỷ tham số, các nhà nghiên cứu đã thu được Phi-4-reasoning, mà không có bất kỳ học tăng cường nào trước đó.

Mục tiêu SFT là tinh chỉnh khả năng suy luận có cấu trúc chứa trong mô hình cơ bản.

Kiến trúc của Phi-4-reasoning giống như kiến trúc của mô hình Phi-4, nhưng có hai sửa đổi chính:

  • Mã thông báo suy luận: Hai mã thông báo giữ chỗ trong mô hình cơ bản được sử dụng lại làm và , được sử dụng để đánh dấu sự bắt đầu và kết thúc của một quá trình suy luận (‘suy nghĩ’).
  • Độ dài Mã thông báo Tăng Lên: Độ dài mã thông báo tối đa ban đầu được hỗ trợ bởi mô hình cơ bản (Phi-4) là 16K. Để chứa các mã thông báo suy luận bổ sung, tần số cơ bản của RoPE đã được tăng gấp đôi và mô hình được đào tạo ở độ dài mã thông báo tối đa là 32K.

Họ đã sử dụng một phương pháp tổng hợp để tạo ra một số lượng lớn các ví dụ suy luận chuỗi suy nghĩ.

Bộ dữ liệu SFT được sử dụng chứa hơn 1,4 triệu cặp lời nhắc-phản hồi, với tổng số 8,3 tỷ mã thông báo duy nhất, bao gồm các lĩnh vực suy luận như toán học và lập trình, cũng như dữ liệu căn chỉnh cho AI an toàn và có trách nhiệm.

Hình 4a cho thấy sự thay đổi của các chỉ số chính trong suốt quá trình lặp đi lặp lại SFT.

Ngay từ đầu quá trình đào tạo, mô hình đã bắt đầu sử dụng các mã thông báo ‘suy nghĩ’ rõ ràng, điều này cho thấy rằng mô hình đã nhanh chóng học được định dạng có cấu trúc nông cạn này.

Tuy nhiên, như được hiển thị trong Hình 4a, hiệu quả của mô-đun chuỗi suy nghĩ và khả năng suy luận của mô hình đang được cải thiện trong suốt quá trình đào tạo, điều này cho thấy rằng mô hình không chỉ sao chép định dạng mà còn thực sự học các kỹ năng suy luận.

Điều thú vị là, không giống như học tăng cường, các nhà nghiên cứu đã không thấy sự gia tăng về độ dài phản hồi trong quá trình SFT.

Trên thực tế, như được hiển thị trong Hình 4b, độ dài phản hồi trung bình đã giảm nhẹ.

Điều này cho thấy rằng khi quá trình đào tạo tiến triển, mô hình đang học cách sử dụng ngân sách mã thông báo của mình hiệu quả hơn.

Để đánh giá một cách có hệ thống các chiến lược đào tạo khác nhau, họ đã sử dụng một điểm chuẩn cố định - AIME 2024 và GPQA diamond - làm chỉ số tiến độ.

Nhìn chung, phương pháp thử nghiệm có thể được chia thành hai giai đoạn: khám phá và mở rộng quy mô.

Trong giai đoạn khám phá, các nhà nghiên cứu đã sử dụng các chu kỳ đào tạo ngắn hơn và các nguồn dữ liệu và lĩnh vực hạn chế để nhanh chóng lặp lại và trích xuất các phương pháp đào tạo mạnh mẽ.

Trong giai đoạn mở rộng tiếp theo, các nhà nghiên cứu đã tóm tắt kết quả của các thí nghiệm giảm thiểu rủi ro sớm và hoàn thiện các cài đặt SFT.

Hình 5 tóm tắt tiến trình này, làm nổi bật các thí nghiệm cắt bỏ cho một số lựa chọn thiết kế chính.

Hình 5 cho thấy một cái nhìn tổng quan cấp cao về chu trình thí nghiệm tinh chỉnh có giám sát (SFT) Phi-4-reasoning, bao gồm các giai đoạn khám phá và mở rộng, sử dụng một số thí nghiệm ví dụ để đại diện. Mỗi cụm dấu chấm đại diện cho kết quả thí nghiệm của một lựa chọn thiết kế đào tạo cụ thể.

Hình 7 cho thấy những phát hiện chính của mô hình Phi-4-reasoning-plus trong quá trình đào tạo GRPO.

Bắt đầu từ mô hình cơ sở tinh chỉnh có giám sát (SFT) Phi-4-reasoning, chỉ cần 90 bước đào tạo GRPO đã tăng hiệu suất AIME hơn 10% (Hình 7a).

Tiếp tục tăng số lượng bước đào tạo không mang lại lợi ích bổ sung, điều này cho thấy tiềm năng của một mô hình SFT mạnh mẽ gần với trần hiệu suất. Cần lưu ý rằng đầu ra trong đào tạo GRPO được giới hạn trong vòng 31k mã thông báo, điều này hạn chế một cách khách quan không gian tối ưu hóa của GRPO.

Như được hiển thị trong Hình 7c, độ dài phản hồi có mối tương quan chặt chẽ với hiệu suất AIME, trong khi mối tương quan giữa điểm phần thưởng và điểm AIME yếu. Hiệu ứng tăng trưởng độ dài phản hồi này là hiệu ứng dự kiến ​​của đào tạo GRPO - mô hình cải thiện khả năng suy luận của mình bằng cách tăng ‘thời gian suy nghĩ’.

Hình 7d tiết lộ thêm rằng do thiết kế của mô hình phần thưởng, độ dài tạo của các câu trả lời sai tăng lên nhanh hơn đáng kể so với các câu trả lời đúng (khi câu trả lời hiện tại của mô hình sai, hệ thống sẽ khuyến khích nó suy nghĩ lâu hơn).

Trên thực tế, thực hiện lấy mẫu loại bỏ chỉ dựa trên độ dài phản hồi (đặc biệt là các phản hồi dài vượt quá đáng kể trung vị) có thể cải thiện hơn nữa hiệu suất GRPO.

Như được hiển thị trong Hình 7d, xu hướng tăng trưởng của các phản hồi ngắn hơn (độ dài nằm trong 25% lượng tử dưới cùng) trong quá trình đào tạo tương tự như độ dài trung bình của các câu trả lời đúng, trong khi độ dài của các câu trả lời sai gần với 75% lượng tử của độ dài phản hồi tổng thể.

Hiện tượng phân biệt này chỉ ra rằng lấy mẫu loại bỏ dựa trên độ dài có thể cải thiện hiệu quả mô hình bằng cách ngăn chặn các đầu ra không chính xác quá dài.