Một năm sau khi giới thiệu dòng mô hình ngôn ngữ nhỏ (SLMs) với việc phát hành Phi-3 trên Azure AI Foundry, Microsoft đã công bố các mô hình thế hệ tiếp theo của mình: Phi-4-reasoning, Phi-4-reasoning-plus và Phi-4-mini-reasoning. Những cải tiến này đánh dấu một bước ngoặt cho SLMs, định nghĩa lại những gì có thể đạt được với AI nhỏ gọn và hiệu quả.
Bình Minh của Các Mô Hình Phi-Reasoning
Các mô hình Phi-reasoning mới được thiết kế để khai thác khả năng mở rộng thời gian suy luận cho các tác vụ phức tạp đòi hỏi sự phân tách đa bước và phản ánh nội bộ. Các mô hình này thể hiện khả năng đặc biệt trong suy luận toán học, khẳng định mình là nền tảng cho các ứng dụng giống như tác nhân xử lý các tác vụ phức tạp và đa diện. Trong lịch sử, những khả năng như vậy là độc quyền đối với các mô hình lớn hơn đáng kể. Các mô hình Phi-reasoning giới thiệu một loại SLM mới tận dụng chưng cất, học tăng cường và dữ liệu chất lượng cao để đạt được sự cân bằng giữa kích thước và hiệu suất. Kích thước nhỏ gọn của chúng làm cho chúng phù hợp với môi trường độ trễ thấp, trong khi khả năng suy luận mạnh mẽ của chúng ngang bằng với các mô hình lớn hơn nhiều. Sự kết hợp giữa hiệu quả và khả năng này cho phép ngay cả các thiết bị bị hạn chế về tài nguyên cũng có thể thực hiện các tác vụ suy luận phức tạp một cách hiệu quả.
Phi-4-Reasoning và Phi-4-Reasoning-Plus: Đi Sâu Hơn
Phi-4-Reasoning: Mô Hình Suy Luận Trọng Số Mở
Phi-4-reasoning nổi bật như một mô hình suy luận trọng số mở với 14 tỷ tham số. Nó được thiết kế để cạnh tranh với các mô hình lớn hơn đáng kể trong các tác vụ suy luận phức tạp. Mô hình này được đào tạo thông qua tinh chỉnh có giám sát Phi-4 trên các ví dụ suy luận được tuyển chọn tỉ mỉ có nguồn gốc từ o3-mini của OpenAI. Phi-4-reasoning tạo ra các chuỗi suy luận chi tiết, sử dụng hiệu quả thời gian tính toán bổ sung trong quá trình suy luận. Thành tích này nhấn mạnh cách quản lý dữ liệu chính xác và các tập dữ liệu tổng hợp chất lượng cao trao quyền cho các mô hình nhỏ hơn để cạnh tranh với các đối tác lớn hơn của chúng.
Phi-4-Reasoning-Plus: Nâng Cao Suy Luận với Học Tăng Cường
Dựa trên khả năng của Phi-4-reasoning, Phi-4-reasoning-plus trải qua quá trình đào tạo thêm với học tăng cường để khai thác thời gian tính toán bổ sung trong quá trình suy luận. Nó xử lý số lượng mã thông báo gấp 1,5 lần so với Phi-4-reasoning, dẫn đến độ chính xác được nâng cao.
Điểm Chuẩn Hiệu Suất
Mặc dù có kích thước nhỏ hơn đáng kể, cả Phi-4-reasoning và Phi-4-reasoning-plus đều vượt trội hơn o1-mini của OpenAI và DeepSeek-R1-Distill-Llama-70B trên nhiều điểm chuẩn khác nhau, bao gồm suy luận toán học và các yêu cầu khoa học cấp độ Tiến sĩ. Ấn tượng hơn, chúng thậm chí còn vượt qua mô hình DeepSeek-R1 đầy đủ (với 671 tỷ tham số) trong bài kiểm tra AIME 2025, đóng vai trò là cuộc thi đủ điều kiện cho Olympic Toán học Hoa Kỳ năm 2025. Cả hai mô hình đều có thể truy cập dễ dàng trên Azure AI Foundry và Hugging Face.
Phi-4-Mini-Reasoning: Sức Mạnh Nhỏ Gọn cho Môi Trường Hạn Chế
Phi-4-mini-reasoning được thiết kế đặc biệt để đáp ứng nhu cầu về một mô hình suy luận nhỏ gọn. Mô hình ngôn ngữ dựa trên biến đổi này được tối ưu hóa cho suy luận toán học và cung cấp khả năng giải quyết vấn đề từng bước, chất lượng cao trong môi trường có sức mạnh tính toán hoặc độ trễ bị hạn chế. Được tinh chỉnh bằng dữ liệu tổng hợp do mô hình Deepseek-R1 tạo ra, nó cân bằng hiệu quả với khả năng suy luận nâng cao một cách hiệu quả. Điều này làm cho nó trở nên lý tưởng cho các ứng dụng giáo dục, hệ thống gia sư nhúng và triển khai nhẹ trên các hệ thống biên hoặc di động. Mô hình này được đào tạo trên hơn một triệu bài toán toán học đa dạng, có độ khó từ trung học cơ sở đến cấp độ Tiến sĩ, đảm bảo tính linh hoạt và hiệu quả của nó trong một loạt các bối cảnh giáo dục.
Phi trong Hành Động: Mở Rộng Chân Trời
Sự phát triển của Phi trong năm qua đã liên tục thúc đẩy ranh giới của chất lượng so với kích thước, với gia đình mở rộng để bao gồm các tính năng mới phù hợp với các nhu cầu đa dạng. Các mô hình này có thể chạy cục bộ trên cả CPU và GPU trên nhiều thiết bị Windows 11 khác nhau, mang lại sự linh hoạt và khả năng truy cập cho người dùng với các cấu hình phần cứng khác nhau.
Tích Hợp với Copilot+ PCs: Một Kỷ Nguyên Mới của Điện Toán do AI Cung Cấp
Các mô hình Phi tạo thành một phần không thể thiếu của Copilot+ PCs, tận dụng biến thể Phi Silica được tối ưu hóa cho NPU. Phiên bản Phi hiệu quả cao này, được quản lý bởi hệ điều hành, được thiết kế để được tải sẵn vào bộ nhớ, cung cấp thời gian phản hồi nhanh chóng và thông lượng mã thông báo tiết kiệm năng lượng. Điều này cho phép nó được gọi đồng thời với các ứng dụng khác trên PC, nâng cao khả năng đa nhiệm và hiệu suất hệ thống tổng thể.
Ứng Dụng Thực Tế
Các mô hình Phi đã được sử dụng trong các trải nghiệm cốt lõi như Click to Do, cung cấp các công cụ văn bản thông minh cho tất cả nội dung trên màn hình. Chúng cũng có sẵn dưới dạng API dành cho nhà phát triển để tích hợp liền mạch vào các ứng dụng. Các mô hình hiện đang được sử dụng trong các ứng dụng năng suất khác nhau như Outlook, nơi chúng cung cấp các tính năng tóm tắt Copilot ngoại tuyến. Các mô hình Phi-4-reasoning và Phi-4-mini-reasoning tận dụng các tối ưu hóa bit thấp cho Phi Silica và sẽ sớm có sẵn để chạy trên Copilot+ PC NPUs.
Cam Kết của Microsoft về AI Có Trách Nhiệm và An Toàn
Tại Microsoft, AI có trách nhiệm là một nguyên tắc cơ bản hướng dẫn sự phát triển và triển khai các hệ thống AI, bao gồm cả các mô hình Phi. Các mô hình Phi được phát triển phù hợp với các nguyên tắc AI của Microsoft: trách nhiệm giải trình, tính minh bạch, công bằng, độ tin cậy và an toàn, quyền riêng tư và bảo mật, và tính bao trùm. Gia đình mô hình Phi sử dụng một phương pháp mạnh mẽ để đảm bảo an toàn sau đào tạo, sử dụng kết hợp các kỹ thuật Tinh chỉnh có Giám sát (SFT), Tối ưu hóa Ưu tiên Trực tiếp (DPO) và Học Tăng cường từ Phản hồi của Con người (RLHF) để đảm bảo việc sử dụng chúng có trách nhiệm và đạo đức.
Nền Tảng Kỹ Thuật của Các Mô Hình Phi: Một Khảo Sát Chi Tiết
Các mô hình Phi của Microsoft đại diện cho một bước tiến đáng kể trong lĩnh vực mô hình ngôn ngữ nhỏ, đặc biệt là về khả năng thực hiện các tác vụ suy luận phức tạp với số lượng tham số tương đối ít. Phần này đi sâu vào các chi tiết kỹ thuật cho phép các mô hình này đạt được hiệu suất ấn tượng như vậy.
Cải Tiến Kiến Trúc
Các mô hình Phi dựa trên kiến trúc biến đổi, một mô hình học sâu đã cách mạng hóa quá trình xử lý ngôn ngữ tự nhiên. Các biến đổi vượt trội trong việc nắm bắt các phụ thuộc tầm xa trong văn bản, cho phép các mô hình hiểu ngữ cảnh và sắc thái của ngôn ngữ.
Cơ Chế Chú Ý: Cốt lõi của kiến trúc biến đổi là cơ chế chú ý, cho phép mô hình tập trung vào các phần liên quan nhất của đầu vào khi tạo ra đầu ra. Điều này đặc biệt quan trọng đối với các tác vụ suy luận, nơi mô hình cần xác định thông tin và mối quan hệ chính để đi đến một kết luận chính xác.
Chú Ý Tích Chấm Tỷ Lệ: Các mô hình Phi sử dụng chú ý tích chấm tỷ lệ, một phiên bản tinh chỉnh của cơ chế chú ý bao gồm một hệ số tỷ lệ để ngăn các tích chấm trở nên quá lớn, điều này có thể dẫn đến sự không ổn định trong quá trình đào tạo.
Chú Ý Đa Đầu: Để nắm bắt các khía cạnh khác nhau của đầu vào, các mô hình Phi sử dụng chú ý đa đầu, trong đó nhiều cơ chế chú ý hoạt động song song. Mỗi đầu tập trung vào một tập hợp con khác nhau của đầu vào, cho phép mô hình học các biểu diễn phức tạp hơn.
Mạng Chuyển Tiếp: Sau các lớp chú ý, kiến trúc biến đổi bao gồm các mạng chuyển tiếp để xử lý thêm thông tin. Các mạng này bao gồm nhiều lớp nơ-ron học cách trích xuất cácđặc trưng từ các đầu ra chú ý.
Phương Pháp Đào Tạo: Một Phương Pháp Đa Diện
Việc đào tạo các mô hình Phi bao gồm sự kết hợp của các kỹ thuật, bao gồm tinh chỉnh có giám sát, học tăng cường và chưng cất dữ liệu.
Tinh Chỉnh Có Giám Sát (SFT): Tinh chỉnh có giám sát bao gồm việc đào tạo mô hình trên một tập dữ liệu được gắn nhãn, trong đó đầu vào là một câu hỏi hoặc vấn đề và đầu ra là câu trả lời hoặc giải pháp chính xác. Điều này giúp mô hình học cách liên kết các đầu vào cụ thể với các đầu ra tương ứng.
Học Tăng Cường (RL): Học tăng cường là một kỹ thuật trong đó mô hình học cách đưa ra quyết định bằng cách tương tác với một môi trường và nhận phần thưởng hoặc hình phạt cho các hành động của nó. Trong bối cảnh của các mô hình ngôn ngữ, môi trường có thể là một tập hợp các quy tắc hoặc ràng buộc và phần thưởng có thể dựa trên độ chính xác của các phản hồi của mô hình.
Chưng Cất Dữ Liệu: Chưng cất dữ liệu là một kỹ thuật trong đó một mô hình nhỏ hơn được đào tạo để bắt chước hành vi của một mô hình lớn hơn, phức tạp hơn. Điều này cho phép mô hình nhỏ hơn đạt được hiệu suất tương đương với mô hình lớn hơn, đồng thời yêu cầu ít tài nguyên hơn.
Quản Lý Dữ Liệu: Nền Tảng của Hiệu Suất
Hiệu suất của các mô hình Phi phụ thuộc rất nhiều vào chất lượng của dữ liệu được sử dụng để đào tạo. Microsoft đã đầu tư rất nhiều công sức vào việc quản lý các tập dữ liệu chất lượng cao được thiết kế đặc biệt cho các tác vụ suy luận.
Tạo Dữ Liệu Tổng Hợp: Để tăng cường dữ liệu có sẵn, Microsoft đã phát triển các kỹ thuật để tạo dữ liệu tổng hợp bắt chước các đặc điểm của dữ liệu thực tế. Điều này cho phép các mô hình được đào tạo trên một tập dữ liệu lớn hơn và đa dạng hơn, điều này cải thiện khả năng khái quát hóa của chúng.
Lọc Dữ Liệu: Microsoft sử dụng các kỹ thuật lọc dữ liệu nghiêm ngặt để loại bỏ dữ liệu nhiễu hoặc không liên quan khỏi tập dữ liệu đào tạo. Điều này đảm bảo rằng các mô hình được đào tạo trên dữ liệu sạch và chính xác, điều này dẫn đến hiệu suất tốt hơn.
Tăng Cường Dữ Liệu: Các kỹ thuật tăng cường dữ liệu được sử dụng để tăng tính đa dạng của tập dữ liệu đào tạo bằng cách áp dụng các biến đổi cho dữ liệu hiện có. Điều này giúp các mô hình trở nên mạnh mẽ hơn trước những thay đổi trong đầu vào.
Kỹ Thuật Tối Ưu Hóa: Cân Bằng Hiệu Quả và Độ Chính Xác
Các mô hình Phi được tối ưu hóa cho cả hiệu quả và độ chính xác, cho phép chúng chạy trên các thiết bị bị hạn chế về tài nguyên mà không làm giảm hiệu suất.
Lượng Tử Hóa: Lượng tử hóa là một kỹ thuật trong đó độ chính xác của các tham số của mô hình được giảm xuống, điều này làm giảm dấu chân bộ nhớ và các yêu cầu tính toán của mô hình.
Cắt Tỉa: Cắt tỉa là một kỹ thuật trong đó các kết nối ít quan trọng hơn trong mô hình bị xóa, điều này làm giảm kích thước và độ phức tạp của mô hình.
Chưng Cất Kiến Thức: Chưng cất kiến thức liên quan đến việc chuyển kiến thức từ một mô hình lớn hơn, phức tạp hơn sang một mô hình nhỏ hơn. Điều này cho phép mô hình nhỏ hơn đạt được hiệu suất tương đương với mô hình lớn hơn, đồng thời yêu cầu ít tài nguyên hơn.
Phi Silica NPU: Một Phương Pháp Tiếp Cận Hiệp Đồng Phần Cứng-Phần Mềm
Các mô hình Phi của Microsoft được thiết kế để được tích hợp chặt chẽ với Phi Silica NPU (Bộ Xử Lý Nơ-ron), một bộ tăng tốc phần cứng chuyên dụng được tối ưu hóa cho khối lượng công việc học sâu.
Tối Ưu Hóa Bit Thấp: Phi Silica NPU hỗ trợ tối ưu hóa bit thấp, cho phép các mô hình chạy với độ chính xác giảm, giảm thêm dấu chân bộ nhớ và các yêu cầu tính toán của chúng.
Tải Sẵn Vào Bộ Nhớ: Các mô hình Phi được thiết kế để được tải sẵn vào bộ nhớ, điều này cho phép chúng được gọi nhanh chóng và hiệu quả.
Quản Lý Hệ Điều Hành: Phi Silica NPU được quản lý bởi hệ điều hành, cho phép nó được tích hợp liền mạch vào trải nghiệm người dùng.
Tóm lại, các mô hình Phi của Microsoft đại diện cho một thành tựu đáng kể trong lĩnh vực mô hình ngôn ngữ nhỏ. Bằng cách kết hợp các thiết kế kiến trúc sáng tạo, phương pháp đào tạo nghiêm ngặt, quản lý dữ liệu cẩn thận và đồng thiết kế phần cứng-phần mềm, Microsoft đã tạo ra một gia đình mô hình vừa mạnh mẽ vừa hiệu quả, cho phép một loạt các ứng dụng do AI cung cấp.