Tencent ra mắt Hunyuan-T1: AI lý luận mới với Mamba

Bối cảnh Phát triển của Tối ưu hóa Mô hình Ngôn ngữ Lớn

Lĩnh vực trí tuệ nhân tạo đang chứng kiến một sự thay đổi mô hình, đặc biệt là trong các giai đoạn tinh chỉnh sau quá trình huấn luyện ban đầu của các mô hình ngôn ngữ lớn (LLMs). Học tăng cường (RL), một kỹ thuật tinh vi nơi các mô hình học hỏi thông qua thử và sai được hướng dẫn bởi phần thưởng, đã nổi lên như một lực lượng mạnh mẽ thúc đẩy những cải tiến hiệu suất đáng kể. Cách tiếp cận này đã chuyển từ sự tò mò học thuật thành một chiến lược nền tảng cho các nhà phát triển AI hàng đầu. Các khả năng ấn tượng được thể hiện bởi các mô hình như dòng O-series của OpenAI và DeepSeek R1 đáng chú ý là bằng chứng thuyết phục, nhấn mạnh chức năng then chốt của học tăng cường trong việc mài giũa kết quả đầu ra của mô hình, cải thiện kỹ năng giải quyết vấn đề và căn chỉnh hành vi AI chặt chẽ hơn với kỳ vọng và sở thích của con người. Giai đoạn sau huấn luyện này không còn chỉ là tinh chỉnh; đó là về việc nâng cao cơ bản năng lực nhận thức của mô hình.

Giới thiệu Hunyuan-T1: Bước nhảy vọt về Năng lực Tư duy Sâu

Trong bối cảnh tiến bộ nhanh chóng này, đội ngũ Hunyuan của Tencent đã đánh dấu một cột mốc quan trọng. Đầu năm nay, vào giữa tháng Hai, đội ngũ đã hé lộ về tiến trình của họ với Hunyuan T1-Preview (Hunyuan-Thinker-1-Preview). Được tích hợp vào ứng dụng Tencent Yuanbao, mô hình lý luận ban đầu này, được xây dựng dựa trên nền tảng Hunyuan quy mô trung bình, đã mang đến cho người dùng trải nghiệm về khả năng phân tích nhanh chóng và sâu sắc.

Xây dựng trên nền tảng đó, chúng tôi tự hào công bố sự ra mắt chính thức của Hunyuan-T1, phiên bản hoàn chỉnh của mô hình tư duy sâu trong gia đình mô hình lớn Hunyuan. Đây không chỉ đơn thuần là một bản cập nhật tăng dần; nó đại diện cho một sự tiến hóa đáng kể. Hunyuan-T1 tận dụng nền tảng TurboS tư duy nhanh, một kiến trúc đột phá được Tencent giới thiệu vào đầu tháng Ba. Điều làm cho TurboS đặc biệt đáng chú ý là sự khác biệt của nó như là mô hình lớn Hybrid-Transformer-Mamba Mixture of Experts (MoE) siêu quy mô lớn đầu tiên trên thế giới. Cấu trúc lai sáng tạo này kết hợp sức mạnh của kiến trúc Transformer đã được thiết lập với hiệu quả và khả năng xử lý chuỗi của mô hình không gian trạng thái Mamba mới hơn. Thông qua một chế độ hậu huấn luyện sâu rộng và được thiết kế tỉ mỉ, khả năng lý luận của Hunyuan-T1 đã được khuếch đại đáng kể, và sự căn chỉnh của nó với các sở thích tinh tế của con người đã được tinh chỉnh đáng kể. So với phiên bản tiền nhiệm preview, Hunyuan-T1 chính thức thể hiện những cải tiến rõ rệt trên mọi phương diện, định vị nó như một đối thủ đáng gờm trong số các mô hình lớn tiên tiến, có khả năng lý luận cao của ngành.

Ưu điểm Kiến trúc: Sức mạnh của TurboS và Mamba

Việc lựa chọn TurboS làm nền tảng cho Hunyuan-T1 mang lại những lợi thế khác biệt, đặc biệt khi giải quyết các nhiệm vụ đòi hỏi lý luận sâu, nhiều bước. Một nút thắt cổ chai quan trọng trong nhiều mô hình ngôn ngữ lớn phát sinh khi xử lý các tài liệu lớn hoặc các cuộc hội thoại dài. Thông tin được trình bày sớm có thể bị loãng đi hoặc mất hoàn toàn khi mô hình xử lý văn bản tiếp theo, dẫn đến cái được gọi là mất ngữ cảnh (context loss). Hơn nữa, việc thiết lập kết nối giữa các điểm cách nhau bởi các đoạn văn bản lớn – sự phụ thuộc thông tin ở khoảng cách xa (long-distance information dependence) – đặt ra một thách thức tính toán đáng kể.

Kiến trúc nền tảng của Hunyuan-T1, được kế thừa từ TurboS, trực tiếp đối mặt với những hạn chế này. Thiết kế vốn có của nó ưu tiên nắm bắt văn bản dài mạnh mẽ, đảm bảo rằng mô hình duy trì sự nắm bắt vững chắc hơn đối với toàn bộ đầu vào, do đó giảm thiểu mất ngữ cảnh và xác định đáng tin cậy hơn các mối quan hệ quan trọng qua các chuỗi mở rộng. Khả năng này rất quan trọng đối với các nhiệm vụ lý luận phức tạp thường đòi hỏi tổng hợp thông tin rải rác trong một kho văn bản lớn.

Trung tâm của khả năng nâng cao này là thành phần kiến trúc Mamba. Mamba đại diện cho một sự khác biệt so với các cơ chế hoàn toàn dựa trên sự chú ý (attention-based mechanisms) chiếm ưu thế trong nhiều mô hình Transformer. Nó sử dụng phương pháp mô hình không gian trạng thái (SSM), được tối ưu hóa đặc biệt để xử lý các chuỗi dài với hiệu quả đáng kể. Các lợi ích chính bao gồm:

  • Độ phức tạp thời gian tuyến tính: Không giống như độ phức tạp bậc hai của các cơ chế chú ý tiêu chuẩn liên quan đến độ dài chuỗi, Mamba co giãn tuyến tính. Điều này làm cho việc xử lý các văn bản cực dài trở nên khả thi về mặt tính toán mà không đòi hỏi tài nguyên quá lớn.
  • Tính toán hiệu quả: Thiết kế Mamba cho phép tính toán song song trong quá trình huấn luyện và các hoạt động đệ quy hiệu quả trong quá trình suy luận. Điều này chuyển trực tiếp thành tốc độ xử lý nhanh hơn.
  • Quản lý trạng thái chọn lọc: Các mô hình Mamba có thể chọn lọc giữ lại hoặc quên thông tin khi chúng xử lý một chuỗi, mô phỏng một cách tiếp cận tập trung hơn vào quản lý ngữ cảnh, điều này rất quan trọng để duy trì thông tin liên quan qua các khoảng cách dài.

Do đó, TurboS, và mở rộng ra là Hunyuan-T1, có thể phân tích hiệu quả các đầu vào dài trong khi tiêu thụ tài nguyên tính toán ít hơn đáng kể so với các mô hình Transformer truyền thống có quy mô tương tự. Các điểm chuẩn nội bộ chỉ ra rằng trong cùng điều kiện triển khai, Hunyuan-T1 đạt được tốc độ giải mã nhanh gấp đôi so với các mô hình tương đương không có tối ưu hóa Mamba, một yếu tố quan trọng cho các ứng dụng thực tế đòi hỏi phản hồi kịp thời.

Lò luyện Sau Huấn luyện: Rèn giũa Năng lực Lý luận bằng Học tăng cường

Quá trình chuyển đổi từ mô hình TurboS cơ sở sang Hunyuan-T1 có năng lực cao bao gồm một giai đoạn sau huấn luyện quy mô lớn và tập trung chiến lược. Nhận thức được vai trò quan trọng của các kỹ thuật học tiên tiến, Tencent đã dành một lượng tài nguyên tính toán phi thường 96.7% được phân bổ cho giai đoạn này đặc biệt cho việc huấn luyện học tăng cường. Khoản đầu tư khổng lồ này nhấn mạnh một ưu tiên chiến lược rõ ràng: nâng cao khả năng lý luận thuần túy của mô hình và căn chỉnh tỉ mỉ kết quả đầu ra của nó với các đánh giá và sở thích phức tạp của con người.

Điều này không chỉ đơn giản là cung cấp thêm dữ liệu cho mô hình; đó là về việc dạy nó cách suy nghĩ hiệu quả hơn. Các mục tiêu cốt lõi của giai đoạn tập trung vào RL này là kép:

  1. Nâng cao Lý luận Thuần túy: Đẩy mạnh giới hạn khả năng của mô hình trong việc thực hiện suy luận logic, tính toán toán học, suy luận nhân quả và giải quyết vấn đề phức tạp trên các lĩnh vực đa dạng.
  2. Tối ưu hóa Căn chỉnh Con người: Đảm bảo các phản hồi của mô hình không chỉ chính xác mà còn hữu ích, vô hại, trung thực và tinh tế theo cách gây được tiếng vang với người dùng. Điều này bao gồm việc hiểu ý định ngầm, tạo ra các kết quả đầu ra mạch lạc và phù hợp với ngữ cảnh, và tuân thủ các nguyên tắc an toàn.

Để thúc đẩy quá trình huấn luyện đòi hỏi này, một bộ dữ liệu khổng lồ và đa dạng đã được tuyển chọn tỉ mỉ. Bộ sưu tập này bao gồm các vấn đề khoa học và lý luận thế giới, trải rộng trên nhiều lĩnh vực:

  • Toán học: Từ số học cơ bản và đại số đến giải tích, lý thuyết số và các bài toán cấp độ thi đấu nâng cao.
  • Lý luận Logic: Các câu đố, nhiệm vụ suy luận diễn dịch, thách thức tư duy phản biện và các bài toán logic hình thức.
  • Khoa học: Các câu hỏi và vấn đề bao gồm vật lý, hóa học, sinh học và các lĩnh vực khoa học khác, thường đòi hỏi lý luận nhiều bước và áp dụng các nguyên tắc.
  • Lập trình: Thiết kế thuật toán, tạo mã, gỡ lỗi và hiểu logic lập trình phức tạp trên các ngôn ngữ khác nhau.

Quan trọng là, dữ liệu này được kết hợp với phản hồi thực tế có căn cứ (ground-truth real feedback). Vòng lặp phản hồi này rất cần thiết cho học tăng cường, cung cấp tín hiệu mà mô hình cần để hiểu đường lối lý luận nào dẫn đến kết quả đúng hoặc được ưa thích. Nền tảng nghiêm ngặt này đảm bảo rằng Hunyuan-T1 phát triển năng lực có thể chứng minh được khi đối mặt với một loạt các nhiệm vụ lý luận đầy thách thức gặp phải trong các tình huống thực tế.

Phương pháp Huấn luyện Tinh vi

Quy mô đầu tư tính toán và thu thập dữ liệu khổng lồ được kết hợp với các chiến lược huấn luyện tinh vi được thiết kế để tối đa hóa hiệu quả học tập và sự ổn định của mô hình.

  • Học theo Chương trình (Curriculum Learning): Thay vì làm mô hình quá tải với những vấn đề phức tạp nhất ngay lập tức, một phương pháp học theo chương trình đã được áp dụng. Quá trình huấn luyện bắt đầu với các nhiệm vụ đơn giản hơn và dần dần giới thiệu các vấn đề khó hơn. Đồng thời, độ dài ngữ cảnh hiệu quả của mô hình được mở rộng dần dần. Cách tiếp cận theo giai đoạn này cho phép mô hình xây dựng các kỹ năng lý luận nền tảng trước khi giải quyết các thách thức nâng cao hơn, thúc đẩy việc học ổn định và hiệu quả hơn. Nó cũng huấn luyện mô hình sử dụng dung lượng token của mình một cách thận trọng để lý luận hiệu quả, phát triển một dạng hiệu quả tính toán trong quá trình tư duy của nó.
  • Kỹ thuật Học tăng cường Nâng cao: Để đảm bảo tiến độ mạnh mẽ và nhất quán trong quá trình huấn luyện RL kéo dài, các chiến lược cổ điển nhưng mạnh mẽ đã được sử dụng. Các kỹ thuật như phát lại dữ liệu (data replay) (tái sử dụng kinh nghiệm trong quá khứ để củng cố việc học) và thiết lập lại chính sách định kỳ (periodic policy resetting) (thỉnh thoảng quay lại các trạng thái mô hình ổn định trước đó để ngăn chặn sự phân kỳ) đã được tích hợp. Những phương pháp này tỏ ra rất hiệu quả, tăng cường đáng kể sự ổn định lâu dài của quá trình huấn luyện mô hình hơn 50%, giảm thiểu các vấn đề như quên thảm khốc (catastrophic forgetting) hoặc sụp đổ chính sách (policy collapse) có thể gây khó khăn cho các nỗ lực RL quy mô lớn.
  • Hệ thống Phần thưởng Thống nhất: Căn chỉnh mô hình với sở thích của con người là một nhiệm vụ phức tạp. Hunyuan-T1 đã sử dụng một hệ thống phần thưởng thống nhất mới lạ. Hệ thống này tích hợp phản hồi từ hai nguồn:
    • Tự thưởng (Self-Rewarding): Một phiên bản trước đó của mô hình T1-preview đã được sử dụng như một giám khảo tự động để đánh giá và chấm điểm toàn diện các kết quả đầu ra của mô hình đang được huấn luyện. Điều này cho phép tạo phản hồi quy mô lớn, nhanh chóng dựa trên các tiêu chí được xác định trước.
    • Mô hình Phần thưởng (Reward Model): Một mô hình riêng biệt được huấn luyện đặc biệt để dự đoán sở thích của con người đã cung cấp một lớp hướng dẫn bổ sung, nắm bắt các khía cạnh tinh tế hơn về chất lượng, tính hữu ích và an toàn.
      Cơ chế phản hồi kết hợp này đã hướng dẫn mô hình thông qua một quá trình tự cải thiện, khuyến khích các kết quả đầu ra được đặc trưng bởi chi tiết nội dung phong phú hơn, phân phối thông tin hiệu quả hơn, và sự căn chỉnh tổng thể tốt hơn với các đặc điểm phản hồi mong muốn.

Điểm chuẩn Hiệu suất: Vững vàng giữa Tinh hoa

Thước đo cuối cùng của một mô hình ngôn ngữ lớn nằm ở hiệu suất của nó. Hunyuan-T1 đã được đánh giá nghiêm ngặt dựa trên một loạt các điểm chuẩn công khai và bộ dữ liệu nội bộ, thể hiện các khả năng đặt nó vững chắc trong nhóm hàng đầu của các mô hình AI đương đại.

Khi so sánh với DeepSeek R1, một mô hình tập trung vào lý luận khác cũng được đánh giá cao, Hunyuan-T1 đạt được kết quả tương đương hoặc cao hơn một chút trên một số điểm chuẩn công khai quan trọng đánh giá kiến thức và lý luận trên các ngôn ngữ và lĩnh vực khác nhau:

  • MMLU-pro: Một điểmchuẩn đầy thách thức được thiết kế để đánh giá kiến thức và lý luận toàn diện trên các chủ đề chuyên môn và học thuật đa dạng.
  • CEval: Một bộ đánh giá đa ngành bằng tiếng Trung.
  • AIME: Tập trung vào các bài toán cấp độ thi đấu đòi hỏi lý luận tinh vi.
  • Zebra Logic: Một điểm chuẩn nhắm mục tiêu cụ thể vào các câu đố suy luận logic phức tạp.

Ngoài các bài kiểm tra cụ thể này, các bộ dữ liệu đánh giá nội bộ của con người cung cấp thêm thông tin chi tiết. Trong khi hoạt động ngang bằng với R1 trong nhiều lĩnh vực, Hunyuan-T1 thể hiện lợi thế nhỏ trong các nhiệm vụ liên quan đến:

  • Tuân thủ Hướng dẫn Văn hóa và Sáng tạo: Tạo ra các định dạng văn bản sáng tạo, thích ứng với các yêu cầu phong cách cụ thể với các sắc thái văn hóa.
  • Tóm tắt Văn bản: Tạo ra các bản tóm tắt ngắn gọn và chính xác của các tài liệu dài trong khi vẫn giữ được thông tin chính.
  • Khả năng Tác tử (Agent Capabilities): Thể hiện sự thành thạo trong các nhiệm vụ đòi hỏi lập kế hoạch, sử dụng công cụ và tương tác với các hệ thống bên ngoài.

Nhìn vào các chỉ số đánh giá toàn diện được thiết kế để đo lường khả năng tổng thể, Hunyuan-T1 củng cố vị trí của mình trong số các mô hình suy luận ưu tú.

  • Trên MMLU-PRO, T1 đạt được số điểm đáng nể là 87.2, chỉ đứng sau mô hình O1 của OpenAI tại thời điểm đánh giá. Điểm chuẩn này bao gồm 14 lĩnh vực, bao gồm nhân văn, khoa học xã hội và các môn STEM, kiểm tra cả khả năng nhớ lại kiến thức rộng và hiểu biết.
  • Hiệu suất trên GPQA-diamond cũng rất đáng chú ý. Điểm chuẩn này tập trung vào kiến thức cấp chuyên gia và lý luận khoa học phức tạp, bao gồm các vấn đề cấp tiến sĩ chủ yếu trong vật lý, hóa học và sinh học. Hunyuan-T1 đạt được số điểm 69.3, cho thấy khả năng mạnh mẽ trong việc xử lý các câu hỏi khoa học chuyên sâu và phức tạp.

Xuất sắc trong Khoa học, Kỹ thuật và Căn chỉnh

Các đánh giá sâu hơn đã đi vào các lĩnh vực cụ thể đòi hỏi khả năng lý luận mạnh mẽ:

  • Lập trình: Trong đánh giá mã LiveCodeBench, kiểm tra khả năng giải quyết vấn đề lập trình thực tế, T1 đạt điểm 64.9, thể hiện logic lập trình vững chắc và kỹ năng tạo mã.
  • Toán học: Mô hình cho thấy sức mạnh vượt trội trong toán học. Hiệu suất của nó trên MATH-500, một bộ dữ liệu gồm các bài toán khó, mang lại số điểm xuất sắc là 96.2. Kết quả này đặt nó ngang hàng với DeepSeek R1, làm nổi bật khả năng sâu sắc của Hunyuan-T1 trong việc giải quyết các lý luận toán học phức tạp.
  • Căn chỉnh và Tuân thủ Hướng dẫn: Ngoài việc giải quyết vấn đề thuần túy, T1 thể hiện khả năng thích ứng mạnh mẽ trên các nhiệm vụ căn chỉnh khác nhau. Nó xuất sắc trong các tình huống tuân thủ hướng dẫn và thể hiện sự thành thạo trong việc sử dụng các công cụ khi được yêu cầu. Ví dụ, trong nhiệm vụ ArenaHard, được thiết kế để đánh giá hiệu suất trên các lời nhắc đầy thách thức do người dùng tạo ra, T1 đạt điểm cao 91.9.

Những kết quả này cùng nhau vẽ nên một bức tranh về một mô hình ngôn ngữ lớn có năng lực cao, linh hoạt và được căn chỉnh tốt. Việc tích hợp chiến lược kiến trúc Hybrid-Transformer-Mamba, kết hợp với chế độ hậu huấn luyện chuyên sâu, tập trung vào RL, đã đạt đến đỉnh cao là Hunyuan-T1 – một mô hình thể hiện năng lực lý luận đặc biệt, đặc biệt là trong các tình huống phức tạp, ngữ cảnh dài và các lĩnh vực khoa học và toán học đòi hỏi khắt khe.