QwenLong-L1: Cách mạng hóa suy luận dài cho LLM

Thách thức Suy luận Dạng dài trong AI

Những tiến bộ gần đây trong các mô hình suy luận lớn (LRM), đặc biệt là những mô hình tận dụng các kỹ thuật học tăng cường (RL), đã dẫn đến những cải tiến đáng kể trong khả năng giải quyết vấn đề của chúng. Nghiên cứu chỉ ra rằng các LRM được đào tạo bằng tinh chỉnh RL thể hiện các kỹ năng nhận thức tương tự như “tư duy chậm” của con người, cho phép chúng phát triển các chiến lược phức tạp để giải quyết các nhiệm vụ phức tạp. Điều này liên quan đến một cách tiếp cận phân tích và có chủ ý, trong đó mô hình đánh giá tỉ mỉ thông tin, xem xét các khả năng khác nhau và cuối cùng đưa ra một giải pháp có lý.

Tiến độ đạt được trong hiệu suất LRM chủ yếu được quan sát thấy khi các mô hình hoạt động trên các văn bản tương đối ngắn, thường là khoảng 4.000 mã thông báo. Tuy nhiên, bài kiểm tra thực sự nằm ở việc mở rộng quy mô các khả năng suy luận này sang các ngữ cảnh dài hơn nhiều, chẳng hạn như 120.000 mã thông báo trở lên. Điều này đặt ra một thách thức đáng gờm, vì suy luận dạng dài đòi hỏi sự hiểu biết toàn diện về toàn bộ ngữ cảnh và khả năng thực hiện phân tích nhiều bước. Các nhà phát triển QwenLong-L1 nhấn mạnh rằng hạn chế này gây ra một trở ngại nghiêm trọng cho các ứng dụng trong thế giới thực đòi hỏi sự tương tác với kiến thức bên ngoài, chẳng hạn như nghiên cứu chuyên sâu, trong đó LRM phải thu thập và xử lý thông tin từ các môi trường thâm dụng kiến thức.

Để giải quyết thách thức này, các nhà nghiên cứu chính thức hóa nó thành khái niệm “RL suy luận ngữ cảnh dài”. Không giống như suy luận ngữ cảnh ngắn, thường dựa vào kiến thức có sẵn được lưu trữ trong mô hình, RL suy luận ngữ cảnh dài đòi hỏi phải truy xuất và đặt nền tảng chính xác thông tin liên quan từ các đầu vào dài dòng. Điều này có nghĩa là mô hình phải có khả năng sàng lọc lượng lớn văn bản, xác định các chi tiết phù hợp nhất và kết nối chúng với nhiệm vụ trước mắt. Chỉ sau khi kết hợp thành công thông tin này, mô hình mới có thể tạo ra các chuỗi suy luận mạch lạc và logic.

Việc đào tạo các mô hình để đạt được mức độ thành thạo này thông qua RL là một công việc phức tạp, thường dẫn đến quá trình học tập không hiệu quả và các quy trình tối ưu hóa không ổn định. Các mô hình có thể gặp khó khăn trong việc hội tụ các giải pháp tối ưu hoặc mất khả năng khám phá các đường dẫn suy luận đa dạng, cản trở hiệu suất tổng thể của chúng.

QwenLong-L1: Một Giải pháp Đa giai đoạn

QwenLong-L1 cung cấp một cách tiếp cận đa giai đoạn toàn diện được thiết kế để trang bị cho LRM khả năng chuyển đổi liền mạch từ sự thành thạo văn bản ngắn sang khái quát hóa mạnh mẽ trên các ngữ cảnh dài. Khuôn khổ này tăng cường các LRM ngữ cảnh ngắn hiện có thông qua một quy trình được cấu trúc cẩn thận, kết hợp một số yếu tố chính:

  • Tinh chỉnh Giám sát Khởi động (SFT): Giai đoạn ban đầu này liên quan đến việc đào tạo mô hình trên một tập dữ liệu được tuyển chọn gồm các ví dụ suy luận ngữ cảnh dài. Mục đích của SFT là thiết lập một nền tảng vững chắc để mô hình có thể xây dựng các kỹ năng suy luận ngữ cảnh dài của mình. Bằng cách cho mô hình tiếp xúc với một loạt các văn bản dài và các nhiệm vụ suy luận tương ứng, giai đoạn SFT cho phép mô hình đặt nền tảng chính xác thông tin từ các đầu vào dài dòng, phát triển các khả năng cơ bản trong việc hiểu ngữ cảnh, tạo ra các chuỗi suy luận logic và trích xuất các câu trả lời có ý nghĩa.

  • RL theo giai đoạn có hướng dẫn theo chương trình giảng dạy: Giai đoạn này sử dụng một cách tiếp cận có hệ thống, từng bước để đào tạo mô hìnhthông qua nhiều giai đoạn, tăng dần độ dài của các tài liệu đầu vào. Cách tiếp cận có hướng dẫn theo chương trình giảng dạy này giúp mô hình liên tục điều chỉnh các chiến lược suy luận của mình từ ngữ cảnh ngắn hơn sang ngữ cảnh dài hơn, giảm thiểu sự không ổn định thường gặp khi các mô hình được đào tạo đột ngột trên các văn bản rất dài. Bằng cách tăng dần độ phức tạp của dữ liệu đào tạo, mô hình có thể học hiệu quả cách xử lý các ngữ cảnh dài hơn mà không bị choáng ngợp bởi khối lượng thông tin khổng lồ.

  • Lấy mẫu hồi cứu nhận biết độ khó: Giai đoạn đào tạo cuối cùng này kết hợp các ví dụ đầy thách thức từ các giai đoạn đào tạo trước đó, đảm bảo rằng mô hình tiếp tục học hỏi từ các vấn đề khó khăn nhất. Bằng cách ưu tiên các trường hợp khó khăn này, mô hình được khuyến khích khám phá các đường dẫn suy luận đa dạng và phức tạp hơn, cuối cùng củng cố khả năng của nó để xử lý một loạt các nhiệm vụ suy luận ngữ cảnh dài. Kỹ thuật lấy mẫu hồi cứu này giúp mô hình tinh chỉnh các kỹ năng suy luận của mình và tránh bị mắc kẹt trong các điểm tối ưu cục bộ.

Hệ thống Phần thưởng

Ngoài phương pháp đào tạo có cấu trúc, QwenLong-L1 sử dụng một hệ thống phần thưởng phức tạp kết hợp xác minh dựa trên quy tắc với phương pháp “LLM-as-a-judge”. Mặc dù việc đào tạo cho các nhiệm vụ suy luận ngữ cảnh ngắn thường dựa vào phần thưởng dựa trên quy tắc nghiêm ngặt (ví dụ: câu trả lời đúng trong một bài toán), QwenLong-L1 sử dụng một cơ chế phần thưởng kết hợp linh hoạt và dễ điều chỉnh hơn theo các sắc thái của suy luận ngữ cảnh dài.

Xác minh dựa trên quy tắc đảm bảo độ chính xác bằng cách kiểm tra sự tuân thủ nghiêm ngặt các tiêu chí chính xác. Thành phần này của hệ thống phần thưởng cung cấp một thước đo rõ ràng và khách quan về hiệu suất của mô hình, đảm bảo rằng nó đang tạo ra các câu trả lời chính xác và đáng tin cậy.

Mô hình “LLM-as-a-judge” so sánh tính ngữ nghĩa của câu trả lời được tạo với sự thật cơ bản, cho phép linh hoạt hơn và xử lý tốt hơn các cách đa dạng mà các câu trả lời đúng có thể được diễn đạt khi xử lý các tài liệu dài, sắc thái. Thành phần này của hệ thống phần thưởng thừa nhận rằng có thể có nhiều cách hợp lệ để trả lời một câu hỏi dựa trên một ngữ cảnh dài và thưởng cho mô hình vì đã tạo ra các câu trả lời tương tự về mặt ngữ nghĩa với sự thật cơ bản, ngay cả khi chúng không giống hệt nhau. Điều này khuyến khích mô hình tạo ra các phản hồi sáng tạo và sắc thái hơn.

Đánh giá Hiệu suất của QwenLong-L1

Để đánh giá hiệu quả của QwenLong-L1, nhóm Alibaba đã tiến hành các đánh giá kỹ lưỡng bằng cách sử dụng câu hỏi-trả lời tài liệu (DocQA) làm nhiệm vụ chính. Kịch bản này đặc biệt phù hợp với các ứng dụng doanh nghiệp, trong đó AI thường được yêu cầu hiểu các tài liệu dày đặc để trả lời các câu hỏi phức tạp. Nhiệm vụ DocQA liên quan đến việc cung cấp cho mô hình một tài liệu và một câu hỏi và yêu cầu nó xác định câu trả lời cho câu hỏi đó trong tài liệu. Điều này đòi hỏi mô hình phải hiểu câu hỏi, tài liệu và mối quan hệ giữa cả hai.

Kết quả thử nghiệm trên bảy điểm chuẩn DocQA ngữ cảnh dài đã chứng minh khả năng ấn tượng của QwenLong-L1. Mô hình QWENLONG-L1-32B, dựa trên DeepSeek-R1-Distill-Qwen-32B, đạt được hiệu suất tương đương với Claude-3.7 Sonnet Thinking của Anthropic và vượt trội hơn các mô hình như o3-mini của OpenAI và Qwen3-235B-A22B. Hơn nữa, mô hình QWENLONG-L1-14B nhỏ hơn đã vượt trội hơn Gemini 2.0 Flash Thinking của Google và Qwen3-32B. Những kết quả này làm nổi bật hiệu quả của QwenLong-L1 trong việc cho phép LLM suy luận hiệu quả trên các tài liệu dài và phức tạp.

Một phát hiện quan trọng liên quan đến các ứng dụng trong thế giới thực là đào tạo RL dẫn đến sự phát triển của các hành vi suy luận ngữ cảnh dài chuyên biệt trong mô hình. Các mô hình được đào tạo với QwenLong-L1 thể hiện khả năng được cải thiện trong các lĩnh vực như:

  • Đặt nền tảng: Liên kết các câu trả lời với các phần cụ thể của tài liệu. Điều này chứng minh khả năng của mô hình trong việc xác định thông tin phù hợp nhất trong một văn bản dài và kết nối nó với câu hỏi đang được hỏi. Nền tảng hiệu quả là rất quan trọng để đảm bảo rằng các câu trả lời của mô hình là chính xác và được hỗ trợ tốt bởi bằng chứng trong tài liệu.

  • Đặt mục tiêu phụ: Chia nhỏ các câu hỏi phức tạp thành các câu hỏi phụ nhỏ hơn, dễ quản lý hơn. Điều này cho phép mô hình tiếp cận các nhiệm vụ suy luận phức tạp một cách có cấu trúc và có tổ chức hơn. Bằng cách chia nhỏ nhiệm vụ thành các bước nhỏ hơn, mô hình có thể dễ dàng xác định thông tin cần thiết để trả lời câu hỏi và tạo ra một chuỗi suy luận mạch lạc và logic.

  • Quay lui: Nhận biết và sửa chữa các lỗi tự tạo trong quá trình suy luận. Điều này chứng minh khả năng tự theo dõi và xác định các lỗi tiềm ẩn trong quá trình suy luận của mô hình. Bằng cách quay lui và sửa chữa những lỗi này, mô hình có thể đảm bảo rằng câu trả lời cuối cùng của nó là chính xác và đáng tin cậy.

  • Xác minh: Kiểm tra lại các câu trả lời của họ để đảm bảo tính chính xác và đầy đủ. Điều này chứng minh cam kết của mô hình trong việc cung cấp thông tin chính xác và đáng tin cậy. Bằng cách kiểm tra lại các câu trả lời của mình, mô hình có thể xác định và sửa chữa bất kỳ lỗi nào còn lại, đảm bảo rằng câu trả lời cuối cùng có chất lượng cao nhất.

Ví dụ, một mô hình cơ sở có thể bị lạc hướng bởi các chi tiết không liên quan trong một tài liệu tài chính hoặc bị mắc kẹt trong một vòng lặp phân tích quá mức thông tin không liên quan. Tuy nhiên, mô hình được đào tạo QwenLong-L1 thể hiện khả năng tham gia vào quá trình tự phản ánh hiệu quả, lọc thành công các chi tiết gây xao nhãng này, quay lui từ các đường dẫn không chính xác và đưa ra câu trả lời đúng. Điều này làm nổi bật những lợi ích của khuôn khổ đào tạo QwenLong-L1 trong việc cải thiện tính mạnh mẽ và chính xác của suy luận ngữ cảnh dài.

Các Ứng dụng Tiềm năng

Các kỹ thuật như QwenLong-L1 có tiềm năng mở rộng đáng kể tiện ích của AI trong doanh nghiệp. Một số ứng dụng tiềm năng bao gồm:

  • Công nghệ Pháp lý: Phân tích hàng nghìn trang tài liệu pháp lý để xác định các điều khoản, tiền lệ và rủi ro tiềm ẩn quan trọng. Điều này có thể giúp các luật sư xem xét các tài liệu pháp lý hiệu quả hơn và tiết kiệm thời gian và tiền bạc cho họ.
  • Tài chính: Tiến hành nghiên cứu chuyên sâu về các báo cáo thường niên và hồ sơ tài chính để đánh giá rủi ro và xác định cơ hội đầu tư. Điều này có thể giúp các nhà phân tích tài chính đưa ra các quyết định đầu tư sáng suốt hơn.
  • Dịch vụ Khách hàng: Phân tích lịch sử tương tác khách hàng dài để cung cấp hỗ trợ được thông báo và cá nhân hóa hơn. Điều này có thể giúp các đại diện dịch vụ khách hàng hiểu rõ hơn về nhu cầu của khách hàng và cung cấp các giải pháp hiệu quả hơn.

Bằng cách cho phép AI suy luận hiệu quả trên các tài liệu dài và phức tạp, QwenLong-L1 và các kỹ thuật tương tự có thể mở ra một loạt các khả năng mới cho các ứng dụng doanh nghiệp, thúc đẩy sự đổi mới và cải thiện hiệu quả trong nhiều ngành công nghiệp. Các nhà nghiên cứu đã phát hành mã cho công thức QwenLong-L1 và trọng số cho các mô hình được đào tạo.