Cách Mạng Hóa Sử Dụng Công Cụ LLM: RL của Nemotron-Tool-N1

Sự tích hợp của Mô hình Ngôn ngữ Lớn (LLM) với các công cụ bên ngoài đã nổi lên như một chiến lược chuyển đổi, mở ra những khả năng chưa từng có trên một loạt các ứng dụng. Tuy nhiên, các phương pháp truyền thống chủ yếu dựa vào việc tạo ra các bộ dữ liệu tổng hợp mở rộng về các kịch bản sử dụng công cụ, sau đó là Tinh chỉnh có Giám sát (SFT) để truyền cho LLM khả năng sử dụng hiệu quả các công cụ này. Một hạn chế cơ bản của phương pháp này là việc các bộ dữ liệu tổng hợp không thể biểu diễn chính xác các quy trình suy luận phức tạp liên quan đến việc sử dụng công cụ, dẫn đến việc học tập hời hợt và thiếu sự hiểu biết thực sự. Thông thường, các bước suy luận thiết yếu hoàn toàn không có trong quá trình đào tạo hoặc bị đẩy xuống suy luận thông qua các kỹ thuật nhắc nhở phức tạp. Điều này giới thiệu một hiện tượng “giả suy luận”, trong đó các mô hình, thay vì hiểu cơ chế ra quyết định cơ bản, chỉ đơn thuần bắt chước các mẫu cấp bề mặt.

Giải Quyết Các Hạn Chế Của Đào Tạo Sử Dụng Công Cụ Truyền Thống

Các nỗ lực nghiên cứu hiện tại nhằm nâng cao khả năng sử dụng công cụ của LLM đã khám phá một loạt các phương pháp tiếp cận, chủ yếu tập trung vào hai chiến lược chính: tuyển chọn tập dữ liệu và tinh chỉnh mô hình, và cải thiện khả năng suy luận.

Tuyển Chọn Tập Dữ Liệu và Tinh Chỉnh Mô Hình: Phương pháp này bao gồm việc tạo ra các tập dữ liệu lớn, có giám sát kết hợp với các kỹ thuật đào tạo nâng cao như SFT và học tăng cường DPO (Tối ưu hóa Ưu tiên Trực tiếp). LLM được tăng cường với một loạt các công cụ bên ngoài đa dạng, bao gồm công cụ tìm kiếm, máy tính, công cụ thị giác và trình thông dịch Python, để mở rộng đáng kể khả năng chức năng của chúng. Chiến lược này nhấn mạnh tầm quan trọng của việc cung cấp cho LLM vô số ví dụ và tinh chỉnh khả năng khái quát hóa của chúng từ những ví dụ này. Tuy nhiên, thách thức nằm ở những hạn chế của dữ liệu tổng hợp.

Cải Thiện Khả Năng Suy Luận: Nhận thấy những thiếu sót của việc chỉ dựa vào các tập dữ liệu quy mô lớn, các nhà nghiên cứu cũng đã tập trung vào các chiến lược để cải thiện khả năng suy luận của LLM. Điều này bao gồm việc chuyển từ việc mở rộng quy mô thời gian đào tạo truyền thống sang các chiến lược mở rộng quy mô thời gian thử nghiệm tinh vi hơn. Các phương pháp trước đây thường dựa vào sự giám sát cấp bước và các mô hình phần thưởng đã học để hướng dẫn các quỹ đạo suy luận. Các phương pháp này nhằm mục đích cho mô hình tiếp xúc với chính quá trình suy luận, thúc đẩy sự hiểu biết sâu sắc hơn về lý do đằng sau việc lựa chọn và sử dụng công cụ.

Nemotron-Tool-N1: Một Sự Thay Đổi Mô Hình Trong Sử Dụng Công Cụ LLM

Các nhà nghiên cứu tại NVIDIA, Đại học Bang Pennsylvania và Đại học Washington đã giới thiệu loạt Nemotron-Research-Tool-N1, một phương pháp tiếp cận sáng tạo được thiết kế để khắc phục những hạn chế của các phương pháp sử dụng công cụ hiện có. Không giống như các kỹ thuật chưng cất dấu vết suy luận và SFT truyền thống, Nemotron-Research-Tool-N1 sử dụng một mô hình học tăng cường (RL) độc đáo. Lấy cảm hứng từ thành công của DeepSeek-R1, phương pháp này sử dụng một phương pháp giám sát nhẹ tập trung vào việc đánh giá tính hợp lệ về cấu trúc và tính chính xác chức năng của các lệnh gọi công cụ. Mô hình Nemotron-Research-Tool-N1 tận dụng một cơ chế phần thưởng nhị phân cho phép mô hình tự phát triển các chiến lược suy luận mà không cần dựa vào các quỹ đạo suy luận được chú thích rõ ràng.

Phương pháp này đại diện cho một sự khác biệt đáng kể so với các phương pháp truyền thống, mang lại tiềm năng cho các khả năng sử dụng công cụ mạnh mẽ và khái quát hơn. Bằng cách tập trung vào tính chính xác của các lệnh gọi công cụ thay vì chỉ định rõ ràng các bước suy luận, mô hình được khuyến khích khám phá và học các chiến lược suy luận tối ưu của riêng mình.

Chuẩn Bị Dữ Liệu và Kiến Trúc Mô Hình

Các nhà nghiên cứu đã hợp nhất và tiền xử lý dữ liệu từ các tập dữ liệu gọi công cụ hiện có, bao gồm xLAM và một tập hợp con của ToolACE, cung cấp cả quỹ đạo gọi công cụ tổng hợp một lượt và nhiều lượt. Để hướng dẫn tạo cuộc gọi công cụ, một mẫu lời nhắc nhẹ đã được tạo, có các hướng dẫn rõ ràng để suy luận trung gian trong thẻ <think>…</think> và lệnh gọi công cụ được bao gồm trong thẻ <tool_call>…</tool_call>. Mẫu này được thiết kế để giảm thiểu các ràng buộc định dạng cứng nhắc và giảm nguy cơ trang bị quá mức cho các mẫu lời nhắc cụ thể.

Mô hình xương sống chính được sử dụng trong nghiên cứu này là Qwen2.5-7B/14B-Instruct. Để đánh giá khả năng khái quát hóa của phương pháp được đề xuất, các đánh giá cũng được thực hiện trên các mô hình xương sống thay thế, bao gồm nhiều biến thể từ họ LLaMA. Đánh giá nghiêm ngặt này trên các kiến trúc mô hình khác nhau đảm bảo tính mạnh mẽ và khả năng áp dụng của phương pháp Nemotron-Tool-N1.

Điểm Chuẩn Hiệu Suất: BFCL và API-Bank

Hiệu quả của Nemotron-Research-Tool-N1 đã được đánh giá nghiêm ngặt bằng cách sử dụng các điểm chuẩn BFCL và API-Bank. Kết quả chứng minh hiệu suất vượt trội của các mô hình Nemotron-Research-Tool-N1 so với các phương pháp hiện có.

Điểm Chuẩn BFCL: Trên điểm chuẩn BFCL, các mô hình Tool-N1-7B/14B đã thể hiện hiệu suất vượt trội so với các mô hình nguồn đóng như GPT-4o và các mô hình tinh chỉnh chuyên dụng như xLAM-2-70B và ToolACE-8B. Hơn nữa, các mô hình này hoạt động tốt hơn các đường cơ sở SFT được đào tạo trên các nguồn dữ liệu giống hệt nhau, nhấn mạnh tính hiệu quả của phương pháp RL kiểu R1 được sử dụng trong Nemotron-Research-Tool-N1. Điểm chuẩn này làm nổi bật khả năng thích ứng của mô hình trong các tình huống cần suy luận phức tạp và sử dụng công cụ. Điểm chuẩn BFCL (Big Five Command Lines) tập trung vào việc đánh giá khả năng của LLM trong việc hiểu và thực thi các hướng dẫn dòng lệnh phức tạp, đòi hỏi mức độ suy luận và sử dụng công cụ cao.

Điểm Chuẩn API-Bank: Điểm chuẩn API-Bank tiếp tục xác nhận những phát hiện này, với Tool-N1-7B/14B đạt được độ chính xác cao hơn 4,12% và 5,03% so với GPT-4o. Điểm chuẩn này đánh giá khả năng thành thạo của LLM trong việc sử dụng các API (Giao diện Lập trình Ứng dụng) khác nhau để thực hiện các tác vụ cụ thể. Những cải tiến đạt được bởi Nemotron-Research-Tool-N1 trên điểm chuẩn này nhấn mạnh tiềm năng của phương pháp này trong việc nâng cao khả năng gọi công cụ của các mô hình ngôn ngữ lớn thông qua một mô hình học tăng cường mới.

Những cải tiến nhất quán trên cả hai điểm chuẩn chứng minh tính hiệu quả của phương pháp Nemotron-Research-Tool-N1 trong việc nâng cao khả năng sử dụng công cụ của LLM. Bằng cách tập trung vào phương pháp RL dựa trên quy tắc và cho phép các mô hình phát triển các chiến lược suy luận của riêng mình, Nemotron-Research-Tool-N1 mở ra tiềm năng cho các mô hình ngôn ngữ thông minh và dễ thích ứng hơn.

Đổi Mới Chính Của Nemotron-Tool-N1

Đóng góp chính của Nemotron-Research-Tool-N1 đến từ phương pháp tiếp cận mới của nó để tăng cường sử dụng công cụ trong LLM. Thay vì dựa vào các phương pháp SFT tiêu chuẩn, nó tích hợp một khung RL dựa trên quy tắc độc đáo. Một nền tảng của kiến trúc của nó là một cơ chế phần thưởng nhị phân tập trung vào việc đánh giá tính hợp lệ về cấu trúc và tính chính xác chức năng của các lệnh gọi công cụ. Phương pháp này cho phép mô hình tự tạo ra các chiến lược suy luận mà không cần đến các quỹ đạo suy luận được chú thích cẩn thận trước.

Ưu điểm của Nemotron-Research-Tool-N1 là đa dạng. Dữ liệu đào tạo để sử dụng công cụ thường không bao gồm suy luận rõ ràng. Hệ thống phần thưởng nâng cao khả năng của các mô hình bằng cách độc lập tìm ra mối quan hệ giữa công cụ và vấn đề đang gặp phải. RLcũng giúp cải thiện khả năng khái quát hóa vì mô hình phải thích ứng với các hoàn cảnh khác nhau.

Nemotron-Research-Tool-N1 cung cấp một mẫu mạnh mẽ để tích hợp suy luận trong các thẻ đặc biệt (think và /think). Điều này cũng đúng đối với việc gọi các công cụ (tool_call và /tool_call). Bằng cách này, Nemotron-Research-Tool-N1 làm giảm rủi ro từ việc mô hình trang bị quá mức cho mẫu lời nhắc.

Khả năng gọi thành công các công cụ được đánh giá trên hai điểm chuẩn, làm nổi bật khả năng của Nemotron-Research-Tool-N1:

  • Big Five Command Lines (BFCL): BFCL nhấn mạnh sự cần thiết của LLM để hiểu và thực hiện các hướng dẫn dòng lệnh phức tạp. Nemotron-Research-Tool-N1 vượt trội trong lĩnh vực này thông qua các phương pháp học tăng cường của nó.
  • Điểm Chuẩn API-Bank: Điểm chuẩn API-Bank đã xác nhận những kết quả này. Mô hình có tỷ lệ chính xác cao hơn 4,12% và 5,03% so với GPT-4o.

Phân Tích So Sánh Với Các Phương Pháp Hiện Tại

Nemotron-Research-Tool-N1 cho thấy sự cải thiện đáng kể so với các phương pháp tinh chỉnh hiện có để sử dụng công cụ. Tinh chỉnh thường đòi hỏi một lượng lớn dữ liệu được tuyển chọn cẩn thận và thường dẫn đến việc mô hình bắt chước các mẫu hiện có. Là một phương pháp học tăng cường, Nemotron-Research-Tool-N1, mô hình có thể độc lập tạo ra các chiến lược suy luận và cũng giúp giảm sự phụ thuộc vào các tập dữ liệu cụ thể. Nemotron vượt trội hơn các điểm chuẩn hiện có mà không gặp phải những thách thức tương tự mà các phương pháp hiện có phải gánh chịu.

Một số điểm chuẩn chứng minh sự cải thiện này. Điểm chuẩn BFCL cho thấy trực tiếp rằng các mô hình tool-N1 cải thiện so với các phương pháp hiện có. Nó cải thiện trên cả các hệ thống mã nguồn mở như xLAM-2-70B và ToolACE-8B, và hoạt động tốt hơn các mô hình nguồn đóng như GPT-4o. Điểm chuẩn API-Bank xác thực những phát hiện này, đã được chứng minh là làm tăng đáng kể độ chính xác khi cải thiện việc gọi công cụ trên các mô hình ngôn ngữ hiện có.

Hàm Ý và Hướng Đi Tương Lai

Các nhà nghiên cứu đã giới thiệu Nemotron-Research-Tool-N1, một bước đột phá lớn trong các công cụ LLM. Nghiên cứu cho thấy một sự thay đổi khỏi các phương pháp SFT truyền thống bằng cách áp dụng một phương pháp RL dựa trên quy tắc tiên tiến. Phương pháp được đề xuất cho phép các mô hình xây dựng các chiến thuật suy luận tinh tế, đồng thời không phụ thuộc cụ thể vào các quỹ đạo suy luận được chú thích. Các khả năng của phương pháp này được thể hiện thông qua các đánh giá điểm chuẩn hiệu quả của nó trên BFCL và API-Bank. Ngoài ra, nó còn hiển thị các cải tiến hiệu suất có thể đo lường được so với các đường cơ sở hiện tại. Điều này mở ra cơ hội cho các mô hình ngôn ngữ dễ thích ứng và thông minh hơn, tự tạo ra các chiến lược suy luận.

Những phát hiện này mở ra những con đường mới để phát triển các mô hình ngôn ngữ dễ thích ứng và thông minh hơn. Việc sử dụng các cơ chế phần thưởng nhị phân sẽ cung cấp cho các mô hình ngôn ngữ khả năng thực hiện và hiệu quả hơn trong nhiều ứng dụng thực tế. Nemotron-Research-Tool-N1 sẽ dẫn đến suy luận tự động hơn, điều này sẽ cải thiện khả năng sử dụng công cụ của các mô hình ngôn ngữ.

Nghiên cứu giới thiệu một mô hình mới trong các công cụ LLM. Nó cũng làm nổi bật các hướng đi mới về cách tạo ra các mô hình ngôn ngữ trong tương lai. Việc tập trung vào tự động hóa trong suy luận sẽ rất quan trọng trong việc có các mô hình ngôn ngữ thông minh hơn trong tương lai.