LLM 도구 사용 혁신: Nemotron-Tool-N1의 강화 학습 접근 방식
대규모 언어 모델(LLM)과 외부 도구의 통합은 다양한 애플리케이션에서 전례 없는 기능을 제공하는 혁신적인 전략으로 부상했습니다. 그러나 기존 방법론은 주로 도구 사용 시나리오의 광범위한 합성 데이터 세트를 생성한 다음 지도 학습 미세 조정(SFT)을 통해 LLM이 이러한 도구를 효과적으로 활용할 수 있도록 하는 데 의존합니다. 이러한 접근 방식의 근본적인 한계는 합성 데이터 세트가 도구 사용과 관련된 복잡한 추론 프로세스를 정확하게 나타낼 수 없다는 점으로, 피상적인 학습과 진정한 이해 부족을 초래합니다. 종종 필수적인 추론 단계가 훈련 중에 완전히 누락되거나 정교한 프롬프트 기술을 통해 추론으로 격하됩니다. 이는 모델이 기본 의사 결정 메커니즘을 이해하는 대신 표면 수준 패턴을 모방하는 “의사 추론” 현상을 야기합니다.
기존 도구 사용 훈련의 한계 해결
LLM의 도구 사용 기능을 향상시키기 위한 기존 연구 노력은 주로 데이터 세트 큐레이션 및 모델 개선, 추론 개선이라는 두 가지 주요 전략에 초점을 맞춰 다양한 접근 방식을 탐구했습니다.
데이터 세트 큐레이션 및 모델 개선: 이 접근 방식은 대규모 지도 데이터 세트 생성과 SFT 및 DPO(직접 선호도 최적화) 강화 학습과 같은 고급 훈련 기술을 결합하는 것을 포함합니다. LLM은 검색 엔진, 계산기, 비전 도구 및 Python 인터프리터를 포함한 다양한 외부 도구로 보강되어 기능적 기능을 크게 확장합니다. 이 전략은 LLM에 풍부한 예제를 제공하고 이러한 예제로부터 일반화하는 능력을 개선하는 중요성을 강조합니다. 그러나 문제는 합성 데이터의 한계에 있습니다.
추론 개선: 대규모 데이터 세트에만 의존하는 것의 단점을 인식한 연구자들은 LLM의 추론 능력을 향상시키기 위한 전략에 초점을 맞추었습니다. 이는 기존의 훈련 시간 스케일링에서보다 정교한 테스트 시간 스케일링 전략으로 전환하는 것을 포함합니다. 초기 방법은 종종 단계별 감독 및 학습된 보상 모델에 의존하여 추론 궤적을 안내했습니다. 이러한 방법은 모델이 도구 선택 및 사용 배후의 근거에 대한 더 깊은 이해를 촉진하여 추론 프로세스 자체에 노출시키는 것을 목표로 합니다.
Nemotron-Tool-N1: LLM 도구 사용의 패러다임 전환
NVIDIA, Pennsylvania State University 및 University of Washington의 연구원들은 기존 도구 사용 방법의 한계를 극복하도록 설계된 혁신적인 접근 방식인 Nemotron-Research-Tool-N1 시리즈를 도입했습니다. 기존 SFT 및 추론 추적 증류 기술과 달리 Nemotron-Research-Tool-N1은 고유한 강화 학습(RL) 패러다임을 사용합니다. DeepSeek-R1의 성공에서 영감을 얻은 이 접근 방식은 도구 호출의 구조적 유효성과 기능적 정확성을 평가하는 데 중점을 둔 경량 감독 방법을 사용합니다. Nemotron-Research-Tool-N1 모델은 명시적으로 주석 처리된 추론 궤적에 의존하지 않고도 모델이 자율적으로 추론 전략을 개발할 수 있도록 하는 이진 보상 메커니즘을 활용합니다.
이 접근 방식은 기존 방법론에서 크게 벗어난 것으로, 보다 강력하고 일반화 가능한 도구 사용 기능을 제공할 수 있습니다. 명시적으로 추론 단계를 지시하는 대신 도구 호출의 정확성에 초점을 맞춤으로써 모델은 자체적으로 최적의 추론 전략을 탐색하고 학습하도록 장려됩니다.
데이터 준비 및 모델 아키텍처
연구원들은 단일 턴 및 다중 턴 합성 도구 호출 궤적을 모두 제공하는 xLAM 및 ToolACE의 하위 세트를 포함하여 기존 도구 호출データセット에서 데이터를 통합하고 사전 처리했습니다. 도구 호출 생성을 안내하기 위해 <think>…</think>
태그 내에 중간 추론에 대한 명시적 지침과 <tool_call>…</tool_call>
태그로 묶인 도구 호출을 특징으로 하는 경량 프롬프트 템플릿이 생성되었습니다. 이 템플릿은 엄격한 형식 제약 조건을 최소화하고 특정 프롬프트 패턴에 과적합될 위험을 줄이도록 설계되었습니다.
이 연구에서 사용된 주요 백본 모델은 Qwen2.5-7B/14B-Instruct입니다. 제안된方法의 일반화 능력을 평가하기 위해 LLaMA 제품군의 여러 변형을 포함하여 대체 백본 모델에 대한 평가도 수행되었습니다. 서로 다른 모델 아키텍처에 걸친 이러한 엄격한 평가는 Nemotron-Tool-N1 접근 방식의 견고성과 적용 가능성을 보장합니다.
벤치마킹 성능: BFCL 및 API-Bank
Nemotron-Research-Tool-N1의 효능은 BFCL 및 API-Bank 벤치마크를 사용하여 엄격하게 평가되었습니다. 결과는 기존 접근 방식에 비해 Nemotron-Research-Tool-N1 모델의 우수한 성능을 입증합니다.
BFCL 벤치마크: BFCL 벤치마크에서 Tool-N1-7B/14B 모델은 GPT-4o와 같은 폐쇄 소스 모델과 xLAM-2-70B 및 ToolACE-8B와 같은 특수 미세 조정 모델보다 뛰어난 성능을 보였습니다. 또한 모델은 동일한 데이터 소스에 대해 훈련된 SFT 기준선보다 우수한 성능을 보여 Nemotron-Research-Tool-N1에 사용된 R1 스타일 RL 접근 방식의 효율성을 강조했습니다. 이 벤치마크는 복잡한 추론과 도구 사용이 필요한 시나리오에 적응하는 모델의 적성을 강조합니다. BFCL(Big Five Command Lines) 벤치마크는 LLM이 복잡한 명령줄 지침을 이해하고 실행하는 능력을 평가하는 데 중점을 두고 있으며, 이는 높은 수준의 추론과 도구 활용을 요구합니다.
API-Bank 벤치마크: API-Bank 벤치마크는 Tool-N1-7B/14B가 GPT-4o보다 4.12% 및 5.03% 더 높은 정확도를 달성하면서 이러한 결과를 더욱 검증했습니다. 이 벤치마크는 특정 작업을 수행하기 위해 다양한 API(Application Programming Interface)를 사용하는 LLM의 숙련도를 평가합니다. 이 벤치마크에서 Nemotron-Research-Tool-N1이 달성한 개선 사항은 새로운 강화 학습 패러다임을 통해 대규모 언어 모델의 도구 호출 기능을 향상시키는 방법의 잠재력을 강조합니다.
두 벤치마크에 걸친 일관된 개선 사항은 LLM의 도구 사용 기능을 향상시키는 Nemotron-Research-Tool-N1 접근 방식의 효율성을 입증합니다. 규칙 기반 RL 접근 방식에 초점을 맞추고 모델이 자체 추론 전략을 개발할 수 있도록 함으로써 Nemotron-Research-Tool-N1은 보다 적응 가능하고 지능적인 언어 모델의 잠재력을 열어줍니다.
Nemotron-Tool-N1의 주요 혁신
Nemotron-Research-Tool-N1의 주요 기여는 LLM에서 도구 사용을 향상시키는 새로운 접근 방식에서 비롯됩니다. 표준 SFT 방법에 의존하기보다는 고유한 규칙 기반 RL 프레임워크를 통합합니다. 아키텍처의 초석은 도구 호출의 구조적 유효성과 기능적 정확성을 평가하는 데 중점을 둔 이진 보상 메커니즘입니다. 이 접근 방식을 통해 모델은 사전에 신중하게 주석 처리된 추론 궤적 없이도 독립적으로 추론 전략을 만들 수 있습니다.
Nemotron-Research-Tool-N1의 장점은 다양합니다. 도구 사용을 위한 훈련 데이터에는 일반적으로 명시적인 추론이 포함되지 않습니다. 보상 시스템은 도구와 당면한 문제 간의 관계를 독립적으로 찾아 모델의 기능을 향상시킵니다. RL은 모델이 다양한 상황에 적응해야 하므로 일반화 가능성을 개선하는 데도 도움이 됩니다.
Nemotron-Research-Tool-N1은 특수 태그(think 및 /think) 내에서 추론을 통합하는 강력한 템플릿을 제공합니다. 이는 도구를 호출하는 경우(tool_call 및 /tool_call)에도 마찬가지입니다. 이렇게 함으로써 Nemotron-Research-Tool-N1은 모델이 프롬프트의 패턴에 과적합될 위험을 줄입니다.
도구를 성공적으로 호출하는 능력은 Nemotron-Research-Tool-N1의 기능을 강조하는 두 가지 벤치마크에서 평가됩니다.
- Big Five Command Lines (BFCL): BFCL은 LLM이 복잡한 명령줄 지침을 이해하고 구현해야 할 필요성을 강조합니다. Nemotron-Research-Tool-N1은 강화 학습 방법을 통해 이 영역에서 탁월합니다.
- API-Bank 벤치마크: API-Bank 벤치마크는 이러한 결과를 확인했습니다. 모델은 GPT-4o보다 4.12% 및 5.03% 더 높은 정확도를 보였습니다.
기존 접근 방식과의 비교 분석
Nemotron-Research-Tool-N1은 도구 사용을 위한 기존 미세 조정 방법보다 상당한 개선을 보여줍니다. 미세 조정은 종종 신중하게 큐레이션된 대량의 데이터가 필요하며 모델이 기존 패턴을 모방하는 경우가 많습니다. 강화 학습 방법인 Nemotron-Research-Tool-N1으로서 모델은 독립적으로 추론 전략을 생성할 수 있으며 특정 데이터 세트에 대한 의존도를 줄이는 데도 도움이 됩니다. Nemotron은 기존 방법이 겪는 동일한 어려움 없이 기존 벤치마크보다 뛰어난 성능을 보입니다.
몇 가지 벤치마크가 이러한 개선을 입증합니다. BFCL 벤치마크는 tool-N1 모델이 기존 접근 방식을 개선한다는 것을 직접적으로 보여줍니다. xLAM-2-70B 및 ToolACE-8B와 같은 오픈 소스 시스템을 개선하고 GPT-4o와 같은 폐쇄 소스 모델보다 뛰어난 성능을 보입니다. API-Bank 벤치마크는 기존 언어 모델에 대한 도구 호출을 개선할 때 정확도가 크게 증가하는 것으로 나타난 이러한 결과를 검증합니다.
시사점 및 향후 방향
연구원들은 LLM 도구의 주요 혁신인 Nemotron-Research-Tool-N1을 소개했습니다. 이 연구는 최첨단 규칙 기반 RL 방법을 적용하여 기존 SFT 방법론에서 벗어나는 변화를 보여줍니다. 제안된 방법은 모델이 명시적으로 주석 처리된 추론 궤적에 특별히 의존하지 않고도 미묘한 추론 전략을 공식화할 수 있도록 합니다. 이 방법론의 기능은 BFCL 및 API-Bank에서 효과적인 벤치마킹 평가를 통해 입증됩니다. 또한 현재 기준선에 비해 측정 가능한 성능 향상을 보여줍니다. 이는 자체적으로 추론 전략을 생성하는 보다 적응 가능하고 지능적인 언어 모델에 대한 기회를 열어줍니다.
이러한 결과는 보다 적응 가능하고 지능적인 언어 모델을 개발할 수 있는 새로운 길을 열어줍니다. 이진 보상 메커니즘을 사용하면 언어 모델이 여러 실제 애플리케이션에서 수행하고 더 효과적일 수 있습니다. Nemotron-Research-Tool-N1은 언어 모델의 도구 사용 기능을 향상시키는 더 자동화된 추론으로 이어질 것입니다.
이 연구는 LLM 도구의 새로운 패러다임을 보여줍니다. 또한 향후 언어 모델이 만들어지는 방향을 강조합니다. 추론 자동화에 대한 집중은 향후 더 지능적인 언어 모델을 갖는 데 매우 중요할 것입니다.