Революция в использовании инструментов LLM: Nemotron-Tool-N1

Революционный подход к использованию инструментов LLM: Nemotron-Tool-N1 и обучение с подкреплением

Интеграция больших языковых моделей (LLM) с внешними инструментами стала преобразующей стратегией, открывающей беспрецедентные возможности в широком спектре приложений. Однако традиционные методологии в основном опираются на создание обширных синтетических наборов данных сценариев использования инструментов с последующей тонкой настройкой под наблюдением (SFT), чтобы наделить LLM способностью эффективно использовать эти инструменты. Фундаментальным ограничением этого подхода является невозможность для синтетических наборов данных точно представить сложные процессы рассуждений, участвующие в использовании инструментов, что приводит к поверхностному обучению и отсутствию истинного понимания. Часто важные этапы рассуждения либо полностью отсутствуют во время обучения, либо перекладываются на логический вывод с помощью сложных методов подсказок. Это вводит феномен "псевдо-рассуждения", когда модели, вместо понимания лежащих в основе механизмов принятия решений, просто имитируют паттерны поверхностного уровня.

Решение ограничений традиционного обучения использованию инструментов

Существующие исследовательские усилия по расширению возможностей использования инструментов LLM исследовали множество подходов, в основном сосредоточенных на двух ключевых стратегиях: курирование наборов данных и уточнение моделей, а также улучшение рассуждений.

Курирование наборов данных и уточнение моделей: этот подход включает создание крупномасштабных наборов данных, контролируемых в сочетании с передовыми методами обучения, такими как SFT и оптимизация прямых предпочтений (DPO). LLM дополняются разнообразным набором внешних инструментов, включая поисковые системы, калькуляторы, инструменты визуализации и интерпретаторы Python, чтобы значительно расширить их функциональные возможности. Эта стратегия подчеркивает важность предоставления LLM большого количества примеров и уточнения их способности обобщать эти примеры. Однако проблема заключается в ограничениях синтетических данных.

Улучшение рассуждений: признавая недостатки, связанные с опорой исключительно на крупномасштабные наборы данных, исследователи также сосредоточились на стратегиях улучшения возможностей рассуждения LLM. Это включает в себя переход от традиционного масштабирования во время обучения к более сложным стратегиям масштабирования во время тестирования. Более ранние методы часто полагались на пошаговое наблюдение и изученные модели вознаграждения для управления траекториями рассуждений. Эти методы направлены на то, чтобы познакомить модель с самим процессом рассуждения, что способствует более глубокому пониманию обоснования выбора и использования инструментов.

Nemotron-Tool-N1: Смена парадигмы в использовании инструментов LLM

Исследователи из NVIDIA, Университета штата Пенсильвания и Вашингтонского университета представили серию Nemotron-Research-Tool-N1, инновационный подход, разработанный для преодоления ограничений существующих методов использования инструментов. В отличие от традиционных методов дистилляции SFT и трассировки рассуждений, Nemotron-Research-Tool-N1 использует уникальную парадигму обучения с подкреплением (RL). Вдохновленный успехом DeepSeek-R1, этот подход использует облегченный метод наблюдения, который фокусируется на оценке структурной валидности и функциональной корректности вызовов инструментов. Модель Nemotron-Research-Tool-N1 использует механизм бинарного вознаграждения, который позволяет модели автономно разрабатывать стратегии рассуждений, не полагаясь на явно аннотированные траектории рассуждений.

Этот подход представляет собой значительный отход от традиционных методологий, предлагая потенциал для более надежных и обобщаемых возможностей использования инструментов. Сосредоточившись на правильности вызовов инструментов, а не на явном диктовке этапов рассуждения, модель поощряется к самостоятельному исследованию и изучению оптимальных стратегий рассуждения.

Подготовка данных и архитектура модели

Исследователи объединили и предварительно обработали данные из существующих наборов данных для вызова инструментов, включая xLAM и подмножество ToolACE, которые предоставляют как однооборотные, так и многооборотные синтетические траектории вызова инструментов. Чтобы направить создание вызова инструментов, был создан облегченный шаблон подсказки, содержащий явные инструкции по промежуточному рассуждению в тегах <think>…</think> и вызов инструмента, заключенный в теги <tool_call>…</tool_call>. Этот шаблон разработан для минимизации жестких ограничений форматирования и снижения риска переобучения конкретным шаблонам подсказок.

Основной базовой моделью, используемой в этом исследовании, является Qwen2.5-7B/14B-Instruct. Для оценки способности к обобщению предлагаемого метода оценки также проводились на альтернативных базовых моделях, включая несколько вариантов из семейства LLaMA. Эта строгая оценка для разных архитектур моделей обеспечивает надежность и применимость подхода Nemotron-Tool-N1.

Эталонная оценка производительности: BFCL и API-Bank

Эффективность Nemotron-Research-Tool-N1 была тщательно оценена с использованием эталонных тестов BFCL и API-Bank. Результаты демонстрируют превосходную производительность моделей Nemotron-Research-Tool-N1 по сравнению с существующими подходами.

Эталонный тест BFCL: в эталонном тесте BFCL модели Tool-N1-7B/14B показали производительность, превосходящую производительность моделей с закрытым исходным кодом, таких как GPT-4o, и специализированных моделей с тонкой настройкой, таких как xLAM-2-70B и ToolACE-8B. Кроме того, модели превзошли базовые показатели SFT, обученные на идентичных источниках данных, что подчеркивает эффективность подхода RL в стиле R1, используемого в Nemotron-Research-Tool-N1. Этот эталонный тест подчеркивает способность модели адаптироваться в сценариях, требующих сложных рассуждений и использования инструментов. Эталонный тест BFCL (Big Five Command Lines) фокусируется на оценке способности LLM понимать и выполнять сложные инструкции командной строки, требующие высокой степени рассуждений и использования инструментов.

Эталонный тест API-Bank: Эталонный тест API-Bank дополнительно подтвердил эти результаты: Tool-N1-7B/14B показал точность на 4,12% и 5,03% выше, чем GPT-4o. Этот эталонный тест оценивает proficiency LLM в использовании различных API (интерфейсов прикладного программирования) для выполнения определенных задач. Улучшения, достигнутые Nemotron-Research-Tool-N1 в этом эталонном тесте, подчеркивают потенциал метода для повышения возможностей вызова инструментов больших языковых моделей с помощью новой парадигмы обучения с подкреплением.

Последовательные улучшения в обоих эталонных тестах демонстрируют эффективность подхода Nemotron-Research-Tool-N1 в расширении возможностей использования инструментов LLM. Сосредоточившись на подходе RL, основанном на правилах, и позволяя моделям разрабатывать свои собственные стратегии рассуждений, Nemotron-Research-Tool-N1 раскрывает потенциал для более адаптируемых и интеллектуальных языковых моделей.

Ключевые нововведения Nemotron-Tool-N1

Основной вклад Nemotron-Research-Tool-N1 заключается в его новом подходе к расширению использования инструментов в LLM. Вместо того чтобы полагаться на стандартные методы SFT, он интегрирует уникальную основу RL, основанную на правилах. Краеугольным камнем его архитектуры является механизм двоичного вознаграждения, ориентированный на оценку структурной валидности и функциональной корректности вызовов инструментов. Этот подход позволяет модели самостоятельно создавать стратегии рассуждений без необходимости в траекториях рассуждений, которые тщательно аннотируются заранее.

Преимущества Nemotron-Research-Tool-N1 многогранны. Данные обучения для использования инструментов обычно не включают явные рассуждения. Система вознаграждений расширяет возможности моделей, самостоятельно находяRelation между инструментом и проблемой. RL также помогает улучшить обобщаемость, поскольку модель должна адаптироваться к различным обстоятельствам.

Nemotron-Research-Tool-N1 предоставляет надежный шаблон для интеграции рассуждений в специальные теги (think и /think). Это также верно и для вызова инструментов (tool_call и /tool_call). Благодаря этому Nemotron-Research-Tool-N1 снижает риски для модели переобучаться шаблону подсказки.

Способность успешно вызывать инструменты оценивается по двум эталонным тестам, которые подчеркивают возможности Nemotron-Research-Tool-N1:

  • Big Five Command Lines (BFCL): BFCL подчеркивает необходимость LLM понимать и реализовывать сложные инструкции командной строки. Nemotron-Research-Tool-N1 превосходно справляется с этой задачей благодаря своим методам обучения с подкреплением.
  • Эталонный тест API-Bank: Эталонный тест API-Bank подтвердил эти результаты. Модель имела точность на 4,12% и 5,03% выше, чем у GPT-4o.

Сравнительный анализ с существующими подходами

Nemotron-Research-Tool-N1 показывает значительное улучшение по сравнению с существующими методами тонкой настройки для использования инструментов. Тонкая настройка часто требует большого количества тщательно отобранных данных и часто приводит к тому, что модель имитирует существующие паттерны. В качестве метода обучения с подкреплением Nemotron-Research-Tool-N1 позволяет модели самостоятельно генерировать стратегии рассуждений, а также помогает уменьшить зависимость от конкретных наборов данных. Nemotron превосходит существующие эталонные тесты без тех же проблем, от которых страдают существующие методы.

Несколько эталонных тестов доказывают это улучшение. Эталонный тест BFCL непосредственно показывает, что модели tool-N1 улучшают существующие подходы. Он улучшает как системы с открытым исходным кодом, такие как xLAM-2-70B и ToolACE-8B, так и превосходит модели с закрытым исходным кодом, такие как GPT-4o. Эталонный тест API-Bank подтверждает эти результаты, которые, как было показано, существенно повышают точность при улучшении вызова инструментов в существующих языковых моделях.

Последствия и будущие направления

Исследователи представили Nemotron-Research-Tool-N1, крупный прорыв в инструментах LLM. Исследование демонстрирует отход от традиционных методологий SFT путем Application передового метода RL, основанного на правилах. Предлагаемый метод позволяет моделям формулировать тонкие тактики рассуждений, при этом конкретно не завися от аннотированных траекторий рассуждений. Возможности этой методологии показаны благодаря эффективным эталонным оценкам в BFCL и API-Bank. Кроме того, он демонстрирует измеримые улучшения производительности по сравнению с текущими базовыми показателями. Это открывает возможности для более адаптируемых и интеллектуальных языковых моделей, которые создают стратегии рассуждений самостоятельно.

Результаты открывают новые возможности для развития языковых моделей, которые более адаптируемы и интеллектуальны. Использование механизмов двоичного вознаграждения даст языковым моделям возможность работать и быть более эффективными во множестве реальных приложений. Nemotron-Research-Tool-N1 приведет к более автоматизированным рассуждениям, которые улучшат возможности использования инструментов языковыми моделями.

Это исследование демонстрирует новую парадигму в инструментах LLM. Он также выделяет новые направления того, как создаются будущие языковые модели. Акцент на автоматизации в рассуждениях будет иметь решающее значение для создания языковых моделей, которые будут более интеллектуальными в будущем.