Революция в LLM: Nemotron-Tool-N1 и RL | bg

Решаване на ограниченията на традиционното обучение за използване на инструменти

Съществуващите изследователски усилия за подобряване на възможностите на LLM за използване на инструменти са изследвали различни подходи, фокусирайки се предимно върху две ключови стратегии: куриране на набори от данни и усъвършенстване на модели, както и подобряване на аргументацията.

Куриране на набори от данни и усъвършенстване на модели: Този подход включва създаването на мащабни, контролирани набори от данни, съчетани с усъвършенствани техники за обучение като SFT и DPO (Direct Preference Optimization) обучение с подсилване. LLM са разширени с разнообразен набор от външни инструменти, включително търсачки, калкулатори, инструменти за зрение и Python интерпретатори, за значително разширяване на техните функционални възможности. Тази стратегия подчертава важността на предоставянето на LLM с богатство от примери и усъвършенстването на способността им да обобщават от тези примери. Предизвикателството обаче се крие в ограниченията на синтетичните данни.

Подобряване на разсъжденията: Признавайки недостатъците на разчитането единствено на мащабни набори от данни, изследователите също са се съсредоточили върху стратегии за подобряване на възможностите за разсъждение на LLM. Това включва преминаване от традиционното скалиране по време на обучение към по-сложни стратегии за скалиране по време на тестване. По-ранните методи често разчитат на наблюдение на ниво стъпка и научени модели за възнаграждение, за да ръководят траекториите на разсъжденията. Тези методи имат за цел да изложат модела на самия процес на разсъждение, насърчавайки по-задълбочено разбиране на обосновката зад избора и използването на инструменти.

Nemotron-Tool-N1: Промяна на парадигмата в използването на LLM инструменти

Изследователи от NVIDIA, Pennsylvania State University и University of Washington представиха серията Nemotron-Research-Tool-N1, иновативен подход, предназначен да преодолее ограниченията на съществуващите методи за използване на инструменти. За разлика от традиционните SFT и техники за дестилация на трасиране на разсъждения, Nemotron-Research-Tool-N1 използва уникална парадигма за обучение с подсилване (RL). Вдъхновен от успеха на DeepSeek-R1, този подход използва лек метод за наблюдение, който се фокусира върху оценката на структурната валидност и функционалната коректност на извикванията на инструменти. Моделът Nemotron-Research-Tool-N1 използва двоичен механизъм за възнаграждение, който позволява на модела самостоятелно да развива стратегии за разсъждение, без да разчита на изрично анотирани траектории на разсъждение.

Този подход представлява значително отклонение от конвенционалните методологии, предлагайки потенциал за по-стабилни и обобщаеми възможности за използване на инструменти. Като се фокусира върху коректността на извикванията на инструменти, а не върху изричното диктуване на стъпките на разсъждение, моделът се насърчава да изследва и да научи оптимални стратегии за разсъждение самостоятелно.

Подготовка на данни и архитектура на модела

Изследователите консолидираха и предварително обработиха данни от съществуващи набори от данни за извикване на инструменти, включително xLAM и подмножество от ToolACE, които осигуряват както еднократни, така и многократни синтетични траектории за извикване на инструменти. За да се ръководи генерирането на извиквания на инструменти, беше създаден лек шаблон за подкана, включващ изрични инструкции за междинни разсъждения в рамките на <think>…</think> тагове и извикване на инструменти, затворени в <tool_call>…</tool_call> тагове. Този шаблон е предназначен да минимизира строгите ограничения за форматиране и да намали риска от пренастройване към конкретни модели на подкани.

Основният модел на гръбнак, използван в това изследване, е Qwen2.5-7B/14B-Instruct. За да се оцени способността за обобщаване на предложения метод, бяха проведени и оценки на алтернативни модели на гръбнак, включително множество варианти от семейството LLaMA. Тази строга оценка в различни архитектури на модели гарантира стабилността и приложимостта на подхода Nemotron-Tool-N1.

Бенчмарк производителност: BFCL и API-Bank

Ефикасността на Nemotron-Research-Tool-N1 беше стриктно оценена с помощта на бенчмарковете BFCL и API-Bank. Резултатите демонстрират превъзходната производителност на моделите Nemotron-Research-Tool-N1 в сравнение със съществуващите подходи.

BFCL Benchmark: На BFCL бенчмарка, моделите Tool-N1-7B/14B показаха производителност, надвишаваща тази на модели със затворен код като GPT-4o и специализирани фино настроени модели като xLAM-2-70B и ToolACE-8B. Освен това, моделите превъзхождаха SFT базовите линии, обучени върху идентични източници на данни, подчертавайки ефективността на R1-стила RL подход, използван в Nemotron-Research-Tool-N1. Този бенчмарк откроява способността на модела да се адаптира в сценарии, които се нуждаят от сложни разсъждения и използване на инструменти. BFCL (Big Five Command Lines) бенчмаркът се фокусира върху оценката на способността на LLM да разбират и изпълняват сложни инструкции от командния ред, изискващи висока степен на разсъждение и използване на инструменти.

API-Bank Benchmark: API-Bank бенчмаркът допълнително потвърди тези констатации, като Tool-N1-7B/14B постигна 4,12% и 5,03% по-висока точност от GPT-4o. Този бенчмарк оценява уменията на LLM в използването на различни API (Application Programming Interfaces) за извършване на конкретни задачи. Подобренията, постигнати от Nemotron-Research-Tool-N1 на този бенчмарк, подчертават потенциала на метода за подобряване на възможностите на големите езикови модели за извикване на инструменти чрез нова парадигма за обучение с подсилване.

Последователните подобрения в двата бенчмарка демонстрират ефективността на подхода Nemotron-Research-Tool-N1 за подобряване на възможностите за използване на инструменти на LLM. Като се фокусира върху базиран на правила RL подход и позволява на моделите да развият свои собствени стратегии за разсъждение, Nemotron-Research-Tool-N1 отключва потенциала за по-адаптивни и интелигентни езикови модели.

Ключови иновации на Nemotron-Tool-N1

Основният принос на Nemotron-Research-Tool-N1 идва от неговия нов подход за подобряване на използването на инструменти в LLM. Вместо да разчита на стандартните SFT методи, той интегрира уникална, базирана на правила RL рамка. Крайъгълен камък на неговата архитектура е двоичният механизъм за възнаграждение, фокусиран върху оценката на структурната валидност и функционалната коректност на извикванията на инструменти. Този подход позволява на модела самостоятелно да създава стратегии за разсъждение, без да е необходимо траекториите на разсъждение да бъдат внимателно анотирани предварително.

Предимствата на Nemotron-Research-Tool-N1 са многостранни. Данните за обучение за използване на инструменти обикновено не включват изрични разсъждения. Системата за възнаграждение подобрява възможностите на моделите, като независимо намира връзката между инструмента и проблема. RL също помага за подобряване на обобщаването, тъй като моделът трябва да се адаптира към различни обстоятелства.

Nemotron-Research-Tool-N1 предоставя стабилен шаблон за интегриране на разсъждения в специални тагове (think и /think). Това важи и за извикването на инструменти (tool_call и /tool_call). Правейки това, Nemotron-Research-Tool-N1 намалява рисковете от пренастройване на модела към модела на подканата.

Способността за успешно извикване на инструменти се оценява на два бенчмарка, които подчертават възможностите на Nemotron-Research-Tool-N1:

Big Five Command Lines (BFCL): BFCL подчертава необходимостта LLM да разбират и прилагат сложни инструкции от командния ред. Nemotron-Research-Tool-N1 се отличава в тази област чрез своите методи за обучение с подсилване.
API-Bank Benchmark: API-Bank бенчмаркът потвърди тези резултати. Моделът имаше процент на точност 4,12% и 5,03% по-висок от този на GPT-4o.

Сравнителен анализ със съществуващи подходи

Nemotron-Research-Tool-N1 показва значително подобрение спрямо съществуващите методи за фино настройване за използване на инструменти. Финото настройване често изисква големи количества внимателно подбрани данни и често води до това моделът да имитира съществуващи модели. Като метод за обучение с подсилване, Nemotron-Research-Tool-N1, моделът може независимо да генерира стратегии за разсъждение и също така помага за намаляване на зависимостта от конкретни набори от данни. Nemotron превъзхожда съществуващите бенчмаркове без същите предизвикателства, от които страдат съществуващите методи.

Няколко бенчмарка доказват това подобрение. BFCL бенчмаркът директно показва, че tool-N1 моделите се подобряват спрямо съществуващите подходи. Той се подобрява както спрямо системите с отворен код като xLAM-2-70B и ToolACE-8B, така и превъзхожда моделите със затворен код като GPT-4o. API-Bank бенчмаркът потвърждава тези констатации, които са показали, че значително увеличават точността при подобряване на извикването на инструменти на съществуващи езикови модели.

Последици и бъдещи насоки

Изследователите представиха Nemotron-Research-Tool-N1, основен пробив в LLM инструментите. Изследването показва промяна от традиционните SFT методологии чрез прилагане на авангарден RL метод, базиран на правила. Предложеният метод позволява на моделите да формулират фини тактики за разсъждение, без конкретно да зависят от анотирани траектории на разсъждение. Възможностите на тази методология са показани чрез нейните ефективни оценки на бенчмаркове в BFCL и API-Bank. Също така, той показва измерими подобрения в производителността спрямо текущите базови линии. Това отваря възможности за по-адаптивни и интелигентни езикови модели, които създават стратегии за разсъждение самостоятелно.

Констатациите отключват нови пътища за разработване на езикови модели, които са по-адаптивни и интелигентни. Използването на двоични механизми за възнаграждение ще даде възможност на езиковите модели да изпълняват и да бъдат по-ефективни в множество реални приложения. Nemotron-Research-Tool-N1 ще доведе до по-автоматизирано разсъждение, което ще подобри възможностите за използване на инструменти на езиковите модели.

Изследването показва нова парадигма в LLM инструментите. Също така подчертава нови насоки за изграждането на бъдещи езикови модели. Фокусът върху автоматизацията в разсъжденията ще бъде от решаващо значение за наличието на езикови модели, които ще бъдат по-интелигентни в бъдеще.

актуализирано на 2025-05-15

# Nvidia # Nemotron # Fine-Tuning