Revolusi Penggunaan Alat LLM: Pendekatan RL Nemotron

Merevolusikan Penggunaan Alat LLM: Pendekatan Pembelajaran Pengukuhan Nemotron-Tool-N1

Integrasi Model Bahasa Besar (LLM) dengan alat luaran telah muncul sebagai strategi transformatif, membuka keupayaan yang belum pernah terjadi sebelumnya merentas spektrum aplikasi. Walau bagaimanapun, metodologi tradisional, terutamanya bergantung pada penciptaan set data sintetik yang luas bagi senario penggunaan alat, diikuti dengan Penalaan Halus Penyeliaan (SFT) untuk menanamkan LLM dengan keupayaan untuk menggunakan alat ini dengan berkesan. Batasan asas pendekatan ini ialah ketidakupayaan set data sintetik untuk mewakili dengan tepat proses penaakulan rumit yang terlibat dalam penggunaan alat, mengakibatkan pembelajaran superfisial dan kekurangan pemahaman sebenar. Selalunya, langkah penaakulan penting sama ada tidak hadir sepenuhnya semasa latihan atau diturunkan kepada inferens melalui teknik gesaan yang rumit. Ini memperkenalkan fenomena “pseudo-penaakulan,” di mana model, bukannya memahami mekanisme membuat keputusan yang mendasari, hanya meniru corak peringkat permukaan.

Menangani Batasan Latihan Penggunaan Alat Tradisional

Usaha penyelidikan sedia ada untuk meningkatkan keupayaan penggunaan alat LLM telah meneroka pelbagai pendekatan, terutamanya memfokuskan pada dua strategi utama: penyusunan set data dan penambahbaikan model, dan peningkatan penaakulan.

Penyusunan Set Data dan Penambahbaikan Model: Pendekatan ini melibatkan penciptaan set data berskala besar, diawasi ditambah dengan teknik latihan lanjutan seperti SFT dan pembelajaran pengukuhan DPO (Pengoptimuman Keutamaan Langsung). LLM ditambah dengan pelbagai jenis alat luaran, termasuk enjin carian, kalkulator, alat penglihatan dan penterjemah Python, untuk mengembangkan keupayaan fungsional mereka dengan ketara. Strategi ini menekankan kepentingan menyediakan LLM dengan banyak contoh dan memperhalusi keupayaan mereka untuk membuat generalisasi daripada contoh ini. Walau bagaimanapun, cabarannya terletak pada batasan data sintetik.

Peningkatan Penaakulan: Menyedari kekurangan bergantung semata-mata pada set data berskala besar, penyelidik juga telah menumpukan pada strategi untuk meningkatkan keupayaan penaakulan LLM. Ini melibatkan peralihan daripada penskalaan masa latihan tradisional kepada strategi penskalaan masa ujian yang lebih canggih. Kaedah terdahulu sering bergantung pada penyeliaan peringkat langkah dan memodelkan model ganjaran yang dipelajari untuk membimbing trajektori penaakulan. Kaedah ini bertujuan untuk mendedahkan model kepada proses penaakulan itu sendiri, memupuk pemahaman yang lebih mendalam tentang rasional di sebalik pemilihan dan penggunaan alat.

Nemotron-Tool-N1: Anjakan Paradigma dalam Penggunaan Alat LLM

Penyelidik di NVIDIA, Pennsylvania State University dan University of Washington telah memperkenalkan siri Nemotron-Research-Tool-N1, pendekatan inovatif yang direka untuk mengatasi batasan kaedah penggunaan alat sedia ada. Tidak seperti teknik SFT tradisional dan penyulingan kesan penaakulan, Nemotron-Research-Tool-N1 menggunakan paradigma pembelajaran pengukuhan (RL) yang unik. Diinspirasikan oleh kejayaan DeepSeek-R1, pendekatan ini menggunakan kaedah penyeliaan ringan yang memfokuskan pada penilaian kesahan struktur dan ketepatan fungsi invocations alat. Model Nemotron-Research-Tool-N1 memanfaatkan mekanisme ganjaran binari yang membolehkan model membangunkan strategi penaakulan secara autonomi tanpa bergantung pada trajektori penaakulan beranotasi eksplisit.

Pendekatan ini mewakili perbezaan yang ketara daripada metodologi konvensional, menawarkan potensi untuk keupayaan penggunaan alat yang lebih teguh dan umum. Dengan memfokuskan pada ketepatan invocations alat dan bukannya mendikte langkah penaakulan secara eksplisit, model digalakkan untuk meneroka dan mempelajari strategi penaakulan optimum sendiri.

Penyediaan Data dan Seni Bina Model

Penyelidik menyatukan dan memproses data daripada set data panggilan alat sedia ada, termasuk xLAM dan subset ToolACE, yang menyediakan kedua-dua trajektori panggilan alat sintetik giliran tunggal dan berbilang giliran. Untuk membimbing penjanaan panggilan alat, templat mempromosikan ringan telah dicipta, menampilkan arahan eksplisit untuk penaakulan perantaraan dalam <think>…</think> teg dan invocation alat yang disertakan dalam panggilan <tool_call>…</tool_call> teg. Templat ini direka untuk meminimumkan kekangan format yang tegar dan mengurangkan risiko overfitting kepada corak geseran tertentu.

Model tulang belakang utama yang digunakan dalam penyelidikan ini ialah Qwen2.5-7B/14B-Instruct. Untuk menilai keupayaan generalisasi kaedah yang dicadangkan, penilaian juga dijalankan pada model tulang belakang alternatif, termasuk pelbagai varian daripada keluarga LLaMA. Penilaian yang ketat merentas seni bina model yang berbeza ini memastikan keteguhan dan kebolehgunaan pendekatan Nemotron-Tool-N1.

Penandaarasan Prestasi: BFCL dan API-Bank

Keberkesanan Nemotron-Research-Tool-N1 telah dinilai dengan teliti menggunakan penanda aras BFCL dan API-Bank. Keputusan menunjukkan prestasi unggul model Nemotron-Research-Tool-N1 berbanding pendekatan sedia ada.

Penanda Aras BFCL: Pada penanda aras BFCL, model Tool-N1-7B/14B mempamerkan prestasi yang melebihi model sumber tertutup seperti GPT-4o dan model yang diperhalusi khusus seperti xLAM-2-70B dan ToolACE-8B. Tambahan pula, model mengatasi garis dasar SFT yang dilatih pada sumber data yang sama, menekankan keberkesanan pendekatan RL gaya R1 yang digunakan dalam Nemotron-Research-Tool-N1. Penanda aras ini menyerlahkan kebolehan model untuk menyesuaikan diri dalam senario yang memerlukan penaakulan dan penggunaan alat yang kompleks. Penanda aras BFCL (Big Five Command Lines) memfokuskan pada penilaian keupayaan LLM untuk memahami dan melaksanakan arahan baris perintah yang kompleks, memerlukan tahap penaakulan dan penggunaan alat yang tinggi.

Penanda Aras API-Bank: Penanda aras API-Bank mengesahkan lagi penemuan ini, dengan Tool-N1-7B/14B mencapai ketepatan 4.12% dan 5.03% lebih tinggi daripada GPT-4o. Penanda aras ini menilai kecekapan LLM dalam menggunakan pelbagai API (Antara Muka Pengaturcaraan Aplikasi) untuk melaksanakan tugas tertentu. Peningkatan yang dicapai oleh Nemotron-Research-Tool-N1 pada penanda aras ini menggariskan potensi kaedah dalam meningkatkan keupayaan panggilan alat model bahasa besar melalui paradigma pembelajaran pengukuhan novel.

Peningkatan yang konsisten merentas kedua-dua penanda aras menunjukkan keberkesanan pendekatan Nemotron-Research-Tool-N1 dalam meningkatkan keupayaan penggunaan alat LLM. Dengan memfokuskan pada pendekatan RL berasaskan peraturan dan membolehkan model membangunkan strategi penaakulan mereka sendiri, Nemotron-Research-Tool-N1 membuka potensi untuk model bahasa yang lebih mudah menyesuaikan diri dan pintar.

Inovasi Utama Nemotron-Tool-N1

Sumbangan utama Nemotron-Research-Tool-N1 datang daripada pendekatan novelnya untuk meningkatkan penggunaan alat dalam LLM. Daripada bergantung pada kaedah SFT standard, ia mengintegrasikan rangka kerja RL berasaskan peraturan yang unik. Asas seni binanya ialah mekanisme ganjaran binari yang memfokuskan pada penilaian kesahan struktur dan ketepatan fungsi invocations alat. Pendekatan ini membolehkan model mencipta strategi penaakulan secara bebas tanpa memerlukan trajektori penaakulan yang beranotasi dengan teliti terlebih dahulu.

Kelebihan Nemotron-Research-Tool-N1 adalah pelbagai. Data latihan untuk penggunaan alat biasanya tidak termasuk penaakulan eksplisit. Sistem ganjaran meningkatkan keupayaan model dengan mencari secara bebas hubungan antara alat dan masalah yang dihadapi. RL juga membantu untuk meningkatkan kebolehgeneralisasian kerana model mesti menyesuaikan diri dengan pelbagai keadaan.

Nemotron-Research-Tool-N1 menyediakan templat yang teguh untuk mengintegrasikan penaakulan dalam teg khas (fikir dan /fikir). Ini juga benar untuk memanggil alat (tool_call dan /tool_call). Dengan melakukan ini, Nemotron-Research-Tool-N1 mengurangkan risiko daripada model overfitting kepada corak geseran.

Keupayaan untuk berjaya memanggil alat dinilai pada dua penanda aras, yang menyerlahkan keupayaan Nemotron-Research-Tool-N1:

  • Big Five Command Lines (BFCL): BFCL menekankan keperluan LLM untuk memahami dan melaksanakan arahan baris perintah yang rumit. Nemotron-Research-Tool-N1 cemerlang dalam bidang ini melalui kaedah pembelajaran pengukuhannya.
  • Penanda Aras API-Bank: Penanda aras API-Bank mengesahkan keputusan ini. Model mempunyai kadar ketepatan 4.12% dan 5.03% lebih tinggi daripada GPT-4o.

Analisis Perbandingan dengan Pendekatan Sedia Ada

Nemotron-Research-Tool-N1 menunjukkan peningkatan ketara berbanding kaedah penyesuaian yang sedia ada untuk penggunaan alat. Penyesuaian halus selalunya memerlukan sejumlah besar data yang disusun dengan teliti dan selalunya membawa kepada model yang meniru corak yang sedia ada. Sebagai kaedah pembelajaran pengukuhan, Nemotron-Research-Tool-N1, model boleh menjana strategi penaakulan secara bebas dan juga membantu mengurangkan pergantungan pada set data tertentu. Nemotron mengatasi penanda aras sedia ada tanpa cabaran yang sama yang dihadapi oleh kaedah sedia ada.

Beberapa penanda aras membuktikan peningkatan ini. Penanda aras BFCL secara langsung menunjukkan bahawa model alat-N1 bertambah baik pada pendekatan sedia ada. Ia bertambah baik pada kedua-dua sistem sumber terbuka seperti xLAM-2-70B dan ToolACE-8B, dan mengatasi model sumber tertutup seperti GPT-4o. Penanda aras API-Bank mengesahkan penemuan ini, yang telah ditunjukkan untuk meningkatkan ketepatan dengan ketara apabila meningkatkan panggilan alat pada model bahasa sedia ada.

Implikasi dan Hala Tuju Masa Depan

Penyelidik memperkenalkan Nemotron-Research-Tool-N1, satu kejayaan besar dalam alat LLM. Penyelidikan ini memaparkan perubahan daripada metodologi SFT tradisional dengan menggunakan kaedah RL berasaskan peraturan yang canggih. Kaedah yang dicadangkan membolehkan model merumuskan taktik penaakulan yang halus, semuanya sambil tidak bergantung secara khusus pada trajektori penaakulan beranotasi. Keupayaan metodologi ini ditunjukkan melalui penilaian penanda aras yang berkesan merentasi BFCL dan API-Bank. Selain itu, ia memaparkan peningkatan prestasi yang boleh diukur berbanding garis dasar semasa. Ini membuka peluang untuk model bahasa yang lebih mudah menyesuaikan diri dan pintar yang mencipta strategi penaakulan mereka sendiri.

Penemuan ini membuka jalan baharu untuk membangunkan model bahasa yang lebih mudah menyesuaikan diri dan pintar. Penggunaan mekanisme ganjaran binari akan memberi model bahasa keupayaan untuk melaksanakan dan menjadi lebih berkesan dalam pelbagai aplikasi dunia sebenar. Nemotron-Research-Tool-N1 akan membawa kepada penaakulan yang lebih automatik, yang akan meningkatkan keupayaan penggunaan alat model bahasa.

Penyelidikan ini mempamerkan paradigma baharu dalam alat LLM. Ia juga menyerlahkan hala tuju baharu tentang cara model bahasa masa depan dibuat. Tumpuan pada automasi dalam penaakulan akan menjadi penting dalam memiliki model bahasa yang akan menjadi lebih pintar pada masa hadapan.