Revolusi Penggunaan Alat LLM: Pendekatan Reinforcement Learning | id

Integrasi Large Language Model (LLM) dengan alat eksternal telah muncul sebagai strategi transformatif, membuka kemampuan yang belum pernah terjadi sebelumnya di berbagai aplikasi. Namun, metodologi tradisional sebagian besar bergantung pada pembuatan dataset sintetis yang luas dari skenario penggunaan alat, diikuti oleh Supervised Fine-Tuning (SFT) untuk menanamkan LLM dengan kemampuan untuk secara efektif memanfaatkan alat ini. Keterbatasan mendasar dari pendekatan ini adalah ketidakmampuan dataset sintetis untuk secara akurat mewakili proses penalaran rumit yang terlibat dalam penggunaan alat, yang mengakibatkan pembelajaran superfisial dan kurangnya pemahaman yang sebenarnya. Seringkali, langkah-langkah penalaran penting sama sekali tidak ada selama pelatihan atau diturunkan ke inferensi melalui teknik prompting yang rumit. Ini memperkenalkan fenomena “pseudo-reasoning,” di mana model, alih-alih memahami mekanisme pengambilan keputusan yang mendasarinya, hanya meniru pola tingkat permukaan.

Mengatasi Keterbatasan Pelatihan Penggunaan Alat Tradisional

Upaya penelitian yang ada untuk meningkatkan kemampuan penggunaan alat LLM telah mengeksplorasi berbagai pendekatan, yang terutama berfokus pada dua strategi utama: kurasi dataset dan penyempurnaan model, dan peningkatan penalaran.

Kurasi Dataset dan Penyempurnaan Model: Pendekatan ini melibatkan pembuatan dataset berskala besar yang diawasi yang digabungkan dengan teknik pelatihan tingkat lanjut seperti SFT dan DPO (Direct Preference Optimization) reinforcement learning. LLM ditambah dengan beragam alat eksternal, termasuk mesin pencari, kalkulator, alat penglihatan, dan penerjemah Python, untuk secara signifikan memperluas kemampuan fungsional mereka. Strategi ini menekankan pentingnya menyediakan LLM dengan banyak contoh dan menyempurnakan kemampuan mereka untuk melakukan generalisasi dari contoh-contoh ini. Tantangannya, bagaimanapun, terletak pada keterbatasan data sintetis.

Peningkatan Penalaran: Menyadari kekurangan hanya mengandalkan dataset berskala besar, para peneliti juga berfokus pada strategi untuk meningkatkan kemampuan penalaran LLM. Ini melibatkan pergeseran dari penskalaan waktu pelatihan tradisional ke strategi penskalaan waktu pengujian yang lebih canggih. Metode sebelumnya sering mengandalkan pengawasan tingkat langkah dan mempelajari model reward untuk memandu lintasan penalaran. Metode ini bertujuan untuk mengekspos model ke proses penalaran itu sendiri, mendorong pemahaman yang lebih dalam tentang alasan di balik pemilihan dan penggunaan alat.

Nemotron-Tool-N1: Pergeseran Paradigma dalam Penggunaan Alat LLM

Para peneliti di NVIDIA, Pennsylvania State University, dan University of Washington telah memperkenalkan seri Nemotron-Research-Tool-N1, sebuah pendekatan inovatif yang dirancang untuk mengatasi keterbatasan metode penggunaan alat yang ada. Tidak seperti teknik SFT tradisional dan distilasi jejak penalaran, Nemotron-Research-Tool-N1 menggunakan paradigma reinforcement learning (RL) yang unik. Terinspirasi oleh keberhasilan DeepSeek-R1, pendekatan ini menggunakan metode pengawasan ringan yang berfokus pada evaluasi validitas struktural dan kebenaran fungsional dari pemanggilan alat. Model Nemotron-Research-Tool-N1 memanfaatkan mekanisme reward biner yang memungkinkan model untuk secara mandiri mengembangkan strategi penalaran tanpa bergantung pada lintasan penalaran yang secara eksplisit dianotasi.

Pendekatan ini mewakili penyimpangan signifikan dari metodologi konvensional, menawarkan potensi untuk kemampuan penggunaan alat yang lebih kuat dan dapat digeneralisasi. Dengan berfokus pada kebenaran pemanggilan alat daripada secara eksplisit mendikte langkah-langkah penalaran, model didorong untuk mengeksplorasi dan mempelajari strategi penalaran optimal sendiri.

Persiapan Data dan Arsitektur Model

Para peneliti mengkonsolidasikan dan memproses data dari dataset panggilan alat yang ada, termasuk xLAM dan subset ToolACE, yang menyediakan lintasan panggilan alat sintetis single-turn dan multi-turn. Untuk memandu pembuatan panggilan alat, template prompting ringan dibuat, menampilkan instruksi eksplisit untuk penalaran menengah dalam tag <think>…</think> dan pemanggilan alat yang tertutup dalam tag <tool_call>…</tool_call>. Template ini dirancang untuk meminimalkan batasan pemformatan yang kaku dan mengurangi risiko overfitting ke pola prompt tertentu.

Model backbone utama yang digunakan dalam penelitian ini adalah Qwen2.5-7B/14B-Instruct. Untuk menilai kemampuan generalisasi dari metode yang diusulkan, evaluasi juga dilakukan pada model backbone alternatif, termasuk beberapa varian dari keluarga LLaMA. Evaluasi ketat di seluruh arsitektur model yang berbeda ini memastikan ketahanan dan penerapan pendekatan Nemotron-Tool-N1.

Tolok Ukur Kinerja: BFCL dan API-Bank

Kemanjuran Nemotron-Research-Tool-N1 dievaluasi secara ketat menggunakan tolok ukur BFCL dan API-Bank. Hasilnya menunjukkan kinerja superior dari model Nemotron-Research-Tool-N1 dibandingkan dengan pendekatan yang ada.

Tolok Ukur BFCL: Pada tolok ukur BFCL, model Tool-N1-7B/14B menunjukkan kinerja yang melampaui model sumber tertutup seperti GPT-4o dan model fine-tuning khusus seperti xLAM-2-70B dan ToolACE-8B. Selain itu, model mengungguli baseline SFT yang dilatih pada sumber data identik, menekankan efektivitas pendekatan RL gaya R1 yang digunakan dalam Nemotron-Research-Tool-N1. Tolok ukur ini menyoroti bakat model untuk beradaptasi dalam skenario yang membutuhkan penalaran dan penggunaan alat yang kompleks. Tolok ukur BFCL (Big Five Command Lines) berfokus pada penilaian kemampuan LLM untuk memahami dan menjalankan instruksi baris perintah yang kompleks, yang membutuhkan tingkat penalaran dan pemanfaatan alat yang tinggi.

Tolok Ukur API-Bank: Tolok ukur API-Bank selanjutnya memvalidasi temuan ini, dengan Tool-N1-7B/14B mencapai akurasi 4,12% dan 5,03% lebih tinggi daripada GPT-4o. Tolok ukur ini mengevaluasi kemahiran LLM dalam menggunakan berbagai API (Application Programming Interfaces) untuk melakukan tugas-tugas tertentu. Peningkatan yang dicapai oleh Nemotron-Research-Tool-N1 pada tolok ukur ini menggarisbawahi potensi metode ini dalam meningkatkan kemampuan panggilan alat model bahasa besar melalui paradigma reinforcement learning yang baru.

Peningkatan konsisten di kedua tolok ukur menunjukkan efektivitas pendekatan Nemotron-Research-Tool-N1 dalam meningkatkan kemampuan penggunaan alat LLM. Dengan berfokus pada pendekatan RL berbasis aturan dan memungkinkan model untuk mengembangkan strategi penalaran mereka sendiri, Nemotron-Research-Tool-N1 membuka potensi untuk model bahasa yang lebih mudah beradaptasi dan cerdas.

Inovasi Utama Nemotron-Tool-N1

Kontribusi utama Nemotron-Research-Tool-N1 berasal dari pendekatan barunya untuk meningkatkan penggunaan alat dalam LLM. Alih-alih mengandalkan metode SFT standar, ia mengintegrasikan kerangka kerja RL berbasis aturan yang unik. Landasan arsitekturnya adalah mekanisme reward biner yang berfokus pada penilaian validitas struktural dan kebenaran fungsional dari pemanggilan alat. Pendekatan ini memungkinkan model untuk secara mandiri membuat strategi penalaran tanpa perlu lintasan penalaran yang dengan hati-hati dianotasi terlebih dahulu.

Keuntungan dari Nemotron-Research-Tool-N1 adalah banyak. Data pelatihan untuk penggunaan alat biasanya tidak menyertakan penalaran eksplisit. Sistem reward meningkatkan kemampuan model dengan secara independen menemukan hubungan antara alat dan masalah yang ada. RL juga membantu meningkatkan generalisasi karena model harus beradaptasi dengan berbagai keadaan.

Nemotron-Research-Tool-N1 menyediakan template yang kuat untuk mengintegrasikan penalaran dalam tag khusus (think dan /think). Ini juga berlaku untuk memanggil alat (tool_call dan /tool_call). Dengan melakukan ini, Nemotron-Research-Tool-N1 mengurangi risiko dari model yang overfitting ke pola prompt.

Kemampuan untuk berhasil memanggil alat dievaluasi pada dua tolok ukur, yang menyoroti kemampuan Nemotron-Research-Tool-N1:

Big Five Command Lines (BFCL): BFCL menekankan kebutuhan LLM untuk memahami dan menerapkan instruksi baris perintah yang rumit. Nemotron-Research-Tool-N1 unggul dalam bidang ini melalui metode reinforcement learning-nya.
Tolok Ukur API-Bank: Tolok ukur API-Bank mengonfirmasi hasil ini. Model memiliki tingkat akurasi 4,12% dan 5,03% lebih tinggi daripada GPT-4o.

Analisis Komparatif dengan Pendekatan yang Ada

Nemotron-Research-Tool-N1 menunjukkan peningkatan signifikan dibandingkan metode fine-tuning yang ada untuk penggunaan alat. Fine-tuning sering membutuhkan sejumlah besar data yang dikurasi dengan hati-hati dan sering menyebabkan model meniru pola yang ada. Sebagai metode reinforcement learning, Nemotron-Research-Tool-N1, model dapat secara mandiri menghasilkan strategi penalaran dan juga membantu mengurangi ketergantungan pada dataset tertentu. Nemotron mengungguli tolok ukur yang ada tanpa tantangan yang sama yang diderita metode yang ada.

Beberapa tolok ukur membuktikan peningkatan ini. Tolok ukur BFCL secara langsung menunjukkan bahwa model tool-N1 meningkatkan pendekatan yang ada. Ini meningkatkan sistem opensource seperti xLAM-2-70B dan ToolACE-8B, dan mengungguli model closedsource seperti GPT-4o. Tolok ukur API-Bank memvalidasi temuan ini, yang telah terbukti meningkatkan akurasi secara substansial saat meningkatkan panggilan alat pada model bahasa yang ada.

Implikasi dan Arah Masa Depan

Para peneliti memperkenalkan Nemotron-Research-Tool-N1, sebuah terobosan besar dalam alat LLM. Penelitian ini menampilkan perubahan dari metodologi SFT tradisional dengan menerapkan metode RL berbasis aturan mutakhir. Metode yang disarankan memungkinkan model untuk merumuskan taktik penalaran yang halus, semua tanpa secara khusus bergantung pada lintasan penalaran yang dianotasi. Kemampuan metodologi ini ditampilkan melalui penilaian tolok ukur yang efektif di seluruh BFCL dan API-Bank. Juga, ia menampilkan peningkatan kinerja yang terukur dibandingkan dengan baseline saat ini. Ini membuka peluang untuk model bahasa yang lebih mudah beradaptasi dan cerdas yang membuat strategi penalaran sendiri.

Temuan ini membuka jalan baru untuk mengembangkan model bahasa yang lebih mudah beradaptasi dan cerdas. Penggunaan mekanisme reward biner akan memberikan model bahasa kemampuan untuk melakukan dan menjadi lebih efektif dalam berbagai aplikasi dunia nyata. Nemotron-Research-Tool-N1 akan mengarah pada penalaran yang lebih otomatis, yang akan meningkatkan kemampuan penggunaan alat model bahasa.

Penelitian ini menampilkan paradigma baru dalam alat LLM. Ini juga menyoroti arah baru tentang bagaimana model bahasa masa depan dibuat. Fokus pada otomatisasi dalam penalaran akan sangat penting dalam memiliki model bahasa yang akan lebih cerdas di masa depan.

diperbarui pada 2025-05-15

# Nvidia # Nemotron # Fine-Tuning