שיפור שימוש בכלי LLM: גישת Nemotron-Tool-N1

מהפכה בשימוש בכלי LLM: גישת למידת החיזוק של Nemotron-Tool-N1

השילוב של מודלים גדולים של שפה (LLMs) עם כלים חיצוניים התגלה כאסטרטגיה טרנספורמטיבית, הפותחת יכולות חסרות תקדים על פני מגוון רחב של יישומים. עם זאת, מתודולוגיות מסורתיות מסתמכות בעיקר על יצירת מערכי נתונים סינתטיים נרחבים של תרחישי שימוש בכלי, ואחריהם כוונון עדין בפיקוח (SFT) כדי להחדיר ל-LLMs את היכולת להשתמש ביעילות בכלים אלה. מגבלה מהותית בגישה זו היא חוסר היכולת של מערכות נתונים סינתטיות לייצג במדויק את תהליכי החשיבה המורכבים הכרוכים בשימוש בכלי, מה שגורם ללמידה שטחית ולחוסר הבנה אמיתית. לעתים קרובות, שלבי חשיבה חיוניים נעדרים לחלוטין במהלך ההכשרה או מועברים למסקנה באמצעות טכניקות הנחיה משוכללות. זה מציג תופעה של "חשיבה פסאודו", שבה מודלים, במקום להבין את מנגנוני קבלת ההחלטות הבסיסיים, רק מחקים דפוסים ברמת פני השטח.

טיפול במגבלות של הכשרה מסורתית לשימוש בכלי

מאמצי מחקר קיימים לשיפור יכולות השימוש בכלי ה-LLMs חקרו מגוון גישות, תוך התמקדות בעיקר בשתי אסטרטגיות מפתח: אוצרות נתונים ועידון מודלים, ושיפור חשיבה.

אצירת נתונים ועידון מודלים: גישה זו כוללת יצירת מערכות נתונים בקנה מידה גדול, בפיקוח, בשילוב עם טכניקות אימון מתקדמות כגון למידת חיזוק SFT ו-DPO (אופטימיזציה של העדפה ישירה). LLMs מוגדלים עם מגוון מגוון של כלים חיצוניים, כולל מנועי חיפוש, מחשבונים, כלי ראייה ומפעילי Python, כדי להרחיב משמעותית את היכולות הפונקציונליות שלהם. אסטרטגיה זו מדגישה את החשיבות של מתן LLMs עם שפע של דוגמאות ועידון היכולת שלהם להכליל מדוגמאות אלה. עם זאת, האתגר טמון במגבלות של נתונים סינתטיים.

שיפור חשיבה: מתוך הכרה בחסרונות של הסתמכות אך ורק על מערכות נתונים בקנה מידה גדול, חוקרים התמקדו גם באסטרטגיות לשיפור יכולות החשיבה של LLMs. זה כרוך במעבר ממדרגיות זמן אימון מסורתית לאסטרטגיות מדרגיות זמן בדיקה מתוחכמות יותר. שיטות קודמות הסתמכו לעתים קרובות על פיקוח ברמת הצעד ולמדו מודלים של תגמול כדי להנחות מסלולי חשיבה. שיטות אלה נועדו לחשוף את המודל לתהליך החשיבה עצמו, ולטפח הבנה מעמיקה יותר של ההיגיון מאחורי בחירת כלי ושימוש.

Nemotron-Tool-N1: שינוי פרדיגמה בשימוש בכלי LLM

חוקרים ב-NVIDIA, Pennsylvania State University ו-University of Washington הציגו את סדרת Nemotron-Research-Tool-N1, גישה חדשנית שנועדה להתגבר על המגבלות של שיטות שימוש בכלי קיימות. בניגוד לטכניקות זיקוק עקבות חשיבה ו-SFT מסורתיות, Nemotron-Research-Tool-N1 משתמשת בפרדיגמת למידת חיזוק (RL) ייחודית. בהשראת ההצלחה של DeepSeek-R1, גישה זו משתמשת בשיטת פיקוח קלה המתמקדת בהערכת התוקף המבני והנכונות הפונקציונלית של הפעלות כלי. מודל Nemotron-Research-Tool-N1 ממנף מנגנון תגמול בינארי המאפשר למודל לפתח באופן אוטונומי אסטרטגיות חשיבה מבלי להסתמך על מסלולי חשיבה מפורשים.

גישה זו מייצגת סטייה משמעותית ממתודולוגיות קונבנציונליות, ומציעה את הפוטנציאל ליכולות שימוש בכלי חזקות וניתנות להכללה יותר. על ידי התמקדות בנכונות של הפעלות כלי במקום להכתיב באופן מפורש שלבי חשיבה, המודל מעודד לחקור וללמוד אסטרטגיות חשיבה אופטימליות בעצמו.

הכנת נתונים וארכיטקטורת מודל

החוקרים איחדו ועבדו מראש נתונים ממערכות נתונים קיימות של שיחות כלים, כולל xLAM וקבוצת משנה של ToolACE, המספקות מסלולי שיחות כלים סינתטיים חד-סיבובים ורב-סיבובים. כדי להנחות את יצירת שיחות הכלים, נוצרה תבנית הנחיה קלת משקל, הכוללת הוראות מפורשות לחשיבה ביניים בתוך תגי <think>…</think> וקריאה לכלי סגורה בתגי <tool_call>…</tool_call>. תבנית זו נועדה למזער אילוצי עיצוב נוקשים ולהפחית את הסיכון להתאמת יתר לדפוסי הנחיה ספציפיים.

מודל עמוד השדרה הראשי המשמש במחקר זה הוא Qwen2.5-7B/14B-Instruct. כדי להעריך את יכולת ההכללה של השיטה המוצעת, בוצעו גם הערכות על מודלי עמוד שדרה חלופיים, כולל מספר גרסאות ממשפחת LLaMA. הערכה קפדנית זו על פני ארכיטקטורות מודלים שונות מבטיחה את החוסן והישימות של גישת Nemotron-Tool-N1.

ביצועי השוואה: BFCL ובנק API

היעילות של Nemotron-Research-Tool-N1 הוערכה בקפדנות באמצעות מדדי הייחוס BFCL ובנק API. התוצאות מדגימות את הביצועים המעולים של מודלי Nemotron-Research-Tool-N1 בהשוואה לגישות קיימות.

מדד ייחוס BFCL: במדד הייחוס BFCL, מודלי Tool-N1-7B/14B הציגו ביצועים העולים על אלה של מודלים סגורים כמו GPT-4o ומודלים מכווננים דק במיוחד כמו xLAM-2-70B ו-ToolACE-8B. יתר על כן, המודלים עלו על קווי הבסיס של SFT שאומנו על אותם מקורות נתונים, והדגישו את האפקטיביות של גישת RL בסגנון R1 המשמשת ב-Nemotron-Research-Tool-N1. מדד ייחוס זה מדגיש את כשירות המודל להסתגל בתרחישים הדורשים חשיבה מורכבת ושימוש בכלי. מדד הייחוס BFCL (Big Five Command Lines) מתמקד בהערכת היכולת של LLMs להבין ולבצע הוראות מורכבות של שורת הפקודה, הדורשות מידה גבוהה של חשיבה ושימוש בכלי.

מדד ייחוס בנק API: מדד הייחוס בנק API אימת עוד יותר את הממצאים הללו, כאשר Tool-N1-7B/14B השיגו דיוק גבוה יותר ב-4.12% ו-5.03% מ-GPT-4o. מדד ייחוס זה מעריך את המיומנות של LLM בשימוש בממשקי API (ממשקי תכנות יישומים) שונים לביצוע משימות ספציפיות. השיפורים שהושגו על ידי Nemotron-Research-Tool-N1 במדד ייחוס זה מדגישים את הפוטנציאל של השיטה בשיפור יכולות שיחות הכלים של מודלים גדולים של שפה באמצעות פרדיגמת לימוד חיזוק חדשה.

השיפורים העקביים על פני שני מדדי הייחוס מדגימים את האפקטיביות של גישת Nemotron-Research-Tool-N1 בשיפור יכולות השימוש בכלי של LLMs. על ידי התמקדות בגישת RL מבוססת כללים ובאפשרות למודלים לפתח אסטרטגיות חשיבה משלהם, Nemotron-Research-Tool-N1 פותח את הפוטנציאל למודלים של שפה ניתנים להתאמה וחכמים יותר.

חידושים מרכזיים של Nemotron-Tool-N1

התרומה העיקרית של Nemotron-Research-Tool-N1 מגיעה מהגישה החדשה שלה לשיפור השימוש בכלי ב-LLMs. במקום להסתמך על שיטות SFT סטנדרטיות, הוא משלב מסגרת RL ייחודית, מבוססת כללים. אבן יסוד של הארכיטקטורה שלה היא מנגנון תגמול בינארי המתמקד בהערכת התוקף המבני והנכונות הפונקציונלית של שיחות כלים. גישה זו מאפשרת למודל ליצור באופן עצמאי אסטרטגיות חשיבה מבלי הצורך במסלולי חשיבה המפורשים בקפידה מראש.

היתרונות של Nemotron-Research-Tool-N1 הם רבים. נתוני אימון לשימוש בכלי אינם כוללים בדרך כלל חשיבה מפורשת. מערכת התגמול משפרת את היכולות של המודלים על ידי מציאת הקשר באופן עצמאי בין הכלי לבעיה הנדונה. RL גם עוזר לשפר את יכולת ההכללה מכיוון שהמודל חייב להסתגל לנסיבות משתנות.

Nemotron-Research-Tool-N1 מספק תבנית חזקה לשילוב חשיבה בתוך תגים מיוחדים (think ו-/think). זה נכון גם לגבי קריאה לכלים (tool_call ו-/tool_call). על ידי כך, Nemotron-Research-Tool-N1 מפחית את הסיכונים מהתאמת היתר של המודל לדפוס של ההנחיה.

היכולת לקרוא בהצלחה לכלים מוערכת בשני ציוני דרך, המדגישים את היכולות שלNemotron-Research-Tool-N1:

  • Big Five Command Lines (BFCL): BFCL מדגיש את הצורך של LLMs להבין וליישם הוראות מורכבות של שורת הפקודה. Nemotron-Research-Tool-N1 מצטיין בתחום זה באמצעות שיטות לימוד החיזוק שלו.
  • API -Bank Benchmark: מדד API-Bank אישר את התוצאות האלה. למודל היה שיעור דיוק גבוה ב-4.12% ו- 5.03% מזה של GPT-4o.

ניתוח השוואתי עם גישות קיימות

Nemotron-Research-Tool-N1 מראה שיפור משמעותי על פני שיטות כוונון עדין קיימות לשימוש בכלי. כוונון עדין דורש לעתים קרובות כמויות גדולות של נתונים שאצורים בקפידה ולעתים קרובות מוביל את המודל לחקות דפוסים קיימים. כשיטת חיסור למידה, Nemotron-Research-Tool-N1, המודל יכול ליצור באופן עצמאי אסטרטגיות חשיבה וגם עוזר להפחית את התלות במערכות נתונים ספציפיות. Nemotron מצטיין בציוני הדרך הקיימים ללא אותם אתגרים ששיטות קיימות סובלות מהם.

מספר ציוני דרך מוכיחים שיפור זה. מדד BFCL מראה ישירות כי מודלי הכלי N1 משפרים את הגישות הקיימות. הוא משפר את מערכות הקוד הפתוח כמו xLAM-2-70B ו- ToolACE-8B, ועולה על מודלים של קוד סגור כמו GPT-40. מדד API-Bank מאמת ממצאים אלה, אשר הוכחו כמגדילים את הדיוק באופן משמעותי בעת שיפור שיחת הכלי במודלי שפה קיימים.

השלכות וכיוונים עתידיים

חוקרים הציגו את Nemotron-Research-Tool-N1, פריצת דרך גדולה בכלי ה- LLM. המחקר מציג שינוי משיטות SFT מסורתיות על ידי יישום שיטת RL מבוססת כללים חדישה. השיטה המוצעת מאפשרת למודלים לגבש טקטיקות חשיבה עדינות, וזאת מבלי שתהיה תלות ספציפית במסלולי חשיבה מאושרים. היכולות של מתודולוגיה זו מותירות רושם באמצעות הערכות התקשורת היעילות שלה על פני BFCL ו- API-Bank. כמו כן, היא מציגה שיפורי ביצועים ניתנים למדידה על פני קווי הבסיס הנוכחיים. זה פותח הזדמנויות למודלים של שפה מנטליים וניתנים להתאמה יותר שיוצרים אסטרטגיות חשיבה בכוחות עצמם.

הממצאים פותחים נתיבים חדשים לפיתוח מודלים של שפה הניתנים להתאמה וחכמים יותר. השימוש במנגנוני תגמול בינאריים ייתן למודלים של שפה את היכולת לבצע ולהיות יעילים יותר ביישומי עולם אמיתי מרובים. Nemotron-Research-Tool-N1 תוביל לחשיבה אוטומטית יותר, אשר תשפר את יכולות השימוש בכלי של מודלים של שפה.

המחקר מציג חזית מחודשת בכלי LLM. היא גם מדגישה כיוונים חדשים של האופן שבו מודלי שפה עתידיים עשויים. התמקדות באוטומציה בחשיבה תהיה חיונית להחזקת מודלים של שפה שיהיו חכמים יותר בעתיד.