Mapinduzi ya Matumizi ya Zana za LLM: Nemotron-Tool-N1

Ujumuishaji wa Miundo Mikubwa ya Lugha (LLMs) na zana za nje umeibuka kama mkakati bainishi, ukifungua uwezo ambao haujawahi kushuhudiwa katika wigo mpana wa matumizi. Mbinu za jadi, hata hivyo, hutegemea zaidi uundaji wa seti data kubwa za sintetiki za matukio ya matumizi ya zana, ikifuatiwa na Urekebishaji Bora Uliosimamiwa (SFT) ili kuingiza LLMs na uwezo wa kutumia zana hizi kwa ufanisi. Kizuizi cha msingi cha mbinu hii ni kutokuwa na uwezo wa seti data sintetiki kuwakilisha kwa usahihi michakato tata ya mawazo inayohusika katika matumizi ya zana, na kusababisha ujifunzaji wa juu juu na ukosefu wa uelewa wa kweli. Mara nyingi, hatua muhimu za mawazo ama hazipo kabisa wakati wa mafunzo au huhamishiwa kwenye hitimisho kupitia mbinu za haraka za kina. Hii inaleta jambo la "mawazo bandia," ambapo miundo, badala ya kuelewa mifumo ya msingi ya kufanya maamuzi, huiga tu mifumo ya kiwango cha juu.

Kushughulikia Mapungufu ya Mafunzo ya Jadi ya Matumizi ya Zana

Juhudi zilizopo za utafiti za kuboresha uwezo wa matumizi ya zana za LLMs zimechunguza mbinu anuwai, haswa zikizingatia mikakati miwili muhimu: upangaji wa seti data na uboreshaji wa muundo, na uboreshaji wa mawazo.

Upangaji wa Seti Data na Uboreshaji wa Muundo: Mbinu hii inahusisha uundaji wa seti data kubwa, zinazosimamiwa pamoja na mbinu za juu za mafunzo kama vile SFT na Uboreshaji wa Upendeleo wa Moja kwa Moja (DPO) ujifunzaji wa kuimarisha. LLMs huongezwa na safu tofauti ya zana za nje, pamoja na injini za utafutaji, vikokotoo, zana za kuona na watafsiri wa Python, ili kupanua kwa kiasi kikubwa uwezo wao wa kufanya kazi. Mkakati huu unasisitiza umuhimu wa kuwapa LLMs utajiri wa mifano na kuboresha uwezo wao wa kujumlisha kutoka kwa mifano hii. Changamoto, hata hivyo, iko katika mapungufu ya data sintetiki.

Uboreshaji wa Mawazo: Kutambua mapungufu ya kutegemea tu seti data kubwa, watafiti pia wamezingatia mikakati ya kuboresha uwezo wa mawazo wa LLMs. Hii inahusisha kuhama kutoka kwa kuongeza ukubwa wa muda wa treni wa jadi hadi mikakati ya kisasa zaidi ya kuongeza ukubwa wa muda wa majaribio. Mbinu za awali mara nyingi zilitumika usimamizi wa kiwango cha hatua na kujifunza miundo ya zawadi ili kuongoza njia za mawazo. Mbinu hizi zinalenga kuufichua muundo kwa mchakato wa mawazo wenyewe, kukuza uelewa wa kina wa msingi wa uteuzi na matumizi ya zana.

Nemotron-Tool-N1: Mabadiliko ya Paradigimu katika Matumizi ya Zana za LLM

Watafiti katika NVIDIA, Chuo Kikuu cha Jimbo la Pennsylvania, na Chuo Kikuu cha Washington wameanzisha mfululizo wa Nemotron-Research-Tool-N1, mbinu bunifu iliyoundwa kushinda mapungufu ya mbinu zilizopo za matumizi ya zana. Tofauti na mbinu za jadi za SFT na urekebishaji wa mawazo, Nemotron-Research-Tool-N1 hutumia dhana ya kipekee ya ujifunzaji wa kuimarisha (RL). Imeongozwa na mafanikio ya DeepSeek-R1, mbinu hii hutumia mbinu nyepesi ya usimamizi ambayo inazingatia kutathmini uhalali wa kimuundo na usahihi wa utendaji kazi wa miito ya zana. Muundo wa Nemotron-Research-Tool-N1 hutumia utaratibu wa zawadi ya binary ambayo inaruhusu muundo kuendeleza kwa uhuru mikakati ya mawazo bila kutegemea njia za mawazo zilizoelezewa wazi.

Mbinu hii inawakilisha kuondoka muhimu kutoka kwa mbinu za kawaida, ikitoa uwezekano wa uwezo wa matumizi ya zana thabiti na inayoweza kujumlishwa zaidi. Kwa kuzingatia usahihi wa miito ya zana badala ya kuamuru hatua za mawazo kwa uwazi, muundo unahimizwa kuchunguza na kujifunza mikakati bora ya mawazo peke yake.

Uandaaji wa Data na Usanifu wa Muundo

Watafiti waliunganisha na kuchakata data kutoka kwa seti data zilizopo za kupiga zana, pamoja na xLAM na sehemu ndogo ya ToolACE, ambazo hutoa njia sintetiki za kupiga zana za zamu moja na zamu nyingi. Ili kuongoza uzalishaji wa simu za zana, kiolezo chepesi cha kuhamasisha kiliundwa, kikiwa na maagizo ya wazi ya mawazo ya kati ndani ya <think>…</think> lebo na uvuvio wa zana iliyoambatanishwa na <tool_call>…</tool_call> lebo. Kiolezo hiki kimeundwa ili kupunguza vizuizi vikali vya uumbizaji na kupunguza hatari ya kuzidi mifumo maalum ya haraka.

Muundo msingi wa msingi uliotumiwa katika utafiti huu ni Qwen2.5-7B/14B-Instruct. Ili kutathmini uwezo wa jumla wa mbinu iliyopendekezwa, tathmini pia zilifanywa kwa miundo mbadala ya msingi, pamoja na lahaja nyingi kutoka kwa familia ya LLaMA. Tathmini hii madhubuti katika usanifu tofauti wa muundo inahakikisha uimara na matumizi ya mbinu ya Nemotron-Tool-N1.

Utendaji wa Kulinganisha: BFCL na API-Bank

Ufanisi wa Nemotron-Research-Tool-N1 ulitathminiwa kikamilifu kwa kutumia vipimo vya BFCL na API-Bank. Matokeo yanaonyesha utendakazi bora wa miundo ya Nemotron-Research-Tool-N1 ikilinganishwa na mbinu zilizopo.

Kigezo cha BFCL: Kwenye kigezo cha BFCL, miundo ya Tool-N1-7B/14B ilionyesha utendaji unaozidi ule wa miundo iliyofungwa kama vile GPT-4o na miundo maalum iliyorekebishwa vizuri kama vile xLAM-2-70B na ToolACE-8B. Zaidi ya hayo, miundo ilizidi msingi wa SFT iliyoandaliwa kwenye vyanzo sawa vya data, ikisisitiza ufanisi wa mbinu ya RL ya mtindo wa R1 iliyoajiriwa katika Nemotron-Research-Tool-N1. Kigezo hiki kinaangazia uwezo wa miundo kubadilika katika matukio ambayo yanahitaji mawazo changamano na matumizi ya zana. Kipimo cha BFCL (Big Five Command Lines) huzingatia kutathmini uwezo wa LLM kuelewa na kutekeleza maagizo changamano ya mstari wa amri, na kuhitaji kiwango cha juu cha mawazo na matumizi ya zana.

Kigezo cha API-Bank: Kigezo cha API-Bank kiliidhinisha zaidi matokeo haya, huku Tool-N1-7B/14B ikifikia usahihi wa 4.12% na 5.03% kuliko GPT-4o. Kigezo hiki kinatathmini ustadi wa LLM katika kutumia API mbalimbali (Miingiliano ya Programu ya Maombi) kutekeleza kazi maalum. Maboresho yaliyopatikana na Nemotron-Research-Tool-N1 kwenye kigezo hiki yanasisitiza uwezekano wa mbinu katika kuimarisha uwezo wa miundo mikuu ya lugha kupiga zana kupitia dhana mpya ya ujifunzaji wa kuimarisha.

Maboresho madhubuti katika viwango vyote viwili yanaonyesha ufanisi wa mbinu ya Nemotron-Research-Tool-N1 katika kuboresha uwezo wa matumizi ya zana za LLMs. Kwa kuzingatia mbinu ya RL inayotegemea sheria na kuwezesha modeli kuendeleza mikakati yao ya kufikiri, Nemotron-Research-Tool-N1 inafungua uwezekano wa miundo ya lugha inayoweza kubadilika na akili zaidi.

Ubunifu Mkuu wa Nemotron-Tool-N1

Mchango mkuu wa Nemotron-Research-Tool-N1 unatokana na mbinu yake riwaya ya kuimarisha matumizi ya zana katika LLMs. Badala ya kutegemea mbinu za kawaida za SFT, inaunganisha mfumo wa kipekee wa RL unaotegemea sheria. Msingi mkuu wa usanifu wake ni utaratibu wa zawadi ya binary unaozingatia kutathmini uhalali wa kimuundo na usahihi wa utendaji kazi wa miito ya zana. Mbinu hii inaruhusu muundo kuunda kwa uhuru mikakati ya kufikiri bila kuhitaji njia za kufikiri ambazo zimeandikwa kwa uangalifu mapema.

Faida za Nemotron-Research-Tool-N1 ni nyingi. Data ya mafunzo kwa matumizi ya zana kwa kawaida haijumuishi mawazo ya wazi. Mfumo wa zawadi huimarisha uwezo wa modeli kwa kutafuta kwa kujitegemea uhusiano kati ya zana na tatizo lililopo. RL pia husaidia kuboresha ujumlishaji kwa kuwa muundo lazima uendane na hali tofauti.

Nemotron-Research-Tool-N1 hutoa kiolezo thabiti cha kuunganisha mawazo ndani ya lebo maalum (fikiria na /fikiria). Hii pia ni kweli kwa kupiga zana (tool_call na /tool_call). Kwa kufanya hivyo, Nemotron-Research-Tool-N1 inapunguza hatari kutoka kwa muundo unaoshikamana sana na mchoro wa haraka.

Uwezo wa kupiga zana kwa mafanikio hutathminiwa kwenye vigezo viwili, ambayo huangazia uwezo wa Nemotron-Research-Tool-N1:

  • Mistari Mikuu Mitano ya Amri (BFCL): BFCL inasisitiza hitaji la LLMs kuelewa na kutekeleza maagizo ngumu ya mstari wa amri. Nemotron-Research-Tool-N1 ina uwezo bora katika eneo hili kupitia mbinu zake za kujifunza kwa kuimarisha.
  • Kigezo cha API-Bank: Kigezo cha API-Bank kilithibitisha matokeo haya. Muundo ulikuwa na kiwango cha usahihi cha 4.12% na 5.03% kuliko kile cha GPT-4o.

Uchambuzi Linganishi na Mbinu Zilizopo

Nemotron-Research-Tool-N1 inaonyesha uboreshaji mkubwa juu ya mbinu zilizopo za urekebishaji bora kwa matumizi ya zana. Urekebishaji mzuri mara nyingi huhitaji kiasi kikubwa cha data iliyoratibiwa kwa uangalifu na mara nyingi husababisha mtindo kuiga mifumo iliyopo. Kama njia ya kujifunza kwa kuimarisha, Nemotron-Research-Tool-N1, muundo unaweza kutoa kwa kujitegemea mikakati ya kufikiri na pia husaidia kupunguza utegemezi wa seti data maalum. Nemotron hufanya vizuri zaidi kuliko vigezo vilivyopo bila changamoto sawa ambazo mbinu zilizopo hukumbana nazo.

Vigezo kadhaa vinathibitisha uboreshaji huu. Kigezo cha BFCL kinaonyesha moja kwa moja kwamba modeli za zana-N1 huboresha mbinu zilizopo. Inaboresha mifumo ya chanzo huria kama vile xLAM-2-70B na ToolACE-8B, na hufanya vizuri zaidi kuliko miundo iliyofungwa kama vile GPT-4o. Kigezo cha API-Bank kinathibitisha matokeo haya, ambayo yameonyeshwa kuongeza usahihi kwa kiasi kikubwa wakati wa kuboresha upigaji simu wa zana kwenye miundo ya lugha iliyopo.

Maana na Mielekeo ya Baadaye

Watafiti walianzisha Nemotron-Research-Tool-N1, mafanikio makubwa katika zana za LLM. Utafiti unaonyesha mabadiliko mbali na mbinu za jadi za SFT kwa kutumia njia ya RL ya msingi wa sheria. Njia iliyopendekezwa inawezesha miundo kuunda mbinu ndogo za kufikiri, zote bila kutegemea hasa njia za kufikiri zilizoandikwa. Uwezo wa mbinu hii unaonyeshwa kupitia tathmini zake za ufanisi za vipimo vya BFCL na API-Bank. Pia, inaonyesha maboresho ya utendaji yanayopimika juu ya misingi ya sasa. Hii inafungua fursa kwa miundo ya lugha inayoweza kubadilika na akili zaidi ambayo huunda mikakati ya kufikiri peke yao.

Matokeo yanafungua njia mpya za kukuza miundo ya lugha ambayo inaweza kubadilika na akili zaidi. Matumizi ya mifumo ya malipo ya binary itatoa miundo ya lugha uwezo wa kufanya na kuwa na ufanisi zaidi katika matumizi mengi ya ulimwengu halisi. Nemotron-Research-Tool-N1 itasababisha kufikiri kiotomatiki zaidi, ambayo itaboresha uwezo wa matumizi ya zana za miundo ya lugha.

Utafiti unaonyesha dhana mpya katika zana za LLM. Pia inaangazia mwelekeo mpya wa jinsi miundo ya lugha ya siku zijazo inavyotengenezwa. Kuzingatia otomatiki ya kufikiri itakuwa muhimu katika kuwa na miundo ya lugha ambayo itakuwa akili zaidi katika siku zijazo.