Büyük Dil Modellerinin (LLM’ler) harici araçlarla entegrasyonu, çeşitli uygulama alanlarında benzeri görülmemiş yeteneklerin kilidini açan dönüştürücü bir strateji olarak ortaya çıkmıştır. Bununla birlikte, geleneksel metodolojiler, ağırlıklı olarak araç kullanım senaryolarının kapsamlı sentetik veri kümelerinin oluşturulmasına ve ardından LLM’leri bu araçları etkili bir şekilde kullanma yeteneği ile aşılamak için Denetimli İnce Ayar (SFT) yapılmasına dayanır. Bu yaklaşımın temel bir sınırlaması, sentetik veri kümelerinin araç kullanımında yer alan karmaşık akıl yürütme süreçlerini doğru bir şekilde temsil edememesi ve bunun da yüzeysel öğrenmeye ve gerçek bir anlayış eksikliğine yol açmasıdır. Çoğu zaman, temel akıl yürütme adımları eğitim sırasında ya tamamen yoktur ya da ayrıntılı istem teknikleri aracılığıyla çıkarıma indirgenir. Bu, temeldeki karar verme mekanizmalarını anlamak yerine modellerin yalnızca yüzey düzeyindeki kalıpları taklit ettiği bir “sözde akıl yürütme” fenomeni oluşturur.
Geleneksel Araç Kullanımı Eğitiminin Sınırlamalarını Ele Alma
LLM’lerin araç kullanma yeteneklerini geliştirmeye yönelik mevcut araştırma çabaları, öncelikle iki ana stratejiye odaklanan çeşitli yaklaşımları araştırmıştır: veri kümesi kürasyonu ve model iyileştirme ve akıl yürütme geliştirme.
Veri Kümesi Kürasyonu ve Model İyileştirme: Bu yaklaşım, geniş ölçekli, denetimli veri kümelerinin oluşturulmasını ve SFT ve DPO (Doğrudan Tercih Optimizasyonu) takviye öğrenimi gibi gelişmiş eğitim teknikleriyle birleştirilmesini içerir. LLM’ler, işlevsel yeteneklerini önemli ölçüde genişletmek için arama motorları, hesap makineleri, vizyon araçları ve Python yorumlayıcıları dahil olmak üzere çeşitli harici araçlarla zenginleştirilmiştir. Bu strateji, LLM’lere zengin örnekler sunmanın ve bu örneklerden genelleme yapma yeteneklerini geliştirmenin önemini vurgular. Bununla birlikte, zorluk sentetik verilerin sınırlamalarında yatmaktadır.
Akıl Yürütme Geliştirme: Yalnızca büyük ölçekli veri kümelerine güvenmenin eksikliklerini fark eden araştırmacılar, LLM’lerin akıl yürütme yeteneklerini geliştirmeye yönelik stratejilere de odaklanmışlardır. Bu, geleneksel eğitim zamanı ölçeklendirmeden daha karmaşık test zamanı ölçeklendirme stratejilerine geçmeyi içerir. Önceki yöntemler genellikle adım düzeyi denetime ve akıl yürütme yörüngelerine rehberlik etmek için öğrenilmiş ödül modellerine dayanıyordu. Bu yöntemler, modeli akıl yürütme sürecinin kendisine maruz bırakmayı, araç seçimi ve kullanımının arkasındaki mantığı daha derinlemesine anlamayı amaçlar.
Nemotron-Tool-N1: LLM Araç Kullanımında Paradigma Değişimi
NVIDIA, Pennsylvania Eyalet Üniversitesi ve Washington Üniversitesi’ndeki araştırmacılar, mevcut araç kullanma yöntemlerinin sınırlamalarının üstesinden gelmek için tasarlanmış yenilikçi bir yaklaşım olan Nemotron-Research-Tool-N1 serisini tanıttılar. Geleneksel SFT ve akıl yürütme izi damıtma tekniklerinden farklı olarak, Nemotron-Research-Tool-N1 benzersiz bir takviye öğrenimi (RL) paradigması kullanır. DeepSeek-R1’in başarısından esinlenen bu yaklaşım, araç çağrılarının yapısal geçerliliğini ve işlevsel doğruluğunu değerlendirmeye odaklanan hafif bir denetim yöntemi kullanır. Nemotron-Research-Tool-N1 modeli, modelin önceden açıklanmış akıl yürütme yörüngelerine güvenmeden otonom olarak akıl yürütme stratejileri geliştirmesini sağlayan ikili bir ödül mekanizmasından yararlanır.
Bu yaklaşım, geleneksel metodolojilerden önemli bir sapmayı temsil ederek, daha sağlam ve genellenebilir araç kullanma yetenekleri için potansiyel sunar. Akıl yürütme adımlarını açıkça dikte etmek yerine araç çağrılarının doğruluğuna odaklanarak modelin kendi başına optimum akıl yürütme stratejilerini keşfetmesi ve öğrenmesi teşvik edilir.
Veri Hazırlama ve Model Mimarisi
Araştırmacılar, hem tek dönüşlü hem de çok dönüşlü sentetik araç çağırma yörüngeleri sağlayan xLAM ve ToolACE’in bir alt kümesi dahil olmak üzere mevcut araç çağırma veri kümelerinden verileri birleştirdi ve önceden işledi. Araç çağrısı oluşturmaya rehberlik etmek için, <think>…</think>
etiketleri içinde ara akıl yürütme ve <tool_call>…</tool_call>
etiketleri içinde araç çağrısı için açık talimatlar içeren hafif bir istem şablonu oluşturuldu. Bu şablon, katı biçimlendirme kısıtlamalarını en aza indirmek ve belirli istem kalıplarına aşırı uyum riskini azaltmak için tasarlanmıştır.
Bu araştırmada kullanılan birincil temel model, Qwen2.5-7B/14B-Instruct’tır. Önerilen yöntemin genelleme yeteneğini değerlendirmek için, LLaMA ailesinden birden fazla varyant dahil olmak üzere alternatif temel modeller üzerinde de değerlendirmeler yapılmıştır. Farklı model mimarilerinde yapılan bu titiz değerlendirme, Nemotron-Tool-N1 yaklaşımının sağlamlığını ve uygulanabilirliğini sağlar.
Performans Kıyaslama: BFCL ve API-Bank
Nemotron-Research-Tool-N1’in etkinliği, BFCL ve API-Bank kıyaslamaları kullanılarak titizlikle değerlendirildi. Sonuçlar, Nemotron-Research-Tool-N1 modellerinin mevcut yaklaşımlara kıyasla üstün performansını göstermektedir.
BFCL Kıyaslama: BFCL kıyaslamasında, Tool-N1-7B/14B modelleri, GPT-4o gibi kapalı kaynaklı modellerin ve xLAM-2-70B ve ToolACE-8B gibi özel ince ayarlı modellerin performansını aştı. Ayrıca, modeller Nemotron-Research-Tool-N1’de kullanılan R1 tarzı RL yaklaşımının etkinliğini vurgulayarak, özdeş veri kaynakları üzerinde eğitilmiş SFT temellerinden daha iyi performans gösterdi. Bu kıyaslama, modelin karmaşık akıl yürütme ve araç kullanımı gerektiren senaryolara adapte olma yeteneğini vurgulamaktadır. BFCL (Big Five Command Lines) kıyaslaması, LLM’lerin karmaşık komut satırı talimatlarını anlama ve yürütme yeteneğini değerlendirmeye odaklanır ve yüksek derecede akıl yürütme ve araç kullanımı gerektirir.
API-Bank Kıyaslama: API-Bank kıyaslaması, Tool-N1-7B/14B’nin GPT-4o’dan %4,12 ve %5,03 daha yüksek doğruluk elde etmesiyle bu bulguları daha da doğruladı. Bu kıyaslama, LLM’nin belirli görevleri gerçekleştirmek için çeşitli API’leri (Uygulama Programlama Arayüzleri) kullanma yeterliliğini değerlendirir. Nemotron-Research-Tool-N1 tarafından bu kıyaslamada elde edilen iyileştirmeler, büyük dil modellerinin araç çağırma yeteneklerini yeni bir takviye öğrenimi paradigması aracılığıyla geliştirme yönteminin potansiyelinin altını çizmektedir.
Her iki kıyaslamadaki tutarlı iyileştirmeler, Nemotron-Research-Tool-N1 yaklaşımının LLM’lerin araç kullanma yeteneklerini geliştirmedeki etkinliğini göstermektedir. Kural tabanlı bir RL yaklaşımına odaklanarak ve modellerin kendi akıl yürütme stratejilerini geliştirmelerini sağlayarak Nemotron-Research-Tool-N1, daha uyarlanabilir ve akıllı dil modelleri için potansiyelin kilidini açar.
Nemotron-Tool-N1’in Temel Yenilikleri
Nemotron-Research-Tool-N1’in ana katkısı, LLM’lerde araç kullanımını geliştirmeye yönelik yeni yaklaşımından gelmektedir. Standart SFT yöntemlerine güvenmek yerine, benzersiz, kural tabanlı bir RL çerçevesi entegre eder. Mimarinin temel taşı, araç çağrılarının yapısal geçerliliğini ve işlevsel doğruluğunu değerlendirmeye odaklanan ikili bir ödül mekanizmasıdır. Bu yaklaşım, modelin önceden dikkatlice açıklanmış akıl yürütme yörüngelerine ihtiyaç duymadan bağımsız olarak akıl yürütme stratejileri oluşturmasını sağlar.
Nemotron-Research-Tool-N1’in avantajları çok yönlüdür. Araç kullanımı için eğitim verileri genellikle açık akıl yürütme içermez. Ödül sistemi, modelin araç ile eldeki sorun arasındaki ilişkiyi bağımsız olarak bularak modellerin yeteneklerini geliştirir. RL ayrıca modelin değişen koşullara uyum sağlaması gerektiğinden genellenebilirliği artırmaya yardımcı olur.
Nemotron-Research-Tool-N1, akıl yürütmeyi özel etiketler (düşün ve /düşün) içinde entegre etmek için sağlam bir şablon sağlar. Bu, araçları çağırmak için de geçerlidir (tool_call ve /tool_call). Bunu yaparak, Nemotron-Research-Tool-N1, modelin istemin modeline aşırı uyum sağlamasından kaynaklanan riskleri azaltır.
Araçları başarılı bir şekilde çağırma yeteneği, Nemotron-Research-Tool-N1’in yeteneklerini vurgulayan iki kıyaslama üzerinde değerlendirilir:
- Big Five Command Lines (BFCL): BFCL, LLM’lerin karmaşık komut satırı talimatlarını anlaması ve uygulaması ihtiyacını vurgular. Nemotron-Research-Tool-N1, takviye öğrenimi yöntemleriyle bu alanda öne çıkmaktadır.
- API-Bank Kıyaslama: API-Bank kıyaslaması bu sonuçları doğruladı. Model, GPT-4o’dan %4,12 ve %5,03 daha yüksek doğruluk oranına sahipti.
Mevcut Yaklaşımlarla Karşılaştırmalı Analiz
Nemotron-Research-Tool-N1, araç kullanımı için mevcut ince ayar yöntemlerine göre önemli bir gelişme göstermektedir. İnce ayar genellikle büyük miktarda dikkatlice seçilmiş veri gerektirir ve genellikle modelin mevcut kalıpları taklit etmesine yol açar. Bir takviye öğrenimi yöntemi olan Nemotron-Research-Tool-N1 olarak model, bağımsız olarak akıl yürütme stratejileri oluşturabilir ve ayrıca belirli veri kümelerine olan bağımlılığı azaltmaya yardımcı olur. Nemotron, mevcut yöntemlerin karşılaştığı aynı zorluklar olmadan mevcut kıyaslamalardan daha iyi performans gösterir.
Çeşitli kıyaslamalar bu iyileştirmeyi kanıtlamaktadır. BFCL kıyaslaması, tool-N1 modellerinin mevcut yaklaşımları geliştirdiğini doğrudan göstermektedir. Hem xLAM-2-70B ve ToolACE-8B gibi açık kaynak sistemlerini geliştirir hem de GPT-4o gibi kapalı kaynak modellerinden daha iyi performans gösterir. API-Bank kıyaslaması bu bulguları doğrular ve mevcut dil modellerinde araç çağrısını iyileştirirken doğruluğu önemli ölçüde artırdığı gösterilmiştir.
Etkileri ve Gelecek Yönelimleri
Araştırmacılar, LLM araçlarında büyük bir atılım olan Nemotron-Research-Tool-N1’i tanıttı. Araştırma, en son teknolojiye sahip kural tabanlı bir RL yöntemi uygulayarak geleneksel SFT metodolojilerinden bir değişimi göstermektedir. Önerilen yöntem, modellerin açıklanmış akıl yürütme yörüngelerine özellikle bağlı kalmadan ince akıl yürütme taktikleri formüle etmesini sağlar. Bu metodolojinin yetenekleri, BFCL ve API-Bank genelindeki etkili kıyaslama değerlendirmeleri aracılığıyla gösterilmektedir. Ayrıca, mevcut temellere göre ölçülebilir performans iyileştirmeleri göstermektedir. Bu, kendi başlarına akıl yürütme stratejileri oluşturan daha uyarlanabilir ve akıllı dil modelleri için fırsatlar yaratır.
Bulgular, daha uyarlanabilir ve akıllı dil modelleri geliştirmenin yeni yollarının kilidini açmaktadır. İkili ödül mekanizmalarının kullanılması, dil modellerine birden fazla gerçek dünya uygulamasında performans gösterme yeteneği verecek ve daha etkili olacaktır. Nemotron-Research-Tool-N1, dil modellerinin araç kullanma yeteneklerini geliştirecek daha otomatik akıl yürütmeye yol açacaktır.
Araştırma, LLM araçlarında yeni bir paradigmayı sergiliyor. Ayrıca, gelecekteki dil modellerinin nasıl yapıldığına dair yeni yönleri de vurgulamaktadır. Akıl yürütmede otomasyona odaklanmak, gelecekte daha akıllı olacak dil modellerine sahip olmada çok önemli olacaktır.