Güvenilir Yapay Zeka Eğitimi: RAGEN

Yapay zeka (YZ) ajanlarına yönelik beklenti yıllardır artıyor ve birçok uzman, gelişmiş büyük dil ve çok modlu modeller (LLM’ler) tarafından desteklenen bu görev odaklı YZ uygulamalarının 2025’te gerçekten başlayacağını öngörüyordu. Ancak gerçek şu ki, çoğu YZ ajanı deneysel bir belirsizlik durumunda kalmaya devam ediyor ve araştırma laboratuvarlarından gerçek dünya uygulamalarına geçiş yapmakta zorlanıyor.

Şimdi, Northwestern Üniversitesi, Microsoft, Stanford ve Washington Üniversitesi’ndeki araştırmacılardan oluşan işbirlikçi bir çaba, eski DeepSeek araştırmacısı Zihan Wang da dahil olmak üzere RAGEN adlı yeni bir sistemi tanıttı. Bu yeni çerçeve, YZ ajanlarını eğitmek ve değerlendirmek, onları pratik, kurumsal düzeyde kullanım için daha güvenilir ve dayanıklı hale getirmeyi amaçlamaktadır.

RAGEN, matematik veya kodlama gibi statik sorunlara odaklanan geleneksel YZ görevlerinden farklı olarak, ajanların belirsiz ortamlarda uyum sağlaması, öğrenmesi ve akıl yürütmesi gereken çok turlu, etkileşimli senaryoları ele alır. Bu yaklaşım, gerçek dünya durumlarının karmaşıklıklarının üstesinden gelebilecek YZ geliştirmek için çok önemlidir.

RAGEN’in kalbinde, StarPO (State-Thinking-Actions-Reward Policy Optimization) olarak bilinen özel bir takviyeli öğrenme (RL) çerçevesi yer almaktadır. Bu sistem, LLM’lerin yalnızca ezberlemeye güvenmek yerine deneyim yoluyla nasıl öğrenebileceğini araştırır. StarPO, yalnızca bireysel yanıtları değil, etkileşimlerin tüm yörüngesini dikkate alarak tüm karar verme sürecine odaklanır.

StarPO, eşgüdüm içinde çalışan iki farklı aşama aracılığıyla çalışır. İlk aşama olan rollout aşaması, LLM’nin akıl yürütme tarafından yönlendirilen eksiksiz etkileşim dizileri oluşturmasını içerir. İkinci aşama olan güncelleme aşaması, modeli normalleştirilmiş kümülatif ödüller kullanarak optimize eder. Bu yapı, standart politika optimizasyon yöntemlerine kıyasla daha kararlı ve şeffaf bir öğrenme döngüsü oluşturur.

Araştırmacılar, çerçeveyi Alibaba’nın Qwen modellerinin, özellikle Qwen 1.5 ve Qwen 2.5’in ince ayarlı sürümlerini kullanarak uyguladı ve titizlikle test etti. Bu modeller, açık ağırlıkları ve talimatları etkili bir şekilde takip etme yetenekleri nedeniyle seçildi; bu da çeşitli sembolik görevlerde tekrarlanabilirlik ve tutarlı temel karşılaştırmalara olanak sağladı.

‘Yankı Tuzağı’nın Üstesinden Gelmek: Takviyeli Öğrenme ve Akıl Yürütme Kaybı

Zihan Wang, geniş çapta paylaşılan bir X başlığında temel bir zorluğun altını çizdi: ‘RL eğitiminiz neden her zaman çöküyor?’ Ekibe göre, LLM aracıları başlangıçta iyi gerekçelendirilmiş, sembolik yanıtlar üretiyor. Bununla birlikte, RL sistemleri zamanla kısayolları ödüllendirme eğilimindedir ve bu da sonuçta genel performansı azaltan tekrarlayan davranışlara yol açar. Bu fenomen, ‘Yankı Tuzağı’ olarak adlandırdıkları şeydir.

Bu gerileme, belirli ifadelerin veya stratejilerin erken dönemde yüksek ödüller verdiği geri bildirim döngülerinden kaynaklanır ve bu da aşırı kullanımlarına ve yeni yaklaşımların keşfedilmesini engeller. Wang, bunun ölçülebilir olduğunu ve ölçülebilir ödül varyans uçurumları, gradyan artışları ve akıl yürütme izlerinin kaybolması olduğunu belirtiyor.

Bu davranışları kontrollü bir ortamda incelemek için RAGEN üç sembolik ortam kullanır:

  • Haydut: Bu, sembolik risk-ödül akıl yürütmesini değerlendiren tek turluk, stokastik bir görevdir.
  • Sokoban: Geri döndürülemez kararlar içeren çok turluk, deterministik bir bulmaca.
  • Donmuş Göl: Bu, uyarlanabilir planlama gerektiren stokastik, çok turluk bir görevdir.

Her ortam, gerçek dünya önyargılarını en aza indirmek için titizlikle tasarlanmıştır ve bunun yerine eğitim sırasında ortaya çıkan karar verme stratejilerine odaklanır.

Örneğin, Haydut ortamında, aracı bilgilendirilir, ‘Ejderha’ ve ‘Anka kuşu’ kollarının farklı ödül dağılımlarını temsil ettiği konusunda. Doğrudan olasılıkları sağlamak yerine, aracı sembolik olarak akıl yürütmeli, sonuçları tahmin etmek için ‘Ejderha’yı ‘güç’ ve ‘Anka kuşu’nu ‘umut’ olarak yorumlamalıdır. Bu tür bir kurulum, modelin açıklanabilir, analojik akıl yürütme oluşturmasını teşvik eder.

StarPO-S ile Takviyeli Öğrenmeyi İstikrarlı Hale Getirme

Araştırmacılar, eğitim çöküşü sorununu ele almak için orijinal çerçevenin istikrarlı bir sürümü olan StarPO-S’yi geliştirdi. StarPO-S, üç temel müdahale içerir:

  1. Belirsizlik tabanlı rollout filtreleme: Bu, aracın sonuç hakkında belirsizlik gösterdiği rollout’lara öncelik verir.
  2. KL ceza kaldırma: Modelin orijinal politikasından daha serbestçe sapmasına ve yeni davranışları keşfetmesine izin verme.
  3. Asimetrik PPO kırpma: Bu, öğrenmeyi geliştirmek için yüksek ödüllü yörüngeleri düşük ödüllü olanlardan daha fazla güçlendirir.

Bu ayarlamalar, eğitim çöküşünü geciktirir veya ortadan kaldırır ve bu da üç görevde de iyileşmiş performansa yol açar. Wang’a göre, ‘StarPO-S… 3 görevde de işe yarıyor. Çöküşü rahatlatır. Daha iyi ödül.’

RL eğitiminin başarısı yalnızca mimariye değil, aynı zamanda ajanların kendileri tarafından oluşturulan verilerin kalitesine de bağlıdır. Ekip, eğitimi önemli ölçüde etkileyen üç kritik boyut belirledi:

  • Görev çeşitliliği: Modeli çok çeşitli ilk senaryolara maruz bırakmak, genellemeyi geliştirir.
  • Etkileşim ayrıntısı: Tur başına birden fazla eyleme izin vermek, daha anlamlı planlamayı sağlar.
  • Rollout tazeliği: Eğitim verilerini mevcut model politikasıyla uyumlu tutmak, güncel olmayan öğrenme sinyallerini önler.

Birlikte, bu faktörler daha kararlı ve etkili bir eğitim sürecine katkıda bulunur.

Ajan Düşünce Süreçlerini Ortaya Çıkarma

Araştırmacılar tarafından GitHub’da oluşturulan etkileşimli bir demo sitesi, ajan rollout’larını tam diyalog dönüşleri olarak görsel olarak temsil ederek yalnızca alınan eylemleri değil, aynı zamanda arkasındaki adım adım düşünce sürecini de ortaya çıkarır.

Örneğin, bir matematik problemini çözerken, bir aracı önce ‘x = 5’ gibi bir yanıt göndermeden önce bir değişkeni izole etmeyi ‘düşünebilir’. Bu ara düşünceler görünür ve izlenebilir ve ajanların kararlara nasıl vardığına dair şeffaflık sağlar.

Açık akıl yürütme, Haydut gibi basit, tek turluk görevlerde performansı artırırken, çok turluk eğitim sırasında bozulma eğilimindedir. Yapılandırılmış istemler ve belirteçler kullanılmasına rağmen, akıl yürütme izleri açıkça ödüllendirilmedikçe genellikle küçülür veya kaybolur.

Bu, geleneksel ödül tasarımında bir sınırlamayı vurgular: görev tamamlamaya odaklanmak, sürecin kalitesini gözden kaçırabilir. Ekip, daha iyi yapılandırılmış akıl yürütmeyi teşvik etmek için biçim tabanlı cezalarla deneyler yaptı, ancak daha rafine ödül şekillendirmesinin muhtemelen gerekli olduğunu kabul ediyor.

YZ Ajan Geliştirme için Açık Kaynak Araçları

RAGEN, StarPO ve StarPO-S çerçeveleriyle birlikte artık açık kaynaklı bir proje olarak mevcut. Bu, yalnızca görevleri tamamlamakla kalmayıp aynı zamanda düşünen, planlayan ve gelişen YZ ajanları geliştirmekle ilgilenenler için değerli bir temel sağlar.

YZ daha fazla özerkliğe doğru ilerlerken, RAGEN gibi projeler, modelleri hem verilerden hem de kendi eylemlerinin sonuçlarından öğrenmenin neler gerektirdiğine ışık tutuyor.

Gerçek Dünya Uygulaması için Temel Sorular

RAGEN makalesi ayrıntılı bir teknik çerçeve sağlarken, kurumsal ortamlarda uygulamasını düşünenler için çeşitli pratik sorular kalmaya devam ediyor. Örneğin, RAGEN’in yaklaşımı bu stilize, sembolik görevlerin ötesine ne kadar iyi aktarılıyor? Şirketlerin, bu sistemi fatura işleme veya müşteri desteği gibi iş akışlarında kullanmak için tamamen yeni ortamlar ve ödül fonksiyonları oluşturması gerekir mi?

Bir diğer kritik husus da ölçeklenebilirliktir. StarPO-S tarafından sunulan iyileştirmelerle bile, makale eğitimin daha uzun sürelerde hala çökeltebileceğini kabul ediyor. Bu, açık uçlu veya sürekli gelişen görev dizileri üzerinde akıl yürütmeyi sürdürmek için teorik veya pratik bir yol olup olmadığı sorusunu gündeme getiriyor.

RAGEN, gelecekteki gelişmelere yönelik kavramsal bir çerçeve sunmak için yalnızca teknik katkıların ötesine geçerek, daha özerk, akıl yürütme yeteneğine sahip YZ ajanları yaratmaya yönelik önemli bir adımı temsil ediyor. Kurumsal YZ araç setinin standart bir bileşeni haline gelip gelmeyeceği henüz belli değil, ancak ajan öğrenme dinamikleriyle ilgili içgörüleri şimdiden LLM eğitiminin geleceğini şekillendiriyor.

Bu yeni yöntem, güvenilir ve uyarlanabilir YZ ajanlarına yönelik kritik ihtiyacı ele alarak, gerçek dünya uygulamaları için umut verici bir yol sunuyor. Deneyim yoluyla öğrenmeye ve karar verme yörüngelerini optimize etmeye odaklanarak RAGEN, teorik modeller ile pratik uygulamalar arasındaki boşluğu doldurmaya yardımcı olur. Çerçevenin açık kaynaklı kullanılabilirliği, alandaki yeniliği daha da hızlandırarak araştırmacıları ve geliştiricileri temelleri üzerine inşa etme ve YZ ajan teknolojisinde yeni ufuklar keşfetme olanağı tanıyor.

RAGEN: Güvenilir Yapay Zeka Ajanları Eğitimi İçin Yeni Bir Yaklaşım

Yapay zeka (YZ) ajanları konusundaki beklentiler yıllardır artmakta ve birçok uzman, gelişmiş büyük dil modelleri (LLM’ler) ve çok modlu modellerle desteklenen bu göreve özgü YZ uygulamalarının 2025 yılında gerçek anlamda hayata geçeceğini öngörmektedir. Ancak, gerçek şu ki, çoğu YZ ajanı deneysel bir limbo durumunda kalmaya devam etmekte ve araştırma laboratuvarlarından gerçek dünya uygulamalarına geçiş yapmakta zorlanmaktadır.

Şimdi, Northwestern Üniversitesi, Microsoft, Stanford ve Washington Üniversitesi’ndeki araştırmacılardan oluşan işbirlikçi bir çaba, eski DeepSeek araştırmacısı Zihan Wang’ın da katılımıyla RAGEN adlı yeni bir sistemi tanıttı. Bu yeni çerçeve, YZ ajanlarını eğitmek ve değerlendirmek, onları pratik, kurumsal düzeyde kullanım için daha güvenilir ve dayanıklı hale getirmeyi amaçlamaktadır.

Geleneksel YZ görevleri, matematik veya kodlama gibi statik sorunlara odaklanırken, RAGEN, ajanların belirsiz ortamlarda uyum sağlaması, öğrenmesi ve mantık yürütmesi gereken çok turlu, etkileşimli senaryoları ele almaktadır. Bu yaklaşım, gerçek dünya durumlarının karmaşıklıklarının üstesinden gelebilecek YZ geliştirmek için çok önemlidir.

RAGEN’in kalbinde, StarPO (State-Thinking-Actions-Reward Policy Optimization) olarak bilinen özel bir takviyeli öğrenme (RL) çerçevesi yer almaktadır. Bu sistem, LLM’lerin sadece ezberlemeye güvenmek yerine deneyim yoluyla nasıl öğrenebileceğini araştırmaktadır. StarPO, sadece bireysel yanıtları değil, etkileşimlerin tüm yörüngesini dikkate alarak tüm karar verme sürecine odaklanmaktadır.

StarPO, eşgüdüm içinde çalışaniki farklı aşama aracılığıyla çalışır. İlk aşama olan rollout aşaması, LLM’nin mantık yürütme tarafından yönlendirilen eksiksiz etkileşim dizileri oluşturmasını içerir. İkinci aşama olan güncelleme aşaması, modeli normalleştirilmiş kümülatif ödüller kullanarak optimize eder. Bu yapı, standart politika optimizasyon yöntemlerine kıyasla daha kararlı ve şeffaf bir öğrenme döngüsü oluşturur.

Araştırmacılar, çerçeveyi Alibaba’nın Qwen modellerinin, özellikle Qwen 1.5 ve Qwen 2.5’in ince ayarlı sürümlerini kullanarak uyguladılar ve titizlikle test ettiler. Bu modeller, açık ağırlıkları ve talimatları etkili bir şekilde takip etme yetenekleri nedeniyle seçildi; bu da çeşitli sembolik görevlerde tekrarlanabilirlik ve tutarlı temel karşılaştırmalara olanak sağladı.

‘Yankı Tuzağı’nın Üstesinden Gelmek: Takviyeli Öğrenme ve Mantık Yürütme Kaybı

Zihan Wang, geniş çapta paylaşılan bir X başlığında temel bir zorluğun altını çizdi: ‘RL eğitiminiz neden her zaman çöküyor?’ Ekibe göre, LLM ajanları başlangıçta iyi gerekçelendirilmiş, sembolik yanıtlar üretiyor. Bununla birlikte, RL sistemleri zamanla kısayolları ödüllendirme eğilimindedir ve bu da sonuçta genel performansı azaltan tekrarlayan davranışlara yol açar. Bu fenomen, ‘Yankı Tuzağı’ olarak adlandırdıkları şeydir.

Bu gerileme, belirli ifadelerin veya stratejilerin erken dönemde yüksek ödüller verdiği geri bildirim döngülerinden kaynaklanır ve bu da aşırı kullanımlarına ve yeni yaklaşımların keşfedilmesini engeller. Wang, bunun ölçülebilir olduğunu ve ölçülebilir ödül varyans uçurumları, gradyan artışları ve mantık yürütme izlerinin kaybolması olduğunu belirtiyor.

Bu davranışları kontrollü bir ortamda incelemek için RAGEN üç sembolik ortam kullanır:

  • Haydut: Bu, sembolik risk-ödül mantık yürütmesini değerlendiren tek turluk, stokastik bir görevdir.
  • Sokoban: Geri döndürülemez kararlar içeren çok turluk, deterministik bir bulmaca.
  • Donmuş Göl: Bu, uyarlanabilir planlama gerektiren stokastik, çok turluk bir görevdir.

Her ortam, gerçek dünya önyargılarını en aza indirmek için titizlikle tasarlanmıştır ve bunun yerine eğitim sırasında ortaya çıkan karar verme stratejilerine odaklanır.

Örneğin, Haydut ortamında, aracı bilgilendirilir, ‘Ejderha’ ve ‘Anka kuşu’ kollarının farklı ödül dağılımlarını temsil ettiği konusunda. Doğrudan olasılıkları sağlamak yerine, aracı sembolik olarak mantık yürütmeli, sonuçları tahmin etmek için ‘Ejderha’yı ‘güç’ ve ‘Anka kuşu’nu ‘umut’ olarak yorumlamalıdır. Bu tür bir kurulum, modelin açıklanabilir, analojik mantık yürütme oluşturmasını teşvik eder.

StarPO-S ile Takviyeli Öğrenmeyi İstikrarlı Hale Getirme

Araştırmacılar, eğitim çöküşü sorununu ele almak için orijinal çerçevenin istikrarlı bir sürümü olan StarPO-S’yi geliştirdi. StarPO-S, üç temel müdahale içerir:

  1. Belirsizlik tabanlı rollout filtreleme: Bu, aracın sonuç hakkında belirsizlik gösterdiği rollout’lara öncelik verir.
  2. KL ceza kaldırma: Modelin orijinal politikasından daha serbestçe sapmasına ve yeni davranışları keşfetmesine izin verme.
  3. Asimetrik PPO kırpma: Bu, öğrenmeyi geliştirmek için yüksek ödüllü yörüngeleri düşük ödüllü olanlardan daha fazla güçlendirir.

Bu ayarlamalar, eğitim çöküşünü geciktirir veya ortadan kaldırır ve bu da üç görevde de iyileşmiş performansa yol açar. Wang’a göre, ‘StarPO-S… 3 görevde de işe yarıyor. Çöküşü rahatlatır. Daha iyi ödül.’

RL eğitiminin başarısı yalnızca mimariye değil, aynı zamanda ajanların kendileri tarafından oluşturulan verilerin kalitesine de bağlıdır. Ekip, eğitimi önemli ölçüde etkileyen üç kritik boyut belirledi:

  • Görev çeşitliliği: Modeli çok çeşitli ilk senaryolara maruz bırakmak, genellemeyi geliştirir.
  • Etkileşim ayrıntısı: Tur başına birden fazla eyleme izin vermek, daha anlamlı planlamayı sağlar.
  • Rollout tazeliği: Eğitim verilerini mevcut model politikasıyla uyumlu tutmak, güncel olmayan öğrenme sinyallerini önler.

Birlikte, bu faktörler daha kararlı ve etkili bir eğitim sürecine katkıda bulunur.

Ajan Düşünce Süreçlerini Ortaya Çıkarma

Araştırmacılar tarafından GitHub’da oluşturulan etkileşimli bir demo sitesi, ajan rollout’larını tam diyalog dönüşleri olarak görsel olarak temsil ederek yalnızca alınan eylemleri değil, aynı zamanda arkasındaki adım adım düşünce sürecini de ortaya çıkarır.

Örneğin, bir matematik problemini çözerken, bir aracı önce ‘x = 5’ gibi bir yanıt göndermeden önce bir değişkeni izole etmeyi ‘düşünebilir’. Bu ara düşünceler görünür ve izlenebilir ve ajanların kararlara nasıl vardığına dair şeffaflık sağlar.

Açık mantık yürütme, Haydut gibi basit, tek turluk görevlerde performansı artırırken, çok turluk eğitim sırasında bozulma eğilimindedir. Yapılandırılmış istemler ve belirteçler kullanılmasına rağmen, mantık yürütme izleri açıkça ödüllendirilmedikçe genellikle küçülür veya kaybolur.

Bu, geleneksel ödül tasarımında bir sınırlamayı vurgular: görev tamamlamaya odaklanmak, sürecin kalitesini gözden kaçırabilir. Ekip, daha iyi yapılandırılmış mantık yürütmeyi teşvik etmek için biçim tabanlı cezalarla deneyler yaptı, ancak daha rafine ödül şekillendirmesinin muhtemelen gerekli olduğunu kabul ediyor.

YZ Ajan Geliştirme için Açık Kaynak Araçları

RAGEN, StarPO ve StarPO-S çerçeveleriyle birlikte artık açık kaynaklı bir proje olarak mevcut. Bu, sadece görevleri tamamlamakla kalmayıp aynı zamanda düşünen, planlayan ve gelişen YZ ajanları geliştirmekle ilgilenenler için değerli bir temel sağlar.

YZ daha fazla özerkliğe doğru ilerlerken, RAGEN gibi projeler, modelleri hem verilerden hem de kendi eylemlerinin sonuçlarından öğrenmenin neler gerektirdiğine ışık tutuyor.

Gerçek Dünya Uygulaması için Temel Sorular

RAGEN makalesi ayrıntılı bir teknik çerçeve sağlarken, kurumsal ortamlarda uygulamasını düşünenler için çeşitli pratik sorular kalmaya devam ediyor. Örneğin, RAGEN’in yaklaşımı bu stilize, sembolik görevlerin ötesine ne kadar iyi aktarılıyor? Şirketlerin, bu sistemi fatura işleme veya müşteri desteği gibi iş akışlarında kullanmak için tamamen yeni ortamlar ve ödül fonksiyonları oluşturması gerekir mi?

Bir diğer kritik husus da ölçeklenebilirliktir. StarPO-S tarafından sunulan iyileştirmelerle bile, makale eğitimin daha uzun sürelerde hala çökeltebileceğini kabul ediyor. Bu, açık uçlu veya sürekli gelişen görev dizileri üzerinde mantık yürütmeyi sürdürmek için teorik veya pratik bir yol olup olmadığı sorusunu gündeme getiriyor.

RAGEN, gelecekteki gelişmelere yönelik kavramsal bir çerçeve sunmak için yalnızca teknik katkıların ötesine geçerek, daha özerk, mantık yürütme yeteneğine sahip YZ ajanları yaratmaya yönelik önemli bir adımı temsil ediyor. Kurumsal YZ araç setinin standart bir bileşeni haline gelip gelmeyeceği henüz belli değil, ancak ajan öğrenme dinamikleriyle ilgili içgörüleri şimdiden LLM eğitiminin geleceğini şekillendiriyor.

Bu yeni yöntem, güvenilir ve uyarlanabilir YZ ajanlarına yönelik kritik ihtiyacı ele alarak, gerçek dünya uygulamaları için umut verici bir yol sunuyor. Deneyim yoluyla öğrenmeye ve karar verme yörüngelerini optimize etmeye odaklanarak RAGEN, teorik modeller ile pratik uygulamalar arasındaki boşluğu doldurmaya yardımcı olur. Çerçevenin açık kaynaklı kullanılabilirliği, alandaki yeniliği daha da hızlandırarak araştırmacıları ve geliştiricileri temelleri üzerine inşa etme ve YZ ajan teknolojisinde yeni ufuklar keşfetme olanağı tanıyor.