Yapay Zeka ve Dijital Ekonomi Guangdong Laboratuvarı (SZ), Shenzhen, Hohai Üniversitesi, Nanjing, Shenzhen Üniversitesi ve Qinghai Üniversitesi, Xining’den araştırmacılar, RWKV-X adlı yeni bir hibrit mimari tanıttılar. Bu mimari, kısa menzilli bağımlılıkları modellemede RWKV’nin verimliliğini, uzun menzilli bağlamı yakalamak için özel olarak tasarlanmış seyrek bir dikkat mekanizmasıyla ustaca birleştiriyor.
Giderek artan uzun ve daha karmaşık dizileri işleme talebi, Büyük Dil Modellerinin (LLM’ler) sınırlarını zorlamıştır. Geleneksel Transformer tabanlı mimariler, güçlü olmalarına rağmen, dizi uzunluğu ile ilgili ikinci dereceden karmaşıklıkları nedeniyle önemli ölçeklendirme sorunlarıyla boğuşmaktadır. Bu sınırlama, özellikle genişletilmiş bağlam girişleriyle uğraşırken belirgin hale gelir ve dizinin uzak kısımlarından gelen bilgileri etkili bir şekilde yakalama ve kullanma yeteneklerini engeller. Bu zorluğa yanıt olarak, uzun dizileri işlemede doğrusal karmaşıklığa ulaşmayı amaçlayan bir dizi yenilikçi yaklaşım ortaya çıkmıştır.
Bu yöntemler arasında Doğrusal Dikkat modelleri, Durum Uzay Modelleri (Mamba gibi), Doğrusal RNN’ler (DeltaNet gibi) ve RWKV yer alır. Bu mimarilerin her biri, uzun dizilerin daha verimli bir şekilde işlenmesini sağlayarak ikinci dereceden karmaşıklık sorununa benzersiz bir çözüm sunar. Bununla birlikte, bu doğrusal mimariler genellikle uzun bağlam bilgilerini tam olarak anlamakta ve kullanmakta zorluklarla karşılaşır.
Örneğin, RWKV-7 (2.9B parametreli bir model), 28K jetona kadar geçiş anahtarı alma görevlerinde yüksek doğruluk gösterir. Ancak, performansı bu eşiğin ötesinde hızla bozulur. 128K uzunluğundaki verilerle sürekli ön eğitimde bile, uzun bağlam sınırlamaları devam eder. Bu sorun RWKV’ye özgü değildir; Mamba gibi diğer mimarilere de uzanır ve bu model sınıfı için temel bir zorluğu temsil eder. Genişletilmiş bağlamlarda performansı koruma mücadelesi, doğrusal karmaşıklık dil modellerinde iyileştirme için önemli bir alanı vurgulamaktadır.
Doğrusal Karmaşıklık Dil Modellerinin Ortamı
Doğrusal karmaşıklık dil modelleri, uzun dizileri işlemede doğal olan ikinci dereceden hesaplama yüklerinden kaçınarak, transformatör tabanlı mimarilere cazip alternatifler olarak ortaya çıkmıştır. Bu alanda öne çıkan RWKV model ailesi, eğitim sırasında transformatörlerin paralelleştirilebilirliğini RNN benzeri yinelemeli bir durum temsiliyle ustaca birleştirir.
RWKV’nin evrimi, temel RWKV-4’ten başlayarak, RWKV-5, RWKV-6’ya ilerleyerek ve RWKV-7 ile sonuçlanarak çeşitli yinelemeleri kapsar. Her yineleme, modelin yeteneklerini geliştiren ve sınırlamaları gideren iyileştirmeler ve geliştirmeler getirmiştir. Ayrıca, Jamba, Zamba ve MiniMax gibi hibrit dil modelleri, benzersiz hibrit tasarımlar sunarak doğrusal karmaşıklık modellerinin ortamını daha da zenginleştirerek izlerini bırakmıştır.
Verimli uzun bağlam işleme arayışı, yenilikçi dikkat mekanizmalarının geliştirilmesine de yol açmıştır. Örneğin, Yerel Seyrek Dikkat, belirteçleri zamansal bloklar halinde düzenler ve üç farklı dikkat yolu kullanır: genel bağlam için sıkıştırılmış kaba taneli belirteçler, yerel ayrıntılar için seçici olarak tutulan ince taneli belirteçler ve yerel bağlamsal bilgileri yakalamak için kayan pencereler. Diğer dikkate değer dikkat mekanizmaları arasında SeerAttention ve Blok Dikkat (MoBA) yer alır ve her biri uzun dizilerdeki ilgili bilgilere dikkat etmek için benzersiz stratejiler sunar.
RWKV-X: Gelişmiş Uzun Menzilli Bağlam Modellemesi için Hibrit Bir Mimari
RWKV-X, RWKV-7 bloklarını seyrek dikkat bloklarıyla entegre eden hibrit bir mimariyi somutlaştırır ve her iki yaklaşımın güçlü yönlerinden yararlanır. RWKV-X, sıfırdan eğitim almak yerine, LLaMA Pro’dan ilham alan aralıklı blok genişletme yaklaşımı ve sıfır başlatma mekanizması kullanarak mevcut modeller üzerine inşa edilir.
Eğitim süreci, modelin hem kısa hem de uzun bağlamlardaki performansını optimize etmek için dikkatlice tasarlanmış iki aşamadan oluşur:
- Kısa bağlam ön eğitimi: Başlangıçta, model MiniPile veri kümesinden çıkarılan kısa 1024 jetonluk bağlamlarda eğitilir. Bu aşamada, yeni eklenen bloklardaki parametreler dışındaki tüm parametreler dondurulur ve temel RWKV-7 modelinden önceden eğitilmiş bilginin korunması sağlanır. Bu, yeni eklenen blokların mevcut mimariye önceden eğitilmiş temsilleri bozmadan uyum sağlamasına olanak tanır.
- Uzun bağlam sürekli ön eğitimi: İkinci aşama, ProLong-64K veri kümesi ve 64K jetonluk bir bağlam uzunluğu kullanılarak uzun bağlam sürekli ön eğitimini içerir ve toplamda yaklaşık 1 milyar jeton işlenir. Bu aşamada, tüm parametrelerin kilidi açılır ve ortaklaşa optimize edilir ve modelin temsillerini ince ayarlamasına ve uzun menzilli bağımlılıkları öğrenmesine olanak tanır. Eğitim, belirteçleri önemlerine göre dinamik olarak ağırlıklandıran Uzun bağlam Çapraz Entropi (LongCE) kaybını kullanır. Bu kayıp işlevi, modelin dizinin en alakalı kısımlarına odaklanmasına yardımcı olarak uzun menzilli ilişkileri yakalama yeteneğini geliştirir.
İki aşamalı eğitim süreci, RWKV-X’in kısa menzilli modelleme için RWKV-7’nin verimliliğini seyrek dikkat mekanizmasının uzun menzilli bağlam farkındalığıyla etkili bir şekilde birleştirmesine olanak tanır. Model, önce kısa bağlamlarda ön eğitim alarak ve ardından uzun bağlamlarda ince ayar yaparak, dizinin farklı kısımlarından gelen bilgileri etkili bir şekilde entegre etmeyi öğrenir.
RWKV-X: Değerlendirme ve Performans
Kısa bağlam değerlendirmesi, RWKV-X’in standart ölçütlerde rekabetçi performans sergilediğini ve daha kısa dizileri etkili bir şekilde işleme yeteneğini gösterdiğini ortaya koymaktadır. Daha küçük RWKV-X (0.22B), RWKV-7’nin 51.8’ine kıyasla ortalama 51.0 puan elde eder. Daha büyük bir ölçekte, RWKV-X (3.6B), LLaMA3.2-3B’yi (69.7) aşarken RWKV-7 (2.9B, 72.8) ve Qwen2.5-3B’ye (71.4) yakından eşleşerek 71.9’a ulaşır. Bu sonuçlar, RWKV-X’in daha kısa bağlamlarda performanstan ödün vermeden genel amaçlı bir LLM omurgası olarak etkinliğini doğrulamaktadır.
Ayrıca, verimlilik analizi, RWKV-X’in uzun diziler için üstün ölçeklendirme özelliklerini göstermektedir. 128K jetonda, RWKV-X, Flash-Attention v3’e göre 1.37 kat hızlanma elde eder ve bu avantaj bağlam uzunluğu arttıkça genişler. Bu, dizi uzunluğu arttıkça RWKV-X’in diğer dikkat mekanizmalarına kıyasla giderek daha verimli hale geldiğini gösterir.
RWKV-X’in hem kısa hem de uzun bağlamlardaki güçlü performansı, bir dil modeli olarak çok yönlülüğünü ve verimliliğini vurgulamaktadır. Daha kısa dizilerde rekabetçi performansı koruma ve daha uzun dizilerde önemli hızlanmalar elde etme yeteneği, onu çok çeşitli uygulamalar için umut verici bir mimari yapmaktadır.
RWKV-X: Sınırlamalar ve Gelecek Yönler
RWKV-X, kısa menzilli bağımlılıkları modelleme için RWKV’nin verimliliğini, özellikle uzun menzilli bağlam modellemesi için tasarlanmış yeni bir seyrek dikkat mekanizmasıyla başarıyla birleştiren hibrit bir dil modeli olarak ortaya çıkmaktadır. RWKV-X, uzun bağlam dil modellemesinde güçlü performans ve verimlilik gösterirken, çeşitli sınırlamalar devam etmektedir.
İlk olarak, en iyi k parça seçimine dayanan seyrek dikkat mekanizması, anlamsal olarak alakalı bağımlılıkları gözden kaçırabilecek sezgisel bir yaklaşım kullanır. En iyi k seçim stratejisi, dizideki en önemli bilgileri her zaman yakalamayabilir ve bu da potansiyel olarak optimal olmayan performansa yol açabilir.
İkincisi, mevcut uygulama seyrek dikkat kod çözme işleminin vanilya RWKV’den daha yavaş çalıştığını göstermektedir, bu da performansı optimize etmek için daha fazla mühendislik çabasına ihtiyaç duyulduğunu göstermektedir. RWKV-X, uzun dizilerde diğer dikkat mekanizmalarına kıyasla önemli hızlanmalar elde ederken, seyrek dikkat kod çözme işlemi hala vanilya RWKV’den daha yavaştır, bu da uygulamasında iyileştirme için alan olduğunu göstermektedir.
Gelecekteki araştırmalar, daha karmaşık seyrek dikkat mekanizmalarını keşfederek, seyrek dikkat kod çözme uygulamasını optimize ederek ve alternatif eğitim stratejilerini araştırarak bu sınırlamaları ele almaya odaklanabilir. Bu zorlukların üstesinden gelerek RWKV-X, uzun bağlam uygulamaları için daha da güçlü ve verimli bir dil modeli olma potansiyeline sahiptir.