Model bahasa besar (LLM) terus dituntut untuk memproses urutan yang lebih panjang dan kompleks. Arsitektur berbasis Transformer tradisional, meskipun kuat, menghadapi masalah penskalaan yang signifikan karena kompleksitas kuadratiknya terkait dengan panjang urutan. Keterbatasan ini menjadi sangat jelas ketika berhadapan dengan input konteks yang diperluas, menghambat kemampuan mereka untuk secara efektif menangkap dan memanfaatkan informasi dari bagian urutan yang jauh. Menanggapi tantangan ini, gelombang pendekatan inovatif telah muncul, bertujuan untuk mencapai kompleksitas linier dalam memproses urutan panjang.
Metode ini mencakup model Linear Attention, Model State Space (seperti Mamba), Linear RNN (seperti DeltaNet), dan RWKV. Setiap arsitektur ini menawarkan solusi unik untuk masalah kompleksitas kuadratik, memungkinkan pemrosesan urutan panjang yang lebih efisien. Namun, arsitektur linier ini sering menemui kesulitan dalam sepenuhnya memahami dan memanfaatkan informasi konteks panjang.
Misalnya, RWKV-7 (model parameter 2.9B) menunjukkan akurasi tinggi dalam tugas pengambilan passkey hingga 28K token. Namun, kinerjanya menurun dengan cepat di luar ambang batas ini. Bahkan dengan pelatihan berkelanjutan menggunakan data sepanjang 128K, batasan konteks panjang tetap ada. Masalah ini tidak unik untuk RWKV; itu meluas ke arsitektur lain seperti Mamba, yang mewakili tantangan mendasar untuk kelas model ini. Perjuangan untuk mempertahankan kinerja pada konteks yang diperluas menyoroti area penting untuk peningkatan dalam model bahasa kompleksitas linier.
Lanskap Model Bahasa Kompleksitas Linier
Model bahasa kompleksitas linier telah muncul sebagai alternatif yang menarik untuk arsitektur berbasis transformer, menghindari beban komputasi kuadratik yang melekat dalam memproses urutan panjang. Keluarga model RWKV, yang menonjol dalam domain ini, dengan ahli menggabungkan paralelalisasi transformer selama pelatihan dengan representasi keadaan rekuren seperti RNN.
Evolusi RWKV mencakup beberapa iterasi, mulai dari RWKV-4 dasar, berkembang ke RWKV-5, RWKV-6, dan berpuncak pada RWKV-7. Setiap iterasi telah membawa penyempurnaan dan peningkatan, meningkatkan kemampuan model dan mengatasi keterbatasan. Selain itu, model bahasa hibrida seperti Jamba, Zamba, dan MiniMax, telah membuat tanda mereka dengan memperkenalkan desain hibrida yang unik, semakin memperkaya lanskap model kompleksitas linier.
Pencarian pemrosesan konteks panjang yang efisien juga telah menyebabkan pengembangan mekanisme perhatian inovatif. Native Sparse Attention, misalnya, mengatur token ke dalam blok temporal, menggunakan tiga jalur perhatian yang berbeda: token berbutir kasar terkompresi untuk konteks global, token berbutir halus yang dipertahankan secara selektif untuk detail lokal, dan jendela geser untuk menangkap informasi kontekstual lokal. Mekanisme perhatian penting lainnya termasuk SeerAttention dan Block Attention (MoBA), masing-masing menawarkan strategi unik untuk memperhatikan informasi yang relevan dalam urutan panjang.
RWKV-X: Arsitektur Hibrida untuk Pemodelan Konteks Jarak Jauh yang Ditingkatkan
Para peneliti dari Guangdong Laboratory of Artificial Intelligence and Digital Economy (SZ), Shenzhen, Hohai University, Nanjing, Shenzhen University, dan Qinghai University, Xining, telah memperkenalkan arsitektur hibrida baru yang disebut RWKV-X. Arsitektur ini dengan cerdik menggabungkan efisiensi RWKV dalam memodelkan dependensi jarak pendek dengan mekanisme perhatian jarang yang dirancang khusus untuk menangkap konteks jarak jauh.
Tidak seperti pendekatan hibrida sebelumnya, RWKV-X mencapai kompleksitas waktu linier selama pelatihan dan kompleksitas waktu konstan selama dekode inferensi. Ini membuatnya sangat efisien untuk memproses urutan panjang. Model ini menunjukkan akurasi yang hampir sempurna pada tolok ukur pengambilan passkey 64K ketika dilatih sebelumnya pada urutan 64K token secara terus menerus. Ia secara konsisten mengungguli model RWKV-7 sebelumnya pada tolok ukur konteks panjang sambil mempertahankan kinerja yang kuat pada tugas konteks pendek.
Inovasi dalam RWKV-X mewakili langkah maju yang signifikan dalam mengatasi tantangan pemodelan bahasa konteks panjang. Dengan menggabungkan kekuatan model rekuren dan mekanisme perhatian jarang, RWKV-X mencapai keseimbangan antara efisiensi dan akurasi, membuka jalan bagi pemrosesan urutan yang diperluas yang lebih efektif.
RWKV-X: Arsitektur dan Pelatihan
RWKV-X mewujudkan arsitektur hibrida, mengintegrasikan blok RWKV-7 dengan blok perhatian jarang untuk memanfaatkan kekuatan kedua pendekatan. Alih-alih melatih dari awal, RWKV-X dibangun di atas model yang ada menggunakan pendekatan ekspansi blok yang diselingi dan mekanisme inisialisasi nol yang terinspirasi oleh LLaMA Pro.
Proses pelatihan terdiri dari dua tahap, yang dirancang dengan hati-hati untuk mengoptimalkan kinerja model pada konteks pendek dan panjang:
- Pelatihan awal konteks pendek: Awalnya, model dilatih pada konteks pendek 1024 token yang diekstraksi dari dataset MiniPile. Selama tahap ini, semua parameter kecuali yang ada di blok yang baru ditambahkan dibekukan, memastikan bahwa pengetahuan yang telah dilatih sebelumnya dari model RWKV-7 dasar dipertahankan. Ini memungkinkan blok yang baru ditambahkan untuk beradaptasi dengan arsitektur yang ada tanpa mengganggu representasi yang telah dilatih sebelumnya.
- Pelatihan berkelanjutan konteks panjang: Tahap kedua melibatkan pelatihan berkelanjutan konteks panjang menggunakan dataset ProLong-64K dan panjang konteks 64K token, memproses sekitar 1 miliar token secara total. Selama fase ini, semua parameter tidak dibekukan dan dioptimalkan bersama, memungkinkan model untuk menyempurnakan representasinya dan mempelajari dependensi jarak jauh. Pelatihan menggunakan kerugian Long-context Cross-Entropy (LongCE), yang secara dinamis menimbang token berdasarkan kepentingannya. Fungsi kerugian ini membantu model fokus pada bagian urutan yang paling relevan, meningkatkan kemampuannya untuk menangkap hubungan jarak jauh.
Proses pelatihan dua tahap memungkinkan RWKV-X untuk secara efektif menggabungkan efisiensi RWKV-7 untuk pemodelan jarak pendek dengan kesadaran konteks jarak jauh dari mekanisme perhatian jarang. Dengan pertama-tama melatih awal pada konteks pendek dan kemudian menyempurnakan pada konteks panjang, model belajar untuk secara efektif mengintegrasikan informasi dari bagian urutan yang berbeda.
RWKV-X: Evaluasi dan Kinerja
Evaluasi konteks pendek mengungkapkan bahwa RWKV-X mempertahankan kinerja kompetitif di seluruh tolok ukur standar, menunjukkan kemampuannya untuk menangani urutan yang lebih pendek secara efektif. RWKV-X yang lebih kecil (0.22B) mencapai skor rata-rata 51.0, sebanding dengan 51.8 RWKV-7. Pada skala yang lebih besar, RWKV-X (3.6B) mencapai 71.9, sangat cocok dengan RWKV-7 (2.9B, 72.8) dan Qwen2.5-3B (71.4), sambil melampaui LLaMA3.2-3B (69.7). Hasil ini mengkonfirmasi efektivitas RWKV-X sebagai tulang punggung LLM tujuan umum tanpa mengorbankan kinerja pada konteks yang lebih pendek.
Selain itu, analisis efisiensi menunjukkan karakteristik penskalaan superior RWKV-X untuk urutan panjang. Pada 128K token, RWKV-X mencapai kecepatan 1.37 kali lipat dibandingkan Flash-Attention v3, dengan keuntungan ini berkembang seiring dengan bertambahnya panjang konteks. Ini menunjukkan bahwa RWKV-X menjadi semakin efisien dibandingkan dengan mekanisme perhatian lainnya seiring dengan bertambahnya panjang urutan.
Kinerja kuat RWKV-X pada konteks pendek dan panjang menyoroti keserbagunaan dan efisiensinya sebagai model bahasa. Kemampuannya untuk mempertahankan kinerja kompetitif pada urutan yang lebih pendek sambil mencapai kecepatan yang signifikan pada urutan yang lebih panjang menjadikannya arsitektur yang menjanjikan untuk berbagai aplikasi.
RWKV-X: Keterbatasan dan Arah Masa Depan
RWKV-X muncul sebagai model bahasa hibrida yang berhasil menggabungkan efisiensi RWKV untuk memodelkan dependensi jarak pendek dengan mekanisme perhatian jarang baru yang dirancang khusus untuk pemodelan konteks jarak jauh. Meskipun RWKV-X menunjukkan kinerja dan efisiensi yang kuat dalam pemodelan bahasa konteks panjang, beberapa keterbatasan tetap ada.
Pertama, mekanisme perhatian jarangnya, yang bergantung pada pemilihan potongan top-k, menggunakan pendekatan heuristik yang mungkin mengabaikan dependensi yang relevan secara semantik. Strategi pemilihan top-k mungkin tidak selalu menangkap informasi yang paling penting dalam urutan, yang berpotensi menyebabkan kinerja yang kurang optimal.
Kedua, implementasi saat ini menunjukkan dekode perhatian jarang berjalan lebih lambat daripada RWKV vanilla, menunjukkan bahwa upaya rekayasa lebih lanjut diperlukan untuk mengoptimalkan kinerja. Sementara RWKV-X mencapai kecepatan yang signifikan dibandingkan dengan mekanisme perhatian lainnya pada urutan panjang, dekode perhatian jarangnya masih lebih lambat daripada RWKV vanilla, menunjukkan bahwa ada ruang untuk perbaikan dalam implementasinya.
Penelitian di masa depan dapat fokus pada mengatasi keterbatasan ini dengan mengeksplorasi mekanisme perhatian jarang yang lebih canggih, mengoptimalkan implementasi dekode perhatian jarang, dan menyelidiki strategi pelatihan alternatif. Dengan mengatasi tantangan ini, RWKV-X berpotensi menjadi model bahasa yang lebih kuat dan efisien untuk aplikasi konteks panjang.