Bahasa Model Besar (LLM) menghadapi cabaran yang semakin meningkat dalam memproses urutan yang lebih panjang dan kompleks. Seni bina berasaskan Transformer tradisional, walaupun berkuasa, mengalami isu penskalaan yang ketara disebabkan oleh kerumitan kuadratik berhubung dengan panjang urutan. Batasan ini menjadi sangat jelas apabila berhadapan dengan input konteks yang diperluas, menghalang keupayaan mereka untuk menangkap dan menggunakan maklumat secara berkesan dari bahagian urutan yang jauh. Sebagai tindak balas kepada cabaran ini, gelombang pendekatan inovatif telah muncul, bertujuan untuk mencapai kerumitan linear dalam memproses urutan panjang.
Kaedah ini termasuk model Perhatian Linear, Model Ruang Negeri (seperti Mamba), RNN Linear (seperti DeltaNet), dan RWKV. Setiap seni bina ini menawarkan penyelesaian unik kepada masalah kerumitan kuadratik, membolehkan pemprosesan urutan panjang yang lebih cekap. Walau bagaimanapun, seni bina linear ini sering menghadapi kesukaran dalam memahami sepenuhnya dan memanfaatkan maklumat konteks panjang.
Sebagai contoh, RWKV-7 (model parameter 2.9B) menunjukkan ketepatan yang tinggi dalam tugasan mendapatkan semula kunci laluan sehingga 28K token. Walau bagaimanapun, prestasinya merosot dengan cepat melebihi ambang ini. Walaupun dengan latihan pra berterusan menggunakan data panjang 128K, batasan konteks panjang berterusan. Isu ini bukan unik kepada RWKV; ia meluas kepada seni bina lain seperti Mamba, yang mewakili cabaran asas bagi kelas model ini. Perjuangan untuk mengekalkan prestasi melalui konteks yang diperluas menyoroti bidang penting untuk penambahbaikan dalam model bahasa kerumitan linear.
Landskap Model Bahasa Kerumitan Linear
Model bahasa kerumitan linear telah muncul sebagai alternatif yang menarik kepada seni bina berasaskan transformer, mengelakkan beban pengiraan kuadratik yang wujud dalam memproses urutan panjang. Keluarga model RWKV, yang menonjol dalam domain ini, menggabungkan dengan mahir selarasan transformer semasa latihan dengan perwakilan keadaan berulang seperti RNN.
Evolusi RWKV merangkumi beberapa lelaran, bermula dari RWKV-4 asas, maju ke RWKV-5, RWKV-6, dan memuncak dalam RWKV-7. Setiap lelaran telah membawa penambahbaikan dan peningkatan, meningkatkan keupayaan model dan menangani batasan. Selain itu, model bahasa hibrid seperti Jamba, Zamba dan MiniMax telah membuat tanda mereka dengan memperkenalkan reka bentuk hibrid yang unik, yang seterusnya memperkaya landskap model kerumitan linear.
Pengejaran pemprosesan konteks panjang yang cekap juga telah membawa kepada pembangunan mekanisme perhatian yang inovatif. Perhatian Jarang Asli, sebagai contoh, menyusun token ke dalam blok temporal, menggunakan tiga laluan perhatian yang berbeza: token kasar yang dimampatkan untuk konteks global, token halus yang dikekalkan secara selektif untuk butiran tempatan, dan tetingkap gelongsor untuk menangkap maklumat kontekstual tempatan. Mekanisme perhatian lain yang terkenal termasuk SeerAttention dan Block Attention (MoBA), setiap satunya menawarkan strategi unik untuk memberi perhatian kepada maklumat yang berkaitan dalam urutan panjang.
RWKV-X: Seni Bina Hibrid untuk Pemodelan Konteks Jarak Jauh yang Dipertingkatkan
Penyelidik dari Makmal Guangdong Kecerdasan Buatan dan Ekonomi Digital (SZ), Shenzhen, Universiti Hohai, Nanjing, Universiti Shenzhen, dan Universiti Qinghai, Xining, telah memperkenalkan seni bina hibrid novel yang dipanggil RWKV-X. Seni bina ini menggabungkan dengan bijak kecekapan RWKV dalam memodelkan pergantungan jarak dekat dengan mekanisme perhatian jarang yang direka khusus untuk menangkap konteks jarak jauh.
Tidak seperti pendekatan hibrid sebelumnya, RWKV-X mencapai kerumitan masa linear semasa latihan dan kerumitan masa malar semasa penyahkodan inferens. Ini menjadikannya sangat cekap untuk memproses urutan panjang. Model ini menunjukkan ketepatan hampir sempurna pada penanda aras pengambilan kunci laluan 64K apabila dilatih pra pada urutan 64K-token secara berterusan. Ia secara konsisten mengatasi model RWKV-7 sebelumnya pada penanda aras konteks panjang sambil mengekalkan prestasi yang kukuh pada tugasan konteks pendek.
Inovasi dalam RWKV-X mewakili langkah penting ke hadapan dalam menangani cabaran pemodelan bahasa konteks panjang. Dengan menggabungkan kekuatan model berulang dan mekanisme perhatian jarang, RWKV-X mencapai keseimbangan antara kecekapan dan ketepatan, membuka jalan bagi pemprosesan urutan lanjutan yang lebih berkesan.
RWKV-X: Seni Bina dan Latihan
RWKV-X merangkumi seni bina hibrid, mengintegrasikan blok RWKV-7 dengan blok perhatian jarang untuk memanfaatkan kekuatan kedua-dua pendekatan. Daripada melatih dari awal, RWKV-X dibina berdasarkan model sedia ada menggunakan pendekatan pengembangan blok berselang-seli dan mekanisme permulaan sifar yang diilhamkan oleh LLaMA Pro.
Proses latihan terdiri daripada dua peringkat, yang direka dengan teliti untuk mengoptimumkan prestasi model pada konteks pendek dan panjang:
- Latihan pra konteks pendek: Pada mulanya, model dilatih pada konteks pendek 1024-token yang diekstrak daripada set data MiniPile. Semasa peringkat ini, semua parameter kecuali yang berada di blok yang baru ditambahkan dibekukan, memastikan pengetahuan pra-latihan daripada model RWKV-7 asas dipelihara. Ini membolehkan blok yang baru ditambahkan menyesuaikan diri dengan seni bina sedia ada tanpa mengganggu perwakilan pra-latihan.
- Latihan pra berterusan konteks panjang: Peringkat kedua melibatkan latihan pra berterusan konteks panjang menggunakan set data ProLong-64K dan panjang konteks 64K token, memproses kira-kira 1 bilion token secara keseluruhan. Semasa fasa ini, semua parameter dinyahbekukan dan dioptimumkan bersama, membolehkan model memperhalusi perwakilannya dan mempelajari pergantungan jarak jauh. Latihan menggunakan kehilangan Entropi Silang Konteks Panjang (LongCE), yang menimbang secara dinamik token berdasarkan kepentingannya. Fungsi kehilangan ini membantu model memberi tumpuan kepada bahagian urutan yang paling relevan, meningkatkan keupayaannya untuk menangkap hubungan jarak jauh.
Proses latihan dua peringkat membolehkan RWKV-X menggabungkan dengan berkesan kecekapan RWKV-7 untuk pemodelan jarak dekat dengan kesedaran konteks jarak jauh mekanisme perhatian jarang. Dengan mula-mula melatih pra pada konteks pendek dan kemudian memperhalusi pada konteks panjang, model belajar untuk mengintegrasikan maklumat dengan berkesan dari bahagian urutan yang berbeza.
RWKV-X: Penilaian dan Prestasi
Penilaian Konteks Pendek mendedahkan bahawa RWKV-X mengekalkan prestasi yang kompetitif merentas penanda aras standard, menunjukkan keupayaannya untuk mengendalikan urutan yang lebih pendek dengan berkesan. RWKV-X yang lebih kecil (0.22B) mencapai skor purata 51.0, setanding dengan RWKV-7 51.8. Pada skala yang lebih besar, RWKV-X (3.6B) mencapai 71.9, sepadan rapat dengan RWKV-7 (2.9B, 72.8) dan Qwen2.5-3B (71.4), sambil mengatasi LLaMA3.2-3B (69.7). Keputusan ini mengesahkan keberkesanan RWKV-X sebagai tulang belakang LLM tujuan umum tanpa mengorbankan prestasi pada konteks yang lebih pendek.
Selain itu, analisis kecekapan menunjukkan ciri penskalaan unggul RWKV-X untuk urutan panjang. Pada 128K token, RWKV-X mencapai kelajuan 1.37 kali ganda berbanding Flash-Attention v3, dengan kelebihan ini berkembang apabila panjang konteks meningkat. Ini menunjukkan bahawa RWKV-X menjadi semakin cekap berbanding mekanisme perhatian lain apabila panjang urutan bertambah.
Prestasi kukuh RWKV-X pada konteks pendek dan panjang menyerlahkan kepelbagaian dan kecekapannya sebagai model bahasa. Keupayaannya untuk mengekalkan prestasi yang kompetitif pada urutan yang lebih pendek sambil mencapai kelajuan yang ketara pada urutan yang lebih panjang menjadikannya seni bina yang menjanjikan untuk pelbagai aplikasi.
RWKV-X: Batasan dan Hala Tuju Masa Depan
RWKV-X muncul sebagai model bahasa hibrid yang berjaya menggabungkan kecekapan RWKV untuk memodelkan pergantungan jarak dekat dengan mekanisme perhatian jarang novel yang direka khusus untuk pemodelan konteks jarak jauh. Walaupun RWKV-X menunjukkan prestasi dan kecekapan yang kukuh dalam pemodelan bahasa konteks panjang, beberapa batasan kekal.
Pertama, mekanisme perhatian jarangnya, yang bergantung pada pemilihan cebisan top-k, menggunakan pendekatan heuristik yang mungkin terlepas pergantungan yang berkaitan secara semantik. Strategi pemilihan top-k mungkin tidak selalu menangkap maklumat yang paling penting dalam urutan, yang berpotensi membawa kepada prestasi suboptimal.
Kedua, pelaksanaan semasa menunjukkan penyahkodan perhatian jarang berjalan lebih perlahan daripada RWKV vanila, menunjukkan bahawa usaha kejuruteraan selanjutnya diperlukan untuk mengoptimumkan prestasi. Walaupun RWKV-X mencapai kelajuan yang ketara berbanding mekanisme perhatian lain pada urutan panjang, penyahkodan perhatian jarangnya masih lebih perlahan daripada RWKV vanila, menunjukkan bahawa terdapat ruang untuk penambahbaikan dalam pelaksanaannya.
Penyelidikan masa depan boleh menumpukan pada menangani batasan ini dengan meneroka mekanisme perhatian jarang yang lebih canggih, mengoptimumkan pelaksanaan penyahkodan perhatian jarang, dan menyiasat strategi latihan alternatif. Dengan mengatasi cabaran ini, RWKV-X berpotensi untuk menjadi model bahasa yang lebih berkuasa dan cekap untuk aplikasi konteks panjang.