RWKV-7 'Goose': Arah Baru Model Sekuens Efisien & Kuat

Pergeseran Arus dalam Pemrosesan Sekuens: Melampaui Batasan Transformer

Selama beberapa tahun, domain pemodelan sekuens, khususnya dalam pemrosesan bahasa alami, telah sangat dibentuk oleh keberhasilan arsitektur Transformer autoregresif. Kemampuan luar biasa mereka untuk pembelajaran dalam konteks (in-context learning), ditambah dengan paralelisasi inheren selama fase pelatihan yang difasilitasi oleh mekanisme perhatian softmax (softmax attention), memperkuat posisi mereka sebagai paradigma dominan. Namun, dominasi ini datang dengan biaya yang cukup besar. Mesin komputasi inti, perhatian softmax, menunjukkan perilaku penskalaan kuadratik terkait dengan panjang sekuens input. Karakteristik ini secara langsung diterjemahkan menjadi peningkatan overhead komputasi dan kebutuhan memori yang substansial, menimbulkan hambatan signifikan, terutama ketika berhadapan dengan sekuens ekstensif yang umum dalam aplikasi modern seperti peringkasan dokumen, tanya jawab bentuk panjang, atau analisis genomik.

Meskipun optimasi GPU yang canggih telah berhasil meringankan sebagian tekanan ini untuk panjang sekuens yang lebih pendek selama pelatihan, tahap inferensi – di mana model diterapkan dalam skenario dunia nyata – tetap terkenal boros sumber daya dan mahal, terutama ketika beroperasi dalam skala besar. Sifat kuadratik dari perhatian berarti bahwa menggandakan panjang sekuens akan melipatgandakan upaya komputasi dan jejak memori selama inferensi, membuat penerapan model Transformer yang sangat besar pada konteks panjang menjadi tantangan ekonomi atau secara teknis tidak layak dalam banyak situasi.

Menyadari keterbatasan mendasar ini, para peneliti terus-menerus mengeksplorasi jalur arsitektur alternatif. Arah yang sangat menjanjikan melibatkan peninjauan kembali dan revitalisasi desain jaringan saraf berulang (RNN). Pendekatan RNN modern bertujuan untuk menggabungkan mekanisme state kompresif. State ini merangkum informasi historis yang relevan dari sekuens, memungkinkan model untuk beroperasi dengan kompleksitas komputasi linier relatif terhadap panjang sekuens dan, yang terpenting, mempertahankan penggunaan memori konstan terlepas dari seberapa panjang sekuens tersebut selama inferensi. Karakteristik ini menawarkan keuntungan yang menarik dibandingkan Transformer untuk tugas sekuens panjang. Langkah terbaru di bidang-bidang seperti aproksimasi perhatian linier dan model state-space (SSM) telah menunjukkan potensi yang signifikan. Arsitektur seperti RWKV-4 muncul sebagai contoh penting, menampilkan tingkat kinerja yang kompetitif sambil secara drastis mengurangi beban komputasi yang terkait dengan inferensi, mengisyaratkan jalan ke depan yang layak di luar batasan kuadratik dari perhatian standar.

Memperkenalkan RWKV-7 'Goose': Tolok Ukur Baru dalam Kinerja Arsitektur Berulang

Membangun di atas fondasi ini dan mendorong batas-batas arsitektur berulang, upaya kolaboratif yang melibatkan peneliti dari berbagai institusi, termasuk Proyek RWKV, EleutherAI, Universitas Tsinghua, dan lainnya, telah memuncak dalam pengembangan RWKV-7, dengan nama kode ‘Goose’. Arsitektur pemodelan sekuens baru ini mewakili lompatan signifikan ke depan, menetapkan tolok ukur kinerja state-of-the-art (SoTA) baru, terutama pada skala parameter 3 miliar, di berbagai tugas multibahasa.

Salah satu aspek paling mencolok dari pencapaian RWKV-7 adalah efisiensinya yang luar biasa. Meskipun dilatih pada korpus token yang secara substansial lebih kecil dibandingkan dengan banyak model kontemporer terkemuka, RWKV-7 memberikan kemampuan pemrosesan bahasa Inggris yang sangat kompetitif dengan model sejenisnya yang lebih besar dan lebih haus data. Mungkin yang lebih penting, ia mencapai ini sambil dengan setia mematuhi prinsip-prinsip efisiensi inti RNN canggih: konsumsi memori konstan dan waktu inferensi per token yang konsisten, terlepas dari panjang sekuens yang sedang diproses. Hal ini menjadikan RWKV-7 pilihan yang sangat menarik untuk aplikasi yang menuntut kinerja tinggi dan hemat sumber daya, terutama saat menangani konteks panjang.

Kemajuan yang diwujudkan dalam RWKV-7 berasal dari beberapa inovasi arsitektur utama yang memperluas dan menyempurnakan prinsip-prinsip pendahulunya. Model ini menggabungkan mekanisme state gating bernilai vektor yang canggih, memungkinkan kontrol yang lebih bernuansa atas aliran informasi dalam state berulang. Selanjutnya, ia memperkenalkan tingkat pembelajaran dalam konteks adaptif, memungkinkan model untuk secara dinamis menyesuaikan proses pembelajarannya berdasarkan konteks langsung, berpotensi meningkatkan kemampuannya untuk menangkap dependensi yang kompleks. Mekanisme penggantian nilai yang disempurnakan dalam aturan pembaruan berulang intinya, memperluas konsep aturan delta, semakin meningkatkan ekspresivitas model dan kapasitas untuk pengenalan pola yang rumit.

Peningkatan ini bukan hanya perbaikan empiris; mereka memberkahi RWKV-7 dengan kemampuan teoretis yang melampaui yang sering dikaitkan dengan Transformer standar di bawah asumsi kompleksitas tipikal. Para peneliti memberikan bukti yang menunjukkan bahwa RWKV-7 dapat secara efisien melacak state yang kompleks dan, secara signifikan, mengenali seluruh kelas bahasa reguler, suatu prestasi yang dianggap menantang bagi Transformer vanilla tanpa modifikasi khusus atau penskalaan komputasi yang berpotensi mahal.

Menegaskan komitmen mereka pada sains terbuka dan kemajuan kolaboratif, tim peneliti telah merilis tidak hanya detail arsitektur tetapi juga serangkaian model RWKV-7 yang telah dilatih sebelumnya. Model-model ini mencakup berbagai ukuran, dari 0,19 miliar parameter yang gesit hingga varian 2,9 miliar parameter yang kuat, melayani beragam anggaran komputasi dan kebutuhan aplikasi. Menyertai model-model ini adalah korpus multibahasa 3,1 triliun token yang ekstensif, dijuluki RWKV World v3, yang berperan penting dalam melatih model dan merupakan sumber daya berharga bagi komunitas. Semua kontribusi ini, termasuk bobot model dan basis kode yang mendasarinya, tersedia di bawah lisensi open-source Apache 2.0 yang permisif, mendorong adopsi luas, pengawasan, dan pengembangan lebih lanjut.

Menyelami Arsitektur: Mesin Penggerak RWKV-7

Filosofi desain RWKV-7 dibangun di atas fondasi kokoh yang diletakkan oleh RWKV-6, mewarisi fitur-fitur seperti token-shift untuk pemodelan temporal yang lebih baik, mekanisme bonus untuk perilaku mirip perhatian yang disempurnakan, dan struktur jaringan feedforward ReLU² yang efisien. Namun, iterasi ‘Goose’ memperkenalkan beberapa peningkatan penting yang secara kolektif meningkatkan kemampuannya.

  • State Gating Bernilai Vektor: Berbeda dari gating skalar yang lebih sederhana, RWKV-7 menggunakan gerbang vektor. Ini memungkinkan saluran atau dimensi yang berbeda dalam state berulang untuk diperbarui dan dimodulasi secara independen, memberikan tingkat kontrol yang jauh lebih halus atas bagaimana informasi bertahan atau meluruh dari waktu ke waktu. Granularitas yang meningkat ini meningkatkan kemampuan model untuk mengelola informasi kontekstual yang kompleks dan multi-segi.
  • Tingkat Pembelajaran Dalam Konteks Adaptif: Mekanisme baru memungkinkan ‘tingkat pembelajaran’ internal model untuk asimilasi konteks beradaptasi secara dinamis berdasarkan token yang sedang diproses. Ini menunjukkan model dapat mengintensifkan fokusnya pada informasi baru atau mengejutkan sambil berpotensi mengurangi bobot input yang redundan, yang mengarah pada pembelajaran dan representasi state yang lebih efisien.
  • Formulasi Aturan Delta yang Disempurnakan: Blok pencampuran waktu inti, yang bertanggung jawab untuk mengintegrasikan informasi masa lalu, melihat penyempurnaan signifikan dari aturan delta. Ini melibatkan interaksi rumit antara token yang masuk dan state berulang, menggunakan matriks yang dapat dilatih (ditandai dengan dimensi model D) untuk transformasi canggih. Prosesnya mencakup persiapan bobot menggunakan Multi-Layer Perceptrons (MLP) peringkat rendah untuk efisiensi. Komponen kunci yang mengatur evolusi state meliputi:
    • Kunci Penggantian (Replacement Keys): Menentukan bagian state yang akan diperbarui.
    • Faktor Peluruhan (Decay Factors): Mengontrol seberapa cepat informasi masa lalu memudar.
    • Tingkat Pembelajaran (Learning Rates): Memodulasi intensitas pembaruan berdasarkan input saat ini.
  • Mekanisme Weighted Key-Value (WKV): Mekanisme ini merupakan pusat aproksimasi perhatian linier arsitektur RWKV. Ini memfasilitasi transisi state dinamis berdasarkan interaksi tertimbang antara kunci dan nilai yang berasal dari sekuens input, secara efektif bertindak seperti gerbang lupa (forget gate) canggih yang memungkinkan model untuk secara selektif mempertahankan atau membuang informasi masa lalu berdasarkan relevansi.
  • Peningkatan Ekspresivitas: RWKV-7 menggabungkan modifikasi per-saluran dan menggunakan struktur MLP dua lapis dalam komponen tertentu. Perubahan ini dirancang tidak hanya untuk meningkatkan kekuatan representasi model tetapi juga untuk meningkatkan stabilitas komputasi dan presisi numerik selama pelatihan dan inferensi, sambil dengan hati-hati mempertahankan kemampuan pelacakan state penting yang melekat dalam desain RNN.

Rejimen pelatihan untuk RWKV-7 memanfaatkan korpus RWKV World v3 yang baru dikompilasi. Kumpulan data masif ini, berisi lebih dari 3 triliun token, sengaja dikurasi untuk meningkatkan kemahiran model tidak hanya dalam bahasa Inggris tetapi juga secara signifikan dalam berbagai bahasa lain dan kode pemrograman, mencerminkan kebutuhan yang berkembang untuk model dasar yang benar-benar multibahasa dan sadar kode.

Lebih lanjut, penelitian ini memberikan landasan teoretis untuk kekuatan RWKV-7. Bukti ditawarkan yang menunjukkan kapasitasnya untuk memecahkan masalah yang dianggap di luar jangkauan kelas kompleksitas TC₀, yang mencakup tugas-tugas seperti pelacakan state S₅ (mengelola permutasi 5 elemen) dan pengenalan semua bahasa reguler yang disebutkan sebelumnya. Keunggulan teoretis ini menunjukkan RWKV-7 mungkin menangani jenis tugas terstruktur atau algoritmik tertentu secara lebih alami dan efisien daripada arsitektur Transformer konvensional. Hasil praktis yang menarik dari desain arsitektur adalah proposal jalur peningkatan hemat biaya. Metode ini berpotensi memungkinkan peningkatan model RWKV yang ada untuk menggabungkan perbaikan arsitektur baru tanpa memerlukan siklus pelatihan ulang yang lengkap dan mahal dari awal, memfasilitasi pengembangan model yang lebih gesit dan bertahap.

Mengukur 'Goose': Kinerja di Berbagai Tolok Ukur

Untuk menilai secara ketat kemampuan RWKV-7, model-model tersebut menjalani evaluasi ekstensif menggunakan LM Evaluation Harness yang diadopsi secara luas. Kerangka kerja ini menyediakan serangkaian tolok ukur standar yang mencakup spektrum luas tugas pemahaman dan pembangkitan bahasa. Evaluasi mencakup tolok ukur yang berpusat pada bahasa Inggris dan berbagai tantangan multibahasa.

Hasilnya melukiskan gambaran yang meyakinkan tentang kehebatan RWKV-7. Di berbagai tolok ukur, model RWKV-7 menunjukkan tingkat kinerja yang sangat kompetitif dengan model state-of-the-art yang sudah mapan, termasuk arsitektur berbasis Transformer terkemuka. Hal ini sangat penting mengingat volume token pelatihan yang jauh lebih rendah yang digunakan untuk RWKV-7 dibandingkan dengan banyak pesaingnya. Misalnya, pada tolok ukur MMLU (Massive Multitask Language Understanding) yang menantang, RWKV-7 menunjukkan peningkatan nyata dibandingkan pendahulunya, RWKV-6. Keuntungannya bahkan lebih terasa dalam tugas multibahasa, secara langsung mencerminkan manfaat yang diperoleh dari korpus pelatihan RWKV World v3 yang ekstensif dan beragam.

Di luar tolok ukur akademik standar, evaluasi juga memasukkan penilaian menggunakan data internet terbaru. Tes-tes ini bertujuan untuk mengukur kemampuan model dalam memproses dan bernalar tentang informasi terkini, mengonfirmasi efektivitasnya dalam menangani pengetahuan dan penggunaan bahasa kontemporer.

Kekuatan spesifik yang disorot selama evaluasi meliputi:

  • Ingatan Asosiatif (Associative Recall): Model menunjukkan kapasitas yang kuat untuk mengingat informasi berdasarkan isyarat terkait, kemampuan penting untuk tugas yang melibatkan pengambilan pengetahuan dan penalaran.
  • Desain Arsitektur Mekanistik: Evaluasi secara implisit memvalidasi efektivitas pilihan arsitektur spesifik yang dibuat di RWKV-7, menunjukkan kontribusinya terhadap kinerja keseluruhan.
  • Retensi Konteks Panjang: Sambil mendapat manfaat dari penggunaan memori konstan, model ini juga menunjukkan kemampuan praktis dalam mempertahankan dan memanfaatkan informasi pada panjang sekuens yang diperluas, penting untuk tugas yang memerlukan pemodelan dependensi jarak jauh.

Yang terpenting, pencapaian kinerja direalisasikan dengan efisiensi komputasi yang luar biasa. Meskipun beroperasi di bawah kendala sumber daya pelatihan yang tersedia dibandingkan dengan beberapa raksasa industri, RWKV-7 mencapai skor tolok ukur yang kuat sambil menuntut lebih sedikit Floating Point Operations (FLOPs) selama pelatihan daripada beberapa model Transformer terkemuka dengan ukuran yang sebanding. Ini menggarisbawahi efisiensi parameter dan keunggulan inheren dari desain berulang yang berskala linier. Kombinasi kinerja tingkat SoTA (terutama multibahasa) dan penghematan komputasi yang unggul menempatkan RWKV-7 sebagai alternatif yang kuat dan praktis dalam lanskap pemodelan sekuens.

Menavigasi Rintangan Saat Ini dan Membayangkan Cakrawala Masa Depan

Terlepas dari pencapaiannya yang mengesankan dan keunggulan inherennya, arsitektur RWKV-7, seperti teknologi kompleks lainnya, bukannya tanpa keterbatasan dan area untuk penyempurnaan di masa depan. Para peneliti secara terbuka mengakui beberapa tantangan:

  • Sensitivitas Presisi Numerik: Aspek-aspek tertentu dari komputasi model dapat sensitif terhadap presisi numerik, berpotensi memerlukan implementasi dan penanganan yang cermat, terutama selama pelatihan pada format presisi yang lebih rendah (seperti bfloat16) untuk menjaga stabilitas dan kinerja.
  • Kurangnya Penyetelan Instruksi (Instruction Tuning): Model RWKV-7 yang dirilis, pada saat diperkenalkan, belum menjalani penyetelan instruksi skala besar atau Reinforcement Learning from Human Feedback (RLHF). Ini berarti mereka mungkin kurang mahir dibandingkan rekan-rekan yang telah disesuaikan (fine-tuned) dalam mengikuti instruksi kompleks atau terlibat dalam dialog bernuansa secara zero-shot.
  • Sensitivitas Prompt: Seperti banyak model bahasa besar, kualitas output RWKV-7 terkadang bisa sensitif terhadap ungkapan dan struktur spesifik dari prompt input. Mencapai hasil optimal mungkin memerlukan tingkat rekayasa prompt (prompt engineering).
  • Sumber Daya Komputasi Terbatas: Meskipun efisien relatif terhadap kinerjanya, pengembangan dan pelatihan masih dilakukan di bawah kendala sumber daya dibandingkan dengan kekuatan komputasi besar yang tersedia untuk beberapa laboratorium AI besar. Upaya penskalaan mungkin mengungkapkan tantangan atau peluang baru.

Ke depan, peta jalan pengembangan untuk RWKV mencakup beberapa arah menjanjikan yang bertujuan untuk mengatasi keterbatasan ini dan lebih meningkatkan kemampuan arsitektur. Area fokus utama meliputi:

  • Mengoptimalkan Kecepatan Inferensi: Upaya berkelanjutan untuk mengoptimalkan basis kode dan berpotensi mengeksplorasi implementasi khusus perangkat keras dapat lebih meningkatkan kecepatan inferensi yang sudah menguntungkan, membuat penerapan menjadi lebih praktis.
  • Menggabungkan Penalaran Rantai Pikiran (Chain-of-Thought): Menyelidiki metode untuk memunculkan atau melatih kemampuan penalaran chain-of-thought (CoT) dalam kerangka kerja RWKV dapat secara signifikan meningkatkan kinerjanya pada tugas pemecahan masalah kompleks yang memerlukan deduksi logis multi-langkah.
  • Penskalaan dengan Kumpulan Data dan Ukuran Model yang Lebih Besar: Memanfaatkan arsitektur yang efisien untuk melatih model yang lebih besar pada versi kumpulan data multibahasa yang berpotensi diperluas menjanjikan untuk mendorong batas kinerja lebih jauh.
  • Penyetelan Instruksi dan Penyelarasan: Menerapkan teknik yang sudah mapan untuk mengikuti instruksi dan penyelarasan dengan preferensi manusia akan sangat penting untuk membuat model RWKV lebih ramah pengguna dan dapat dikontrol untuk aplikasi hilir.

Ketersediaan terbuka model RWKV-7, kumpulan data pelatihan ekstensif, dan kode terkait di bawah Lisensi Apache 2.0 berfungsi sebagai katalis kuat untuk keterlibatan komunitas. Ini mendorong penelitian yang lebih luas ke dalam pemodelan sekuens yang efisien, memungkinkan verifikasi hasil secara independen, dan memberdayakan pengembang untuk membangun di atas arsitektur berulang yang inovatif ini, berpotensi mempercepat kemajuan menuju sistem AI yang lebih mampu, dapat diakses, dan berkelanjutan secara komputasi.