RWKV-7 'Goose': Haluan Baharu Pemodelan Jujukan Efisien

Peralihan Arus dalam Pemprosesan Jujukan: Melangkaui Batasan Transformer

Selama beberapa tahun, domain pemodelan jujukan, terutamanya dalam pemprosesan bahasa semula jadi, telah sangat dibentuk oleh kejayaan seni bina autoregresif Transformer. Kebolehan luar biasa mereka untuk pembelajaran dalam konteks, ditambah dengan kebolehselarianan yang wujud semasa fasa latihan yang difasilitasi oleh mekanisme perhatian softmax, mengukuhkan kedudukan mereka sebagai paradigma dominan. Walau bagaimanapun, dominasi ini datang dengan kos yang besar. Enjin pengiraan teras, perhatian softmax, menunjukkan tingkah laku penskalaan kuadratik berkaitan dengan panjang jujukan input. Ciri ini diterjemahkan secara langsung kepada peningkatan overhed pengiraan dan keperluan memori yang besar, menimbulkan kesesakan yang ketara, terutamanya apabila berurusan dengan jujukan yang luas yang biasa dalam aplikasi moden seperti peringkasan dokumen, jawapan soalan bentuk panjang, atau analisis genomik.

Walaupun pengoptimuman GPU yang canggih telah berjaya mengurangkan sebahagian daripada tekanan ini untuk panjang jujukan yang lebih pendek semasa latihan, peringkat inferens – di mana model digunakan dalam senario dunia sebenar – kekal terkenal intensif sumber dan mahal, terutamanya apabila beroperasi pada skala besar. Sifat kuadratik perhatian bermakna menggandakan panjang jujukan akan menggandakan empat kali ganda usaha pengiraan dan jejak memori semasa inferens, menjadikan penggunaan model Transformer yang sangat besar pada konteks panjang mencabar dari segi ekonomi atau tidak boleh dilaksanakan secara teknikal dalam banyak situasi.

Menyedari batasan asas ini, para penyelidik terus meneroka laluan seni bina alternatif. Arah yang sangat menjanjikan melibatkan pengkajian semula dan pemulihan reka bentuk rangkaian neural rekuren (RNN). Pendekatan RNN moden bertujuan untuk menggabungkan mekanisme keadaan mampatan. Keadaan ini merangkum maklumat sejarah yang relevan daripada jujukan, membolehkan model beroperasi dengan kerumitan pengiraan linear berbanding panjang jujukan dan, yang penting, mengekalkan penggunaan memori malar tanpa mengira berapa panjang jujukan semasa inferens. Ciri ini menawarkan kelebihan yang menarik berbanding Transformer untuk tugas jujukan panjang. Kemajuan terkini dalam bidang seperti anggaran perhatian linear dan model ruang keadaan (SSM) telah menunjukkan potensi yang signifikan. Seni bina seperti RWKV-4 muncul sebagai contoh yang patut diberi perhatian, mempamerkan tahap prestasi yang kompetitif sambil mengurangkan beban pengiraan yang berkaitan dengan inferens secara drastik, membayangkan laluan ke hadapan yang berdaya maju melangkaui kekangan kuadratik perhatian standard.

Memperkenalkan RWKV-7 ‘Goose’: Penanda Aras Baharu dalam Prestasi Seni Bina Rekuren

Membina di atas asas ini dan menolak sempadan seni bina rekuren, usaha kolaboratif yang melibatkan penyelidik dari pelbagai institusi, termasuk Projek RWKV, EleutherAI, Universiti Tsinghua, dan lain-lain, telah memuncak dalam pembangunan RWKV-7, dengan nama kod ‘Goose’. Seni bina pemodelan jujukan novel ini mewakili lonjakan ketara ke hadapan, menetapkan penanda aras prestasi terkini (SoTA) baharu, terutamanya pada skala parameter 3 bilion, merentasi pelbagai tugas pelbagai bahasa.

Salah satu aspek yang paling menarik dalam pencapaian RWKV-7 ialah kecekapannya yang luar biasa. Walaupun dilatih pada korpus token yang jauh lebih kecil berbanding banyak model kontemporari terkemuka, RWKV-7 memberikan keupayaan pemprosesan bahasa Inggeris yang sangat kompetitif dengan rakan sejawatnya yang lebih besar dan lebih dahagakan data. Mungkin lebih penting lagi, ia mencapai ini sambil mematuhi prinsip kecekapan teras RNN lanjutan: penggunaan memori malar dan masa inferens yang konsisten bagi setiap token, tanpa mengira panjang jujukan yang sedang diproses. Ini menjadikan RWKV-7 pilihan yang sangat menarik untuk aplikasi yang menuntut prestasi tinggi dan penjimatan sumber, terutamanya apabila mengendalikan konteks panjang.

Kemajuan yang terkandung dalam RWKV-7 berpunca daripada beberapa inovasi seni bina utama yang melanjutkan dan memperhalusi prinsip pendahulunya. Model ini menggabungkan mekanisme gating keadaan bernilai vektor yang canggih, membolehkan kawalan yang lebih bernuansa terhadap aliran maklumat dalam keadaan rekuren. Tambahan pula, ia memperkenalkan kadar pembelajaran dalam konteks adaptif, membolehkan model menyesuaikan proses pembelajarannya secara dinamik berdasarkan konteks segera, berpotensi meningkatkan keupayaannya untuk menangkap kebergantungan yang kompleks. Mekanisme penggantian nilai yang diperhalusi dalam peraturan kemas kini rekuren terasnya, melanjutkan konsep peraturan delta, meningkatkan lagi ekspresiviti model dan kapasiti untuk pengecaman corak yang rumit.

Peningkatan ini bukan sekadar penambahbaikan empirikal; ia memberikan RWKV-7 keupayaan teori yang mengatasi keupayaan yang sering dikaitkan dengan Transformer standard di bawah andaian kerumitan biasa. Para penyelidik memberikan bukti yang menunjukkan bahawa RWKV-7 boleh menjejaki keadaan kompleks dengan cekap dan, yang penting, mengenali keseluruhan kelas bahasa biasa, satu pencapaian yang dianggap mencabar bagi Transformer vanila tanpa pengubahsuaian khusus atau penskalaan pengiraan yang berpotensi mahal.

Menegaskan komitmen mereka terhadap sains terbuka dan kemajuan kolaboratif, pasukan penyelidik telah mengeluarkan bukan sahaja butiran seni bina tetapi juga satu set model RWKV-7 pra-latihan. Model-model ini merangkumi pelbagai saiz, daripada 0.19 bilion parameter yang tangkas sehingga varian 2.9 bilion parameter yang berkuasa, memenuhi pelbagai bajet pengiraan dan keperluan aplikasi. Menyertai model-model ini ialah korpus pelbagai bahasa 3.1 trilion token yang luas, digelar RWKV World v3, yang memainkan peranan penting dalam melatih model dan merupakan sumber berharga untuk komuniti. Semua sumbangan ini, termasuk pemberat model dan kod asas, disediakan di bawah lesen sumber terbuka Apache 2.0 yang permisif, memupuk penggunaan meluas, penelitian, dan pembangunan selanjutnya.

Menyelami Seni Bina: Enjin yang Menggerakkan RWKV-7

Falsafah reka bentuk RWKV-7 dibina di atas asas kukuh yang diletakkan oleh RWKV-6, mewarisi ciri-ciri seperti anjakan token untuk pemodelan temporal yang lebih baik, mekanisme bonus untuk tingkah laku seperti perhatian yang diperhalusi, dan struktur rangkaian suapan ke hadapan ReLU² yang cekap. Walau bagaimanapun, lelaran ‘Goose’ memperkenalkan beberapa peningkatan kritikal yang secara kolektif meningkatkan keupayaannya.

  • Gating Keadaan Bernilai Vektor: Berbeza daripada gating skalar yang lebih mudah, RWKV-7 menggunakan get vektor. Ini membolehkan saluran atau dimensi yang berbeza dalam keadaan rekuren dikemas kini dan dimodulasi secara bebas, memberikan tahap kawalan yang jauh lebih halus ke atas bagaimana maklumat berterusan atau mereput dari semasa ke semasa. Granulariti yang meningkat ini meningkatkan keupayaan model untuk mengurus maklumat kontekstual yang kompleks dan pelbagai aspek.
  • Kadar Pembelajaran Dalam Konteks Adaptif: Mekanisme novel membolehkan ‘kadar pembelajaran’ dalaman model untuk asimilasi konteks menyesuaikan diri secara dinamik berdasarkan token yang sedang diproses. Ini menunjukkan model boleh menggiatkan fokusnya pada maklumat baharu atau mengejutkan sambil berpotensi mengurangkan pemberat input berlebihan, membawa kepada pembelajaran dan perwakilan keadaan yang lebih cekap.
  • Formulasi Peraturan Delta yang Diperhalusi: Blok pencampuran masa teras, yang bertanggungjawab untuk mengintegrasikan maklumat masa lalu, menyaksikan penghalusan peraturan delta yang signifikan. Ini melibatkan interaksi rumit antara token masuk dan keadaan rekuren, menggunakan matriks boleh latih (ditandakan dengan dimensi model D) untuk transformasi yang canggih. Proses ini termasuk penyediaan pemberat menggunakan Multi-Layer Perceptrons (MLP) pangkat rendah untuk kecekapan. Komponen utama yang mengawal evolusi keadaan termasuk:
    • Kunci Penggantian: Menentukan bahagian keadaan yang akan dikemas kini.
    • Faktor Pereputan: Mengawal seberapa cepat maklumat masa lalu pudar.
    • Kadar Pembelajaran: Memodulasi keamatan kemas kini berdasarkan input semasa.
  • Mekanisme Weighted Key-Value (WKV): Mekanisme ini adalah pusat kepada anggaran perhatian linear seni bina RWKV. Ia memudahkan peralihan keadaan dinamik berdasarkan interaksi berwajaran antara kunci dan nilai yang diperoleh daripada jujukan input, secara berkesan bertindak seperti get lupa yang canggih yang membolehkan model mengekalkan atau membuang maklumat masa lalu secara terpilih berdasarkan kaitan.
  • Peningkatan Ekspresiviti: RWKV-7 menggabungkan pengubahsuaian setiap saluran dan menggunakan struktur MLP dua lapisan dalam komponen tertentu. Perubahan ini direka bukan sahaja untuk meningkatkan kuasa perwakilan model tetapi juga untuk meningkatkan kestabilan pengiraan dan ketepatan berangka semasa latihan dan inferens, sambil mengekalkan dengan teliti keupayaan penjejakan keadaan penting yang wujud dalam reka bentuk RNN.

Rejimen latihan untuk RWKV-7 memanfaatkan korpus RWKV World v3 yang baru disusun. Set data besar ini, yang mengandungi lebih 3 trilion token, sengaja disusun untuk meningkatkan kecekapan model bukan sahaja dalam bahasa Inggeris tetapi juga secara signifikan dalam pelbagai bahasa lain dan kod pengaturcaraan, mencerminkan keperluan yang semakin meningkat untuk model asas yang benar-benar pelbagai bahasa dan peka kod.

Tambahan pula, penyelidikan ini menyediakan asas teori untuk kuasa RWKV-7. Bukti ditawarkan menunjukkan keupayaannya untuk menyelesaikan masalah yang dianggap di luar jangkauan kelas kerumitan TC₀, yang merangkumi tugas seperti penjejakan keadaan S₅ (menguruskan pilih atur 5 elemen) dan pengecaman semua bahasa biasa yang disebutkan di atas. Kelebihan teori ini menunjukkan RWKV-7 mungkin mengendalikan jenis tugas berstruktur atau algoritma tertentu dengan lebih semula jadi dan cekap berbanding seni bina Transformer konvensional. Hasil praktikal yang menarik daripada reka bentuk seni bina ialah cadangan laluan naik taraf yang kos efektif. Kaedah ini berpotensi membolehkan peningkatan model RWKV sedia ada untuk menggabungkan penambahbaikan seni bina baharu tanpa memerlukan kitaran latihan semula yang lengkap dan mahal dari awal, memudahkan pembangunan model yang lebih tangkas dan berperingkat.

Mengukur ‘Goose’: Prestasi Merentasi Pelbagai Penanda Aras

Untuk menilai keupayaan RWKV-7 secara teliti, model-model tersebut menjalani penilaian meluas menggunakan LM Evaluation Harness yang diterima pakai secara meluas. Rangka kerja ini menyediakan satu set penanda aras standard yang meliputi spektrum luas tugas pemahaman dan penjanaan bahasa. Penilaian merangkumi kedua-dua penanda aras berpusatkan Bahasa Inggeris dan pelbagai cabaran pelbagai bahasa.

Hasilnya memberikan gambaran yang menarik tentang kehebatan RWKV-7. Merentasi banyak penanda aras, model RWKV-7 menunjukkan tahap prestasi yang sangat kompetitif dengan model terkini yang mantap, termasuk seni bina berasaskan Transformer yang terkemuka. Ini amat ketara memandangkan jumlah tokenlatihan yang jauh lebih rendah digunakan untuk RWKV-7 berbanding kebanyakan pesaingnya. Sebagai contoh, pada penanda aras MMLU (Massive Multitask Language Understanding) yang mencabar, RWKV-7 menunjukkan peningkatan yang ketara berbanding pendahulunya, RWKV-6. Keuntungannya lebih ketara dalam tugas pelbagai bahasa, secara langsung mencerminkan faedah yang diperoleh daripada korpus latihan RWKV World v3 yang luas dan pelbagai.

Di luar penanda aras akademik standard, penilaian juga menggabungkan penilaian menggunakan data internet terkini. Ujian ini bertujuan untuk mengukur keupayaan model untuk memproses dan menaakul tentang maklumat terkini, mengesahkan keberkesanannya dalam mengendalikan pengetahuan dan penggunaan bahasa kontemporari.

Kekuatan khusus yang diserlahkan semasa penilaian termasuk:

  • Ingatan Bersekutu: Model ini menunjukkan kapasiti yang kuat untuk mengingat maklumat berdasarkan isyarat berkaitan, keupayaan kritikal untuk tugas yang melibatkan pengambilan pengetahuan dan penaakulan.
  • Reka Bentuk Seni Bina Mekanistik: Penilaian secara tersirat mengesahkan keberkesanan pilihan seni bina khusus yang dibuat dalam RWKV-7, menunjukkan sumbangan mereka kepada prestasi keseluruhan.
  • Pengekalan Konteks Panjang: Walaupun mendapat manfaat daripada penggunaan memori malar, model ini juga mempamerkan keupayaan praktikal dalam mengekalkan dan menggunakan maklumat sepanjang panjang jujukan yang dilanjutkan, penting untuk tugas yang memerlukan pemodelan kebergantungan jarak jauh.

Yang penting, pencapaian prestasi direalisasikan dengan kecekapan pengiraan yang luar biasa. Walaupun beroperasi di bawah kekangan sumber latihan yang tersedia berbanding beberapa gergasi industri, RWKV-7 mencapai skor penanda aras yang kukuh sambil menuntut Operasi Titik Terapung (FLOPs) yang lebih sedikit semasa latihan berbanding beberapa model Transformer terkemuka dengan saiz yang setanding. Ini menekankan kecekapan parameter dan kelebihan yang wujud dalam reka bentuk rekuren penskalaan linearnya. Gabungan prestasi tahap SoTA (terutamanya pelbagai bahasa) dan penjimatan pengiraan yang unggul meletakkan RWKV-7 sebagai alternatif yang berkuasa dan praktikal dalam landskap pemodelan jujukan.

Mengharungi Halangan Semasa dan Membayangkan Horizon Masa Depan

Walaupun pencapaiannya yang mengagumkan dan kelebihan yang wujud, seni bina RWKV-7, seperti mana-mana teknologi kompleks, tidak terlepas daripada batasan dan bidang untuk penambahbaikan masa depan. Para penyelidik secara terbuka mengakui beberapa cabaran:

  • Kepekaan Ketepatan Berangka: Aspek tertentu pengiraan model boleh menjadi sensitif kepada ketepatan berangka, berpotensi memerlukan pelaksanaan dan pengendalian yang teliti, terutamanya semasa latihan pada format ketepatan yang lebih rendah (seperti bfloat16) untuk mengekalkan kestabilan dan prestasi.
  • Kekurangan Penalaan Arahan: Model RWKV-7 yang dikeluarkan, pada masa pengenalannya, belum menjalani penalaan arahan berskala besar atau Pembelajaran Pengukuhan daripada Maklum Balas Manusia (RLHF). Ini bermakna mereka mungkin kurang mahir berbanding rakan sejawat yang ditala halus dalam mengikuti arahan kompleks atau terlibat dalam dialog bernuansa secara zero-shot.
  • Kepekaan Prompt: Seperti kebanyakan model bahasa besar, kualiti output RWKV-7 kadangkala boleh sensitif kepada ungkapan dan struktur khusus prompt input. Mencapai hasil optimum mungkin memerlukan tahap kejuruteraan prompt tertentu.
  • Sumber Pengiraan Terhad: Walaupun cekap berbanding prestasinya, pembangunan dan latihan masih dijalankan di bawah kekangan sumber berbanding kuasa pengiraan yang luas yang tersedia untuk beberapa makmal AI utama. Usaha penskalaan mungkin mendedahkan cabaran atau peluang baharu.

Memandang ke hadapan, pelan hala tuju pembangunan untuk RWKV merangkumi beberapa arah yang menjanjikan yang bertujuan untuk menangani batasan ini dan meningkatkan lagi keupayaan seni bina. Bidang tumpuan utama melibatkan:

  • Mengoptimumkan Kelajuan Inferens: Usaha berterusan untuk mengoptimumkan pangkalan kod dan berpotensi meneroka pelaksanaan khusus perkakasan boleh meningkatkan lagi kelajuan inferens yang sudah berfaedah, menjadikan penggunaan lebih praktikal.
  • Menggabungkan Penaakulan Rantaian Pemikiran: Menyelidik kaedah untuk memperoleh atau melatih keupayaan penaakulan rantaian pemikiran (CoT) dalam rangka kerja RWKV boleh meningkatkan prestasinya dengan ketara pada tugas penyelesaian masalah kompleks yang memerlukan potongan logik berbilang langkah.
  • Penskalaan dengan Set Data dan Saiz Model yang Lebih Besar: Memanfaatkan seni bina yang cekap untuk melatih model yang lebih besar pada versi set data pelbagai bahasa yang berpotensi diperluas menjanjikan untuk menolak sempadan prestasi lebih jauh.
  • Penalaan Arahan dan Penjajaran: Mengaplikasikan teknik yang mantap untuk pematuhan arahan dan penjajaran dengan keutamaan manusia akan menjadi penting untuk menjadikan model RWKV lebih mesra pengguna dan boleh dikawal untuk aplikasi hiliran.

Ketersediaan terbuka model RWKV-7, set data latihan yang luas, dan kod yang berkaitan di bawah Lesen Apache 2.0 berfungsi sebagai pemangkin yang kuat untuk penglibatan komuniti. Ia menggalakkan penyelidikan yang lebih luas ke dalam pemodelan jujukan yang cekap, membolehkan pengesahan keputusan secara bebas, dan memperkasakan pembangun untuk membina di atas seni bina rekuren yang inovatif ini, berpotensi mempercepatkan kemajuan ke arah sistem AI yang lebih berkebolehan, boleh diakses, dan mampan dari segi pengiraan.