درخواست روزافزون برای پردازش دنبالههای طولانیتر و پیچیدهتر، مرزهای مدلهای زبانی بزرگ (LLM) را جابجا کرده است. معماریهای سنتی مبتنی بر ترانسفورمر، علیرغم قدرتشان، با مسائل مقیاسپذیری قابل توجهی دست و پنجه نرم میکنند، زیرا پیچیدگی آنها نسبت به طول دنباله درجه دوم است. این محدودیت به ویژه هنگام برخورد با ورودیهای بافت گسترده آشکار میشود و توانایی آنها را در گرفتن و استفاده مؤثر از اطلاعات از بخشهای دوردست دنباله مختل میکند. در پاسخ به این چالش، موجی از رویکردهای نوآورانه ظهور کردهاند که هدفشان دستیابی به پیچیدگی خطی در پردازش دنبالههای طولانی است.
این روشها شامل مدلهای توجه خطی، مدلهای فضای حالت (مانند Mamba)، RNNهای خطی (مانند DeltaNet) و RWKV هستند. هر یک از این معماریها راه حل منحصر به فردی برای مسئله پیچیدگی درجه دوم ارائه میدهند و پردازش کارآمدتر دنبالههای طولانی را ممکن میسازند. با این حال، این معماریهای خطی اغلب در درک کامل و استفاده از اطلاعات بافت طولانی با مشکل مواجه میشوند.
به عنوان مثال، RWKV-7 (یک مدل پارامتری 2.9B) دقت بالایی در وظایف بازیابی رمز عبور تا 28 هزار توکن نشان میدهد. با این حال، عملکرد آن به سرعت فراتر از این آستانه کاهش مییابد. حتی با پیشآموزش مداوم با استفاده از دادههای با طول 128K، محدودیتهای بافت طولانی همچنان پابرجا هستند. این مسئله منحصر به RWKV نیست. بلکه به سایر معماریها مانند Mamba نیز گسترش مییابد و یک چالش اساسی برای این دسته از مدلها است. تلاش برای حفظ عملکرد در بافتهای گسترده، یک زمینه مهم برای بهبود در مدلهای زبانی با پیچیدگی خطی را برجسته میکند.
چشمانداز مدلهای زبانی با پیچیدگی خطی
مدلهای زبانی با پیچیدگی خطی به عنوان جایگزینهای جذابی برای معماریهای مبتنی بر ترانسفورمر ظاهر شدهاند و از بارهای محاسباتی درجه دوم ذاتی در پردازش دنبالههای طولانی جلوگیری میکنند. خانواده مدل RWKV که در این حوزه برجسته است، با چیرهدستی قابلیت موازیسازی ترانسفورمرها در طول آموزش را با نمایش حالت بازگشتی شبیه به RNN پیوند میدهد.
تکامل RWKV چندین تکرار را در بر میگیرد که از RWKV-4 پایهای شروع میشود و به RWKV-5، RWKV-6 و در نهایت RWKV-7 پیشرفت میکند. هر تکرار اصلاحات و پیشرفتهایی را به ارمغان آورده است، تواناییهای مدل را افزایش داده و محدودیتها را برطرف کرده است. علاوه بر این، مدلهای زبانی ترکیبی مانند Jamba، Zamba و MiniMax با معرفی طرحهای ترکیبی منحصربهفرد، جای خود را باز کردهاند و چشمانداز مدلهای با پیچیدگی خطی را بیشتر غنی کردهاند.
تلاش برای پردازش کارآمد بافت طولانی نیز منجر به توسعه مکانیسمهای توجه نوآورانه شده است. به عنوان مثال، توجه پراکنده بومی، توکنها را به بلوکهای زمانی سازماندهی میکند و از سه مسیر توجه متمایز استفاده میکند: توکنهای فشرده شده با دانه درشت برای بافت جهانی، توکنهای با دانه ریز که به طور انتخابی برای جزئیات محلی حفظ میشوند و پنجرههای کشویی برای گرفتن اطلاعات بافتی محلی. مکانیسمهای توجه قابل توجه دیگر شامل SeerAttention و Block Attention (MoBA) هستند که هر کدام استراتژیهای منحصر به فردی را برای توجه به اطلاعات مرتبط در دنبالههای طولانی ارائه میدهند.
RWKV-X: یک معماری ترکیبی برای مدلسازی پیشرفته بافت دوربرد
محققان آزمایشگاه گوانگدونگ برای هوش مصنوعی و اقتصاد دیجیتال (SZ)، شنژن، دانشگاه هوهای، نانجینگ، دانشگاه شنژن و دانشگاه چینگهای، شینینگ، یک معماری ترکیبی جدید به نام RWKV-X را معرفی کردهاند. این معماری با زیرکی، کارایی RWKV را در مدلسازی وابستگیهای کوتاه برد با یک مکانیسم توجه پراکنده که به طور خاص برای گرفتن بافت دوربرد طراحی شده است، ترکیب میکند.
برخلاف رویکردهای ترکیبی قبلی، RWKV-X در طول آموزش به پیچیدگی زمان خطی و در طول رمزگشایی استنتاج به پیچیدگی زمان ثابت دست مییابد. این امر آن را برای پردازش دنبالههای طولانی فوقالعاده کارآمد میکند. این مدل دقت تقریباً کاملی را در معیار بازیابی رمز عبور 64K هنگام پیشآموزش روی دنبالههای 64K-توکنی به طور مداوم نشان میدهد. به طور مداوم از مدلهای RWKV-7 قبلی در معیارهای بافت طولانی بهتر عمل میکند و در عین حال عملکرد قوی را در وظایف بافت کوتاه حفظ میکند.
نوآوریهای RWKV-X یک گام مهم به جلو در پرداختن به چالشهای مدلسازی زبانی بافت طولانی است. RWKV-X با ترکیب نقاط قوت مدلهای بازگشتی و مکانیسمهای توجه پراکنده، به تعادلی بین کارایی و دقت دست مییابد و راه را برای پردازش مؤثرتر دنبالههای گسترده هموار میکند.
RWKV-X: معماری و آموزش
RWKV-X یک معماری ترکیبی را تجسم میکند که بلوکهای RWKV-7 را با بلوکهای توجه پراکنده ادغام میکند تا از نقاط قوت هر دو رویکرد استفاده کند. RWKV-X به جای آموزش از ابتدا، با استفاده از یک رویکرد انبساط بلوک متناوب و مکانیسم مقداردهی اولیه صفر الهام گرفته از LLaMA Pro، بر روی مدلهای موجود ساخته میشود.
فرایند آموزش از دو مرحله تشکیل شده است که به دقت طراحی شدهاند تا عملکرد مدل را در هر دو بافت کوتاه و بلند بهینه کنند:
- پیشآموزش بافت کوتاه: در ابتدا، مدل بر روی بافتهای کوتاه 1024-توکنی استخراج شده از مجموعه داده MiniPile آموزش داده میشود. در طول این مرحله، همه پارامترها به جز پارامترهای بلوکهای تازه اضافه شده، مسدود میشوند و اطمینان حاصل میشود که دانش از پیش آموزش داده شده از مدل RWKV-7 پایه حفظ شده است. این به بلوکهای تازه اضافه شده اجازه میدهد تا بدون مختل کردن نمایشهای از پیش آموزش داده شده، با معماری موجود سازگار شوند.
- پیشآموزش مداوم بافت طولانی: مرحله دوم شامل پیشآموزش مداوم بافت طولانی با استفاده از مجموعه داده ProLong-64K و طول بافت 64K توکن است که در مجموع تقریباً 1 میلیارد توکن را پردازش میکند. در طول این مرحله، همه پارامترها رفع انسداد شده و به طور مشترک بهینه میشوند و به مدل اجازه میدهند تا نمایشهای خود را تنظیم دقیق کند و وابستگیهای دوربرد را بیاموزد. آموزش از دست دادن آنتروپی متقابل بافت طولانی (LongCE) استفاده میکند که به طور پویا توکنها را بر اساس اهمیتشان وزن میکند. این تابع از دست دادن به مدل کمک میکند تا بر روی مرتبطترین بخشهای دنباله تمرکز کند و توانایی آن را در گرفتن روابط دوربرد بهبود میبخشد.
فرایند آموزش دو مرحلهای به RWKV-X اجازه میدهد تا به طور موثر کارایی RWKV-7 را برای مدلسازی کوتاه برد با آگاهی از بافت دوربرد مکانیسم توجه پراکنده ترکیب کند. مدل با آموزش ابتدا بر روی بافتهای کوتاه و سپس تنظیم دقیق بر روی بافتهای طولانی، یاد میگیرد که به طور موثر اطلاعات را از بخشهای مختلف دنباله ادغام کند.
RWKV-X: ارزیابی و عملکرد
ارزیابی بافت کوتاه نشان میدهد که RWKV-X عملکرد رقابتی را در سراسر معیارهای استاندارد حفظ میکند و توانایی خود را در مدیریت موثر دنبالههای کوتاهتر نشان میدهد. RWKV-X کوچکتر (0.22B) به میانگین امتیاز 51.0 دست مییابد که قابل مقایسه با RWKV-7 با 51.8 است. در مقیاس بزرگتر، RWKV-X (3.6B) به 71.9 میرسد که با RWKV-7 (2.9B، 72.8) و Qwen2.5-3B (71.4) مطابقت دارد و در عین حال از LLaMA3.2-3B (69.7) پیشی میگیرد. این نتایج اثربخشی RWKV-X را به عنوان یک ستون فقرات LLM با هدف عمومی بدون قربانی کردن عملکرد در بافتهای کوتاهتر تأیید میکند.
علاوه بر این، تجزیه و تحلیل کارایی، ویژگیهای مقیاسبندی برتر RWKV-X را برای دنبالههای طولانی نشان میدهد. در 128K توکن، RWKV-X به سرعت 1.37 برابر نسبت به Flash-Attention v3 دست مییابد و با افزایش طول بافت، این مزیت گسترش مییابد. این نشان میدهد که RWKV-X با رشد طول دنباله در مقایسه با سایر مکانیسمهای توجه به طور فزایندهای کارآمد میشود.
عملکرد قوی RWKV-X در هر دو بافت کوتاه و بلند، تطبیقپذیری و کارایی آن را به عنوان یک مدل زبانی برجسته میکند. توانایی آن در حفظ عملکرد رقابتی در دنبالههای کوتاهتر در عین دستیابی به سرعتهای قابل توجه در دنبالههای طولانیتر، آن را به یک معماری امیدوارکننده برای طیف گستردهای از کاربردها تبدیل میکند.
RWKV-X: محدودیتها و جهتگیریهای آینده
RWKV-X به عنوان یک مدل زبانی ترکیبی ظاهر میشود که با موفقیت کارایی RWKV را برای مدلسازی وابستگیهای کوتاه برد با یک مکانیسم توجه پراکنده جدید که به طور خاص برای مدلسازی بافت دوربرد طراحی شده است، ترکیب میکند. در حالی که RWKV-X عملکرد و کارایی قوی را در مدلسازی زبانی بافت طولانی نشان میدهد، چندین محدودیت باقی مانده است.
اول، مکانیسم توجه پراکنده آن که بر انتخاب قطعات برتر-k تکیه دارد، از یک رویکرد اکتشافی استفاده میکند که ممکن است وابستگیهای مرتبط معنایی را نادیده بگیرد. استراتژی انتخاب برتر-k ممکن است همیشه مهمترین اطلاعات را در دنباله به دست نیاورد و به طور بالقوه منجر به عملکرد نامطلوب شود.
دوم، پیادهسازی فعلی نشان میدهد که رمزگشایی توجه پراکنده کندتر از RWKV وانیلی اجرا میشود که نشان میدهد تلاشهای مهندسی بیشتری برای بهینهسازی عملکرد مورد نیاز است. در حالی که RWKV-X در مقایسه با سایر مکانیسمهای توجه در دنبالههای طولانی به سرعتهای قابل توجهی دست مییابد، رمزگشایی توجه پراکنده آن همچنان کندتر از RWKV وانیلی است که نشان میدهد در پیادهسازی آن جای پیشرفت وجود دارد.
تحقیقات آینده میتواند بر روی رفع این محدودیتها با کاوش در مکانیسمهای توجه پراکنده پیچیدهتر، بهینهسازی پیادهسازی رمزگشایی توجه پراکنده و بررسی استراتژیهای آموزش جایگزین تمرکز کند. RWKV-X با غلبه بر این چالشها، این پتانسیل را دارد که به یک مدل زبانی قدرتمندتر و کارآمدتر برای کاربردهای بافت طولانی تبدیل شود.