RWKV-X: معماری نوین برای مدل‌سازی زبان با بافت طولانی

درخواست روزافزون برای پردازش دنباله‌های طولانی‌تر و پیچیده‌تر، مرزهای مدل‌های زبانی بزرگ (LLM) را جابجا کرده است. معماری‌های سنتی مبتنی بر ترانسفورمر، علی‌رغم قدرتشان، با مسائل مقیاس‌پذیری قابل توجهی دست و پنجه نرم می‌کنند، زیرا پیچیدگی آنها نسبت به طول دنباله درجه دوم است. این محدودیت به ویژه هنگام برخورد با ورودی‌های بافت گسترده آشکار می‌شود و توانایی آنها را در گرفتن و استفاده مؤثر از اطلاعات از بخش‌های دوردست دنباله مختل می‌کند. در پاسخ به این چالش، موجی از رویکردهای نوآورانه ظهور کرده‌اند که هدفشان دستیابی به پیچیدگی خطی در پردازش دنباله‌های طولانی است.

این روش‌ها شامل مدل‌های توجه خطی، مدل‌های فضای حالت (مانند Mamba)، RNNهای خطی (مانند DeltaNet) و RWKV هستند. هر یک از این معماری‌ها راه حل منحصر به فردی برای مسئله پیچیدگی درجه دوم ارائه می‌دهند و پردازش کارآمدتر دنباله‌های طولانی را ممکن می‌سازند. با این حال، این معماری‌های خطی اغلب در درک کامل و استفاده از اطلاعات بافت طولانی با مشکل مواجه می‌شوند.

به عنوان مثال، RWKV-7 (یک مدل پارامتری 2.9B) دقت بالایی در وظایف بازیابی رمز عبور تا 28 هزار توکن نشان می‌دهد. با این حال، عملکرد آن به سرعت فراتر از این آستانه کاهش می‌یابد. حتی با پیش‌آموزش مداوم با استفاده از داده‌های با طول 128K، محدودیت‌های بافت طولانی همچنان پابرجا هستند. این مسئله منحصر به RWKV نیست. بلکه به سایر معماری‌ها مانند Mamba نیز گسترش می‌یابد و یک چالش اساسی برای این دسته از مدل‌ها است. تلاش برای حفظ عملکرد در بافت‌های گسترده، یک زمینه مهم برای بهبود در مدل‌های زبانی با پیچیدگی خطی را برجسته می‌کند.

چشم‌انداز مدل‌های زبانی با پیچیدگی خطی

مدل‌های زبانی با پیچیدگی خطی به عنوان جایگزین‌های جذابی برای معماری‌های مبتنی بر ترانسفورمر ظاهر شده‌اند و از بارهای محاسباتی درجه دوم ذاتی در پردازش دنباله‌های طولانی جلوگیری می‌کنند. خانواده مدل RWKV که در این حوزه برجسته است، با چیره‌دستی قابلیت موازی‌سازی ترانسفورمرها در طول آموزش را با نمایش حالت بازگشتی شبیه به RNN پیوند می‌دهد.

تکامل RWKV چندین تکرار را در بر می‌گیرد که از RWKV-4 پایه‌ای شروع می‌شود و به RWKV-5، RWKV-6 و در نهایت RWKV-7 پیشرفت می‌کند. هر تکرار اصلاحات و پیشرفت‌هایی را به ارمغان آورده است، توانایی‌های مدل را افزایش داده و محدودیت‌ها را برطرف کرده است. علاوه بر این، مدل‌های زبانی ترکیبی مانند Jamba، Zamba و MiniMax با معرفی طرح‌های ترکیبی منحصربه‌فرد، جای خود را باز کرده‌اند و چشم‌انداز مدل‌های با پیچیدگی خطی را بیشتر غنی کرده‌اند.

تلاش برای پردازش کارآمد بافت طولانی نیز منجر به توسعه مکانیسم‌های توجه نوآورانه شده است. به عنوان مثال، توجه پراکنده بومی، توکن‌ها را به بلوک‌های زمانی سازماندهی می‌کند و از سه مسیر توجه متمایز استفاده می‌کند: توکن‌های فشرده شده با دانه درشت برای بافت جهانی، توکن‌های با دانه ریز که به طور انتخابی برای جزئیات محلی حفظ می‌شوند و پنجره‌های کشویی برای گرفتن اطلاعات بافتی محلی. مکانیسم‌های توجه قابل توجه دیگر شامل SeerAttention و Block Attention (MoBA) هستند که هر کدام استراتژی‌های منحصر به فردی را برای توجه به اطلاعات مرتبط در دنباله‌های طولانی ارائه می‌دهند.

RWKV-X: یک معماری ترکیبی برای مدل‌سازی پیشرفته بافت دوربرد

محققان آزمایشگاه گوانگدونگ برای هوش مصنوعی و اقتصاد دیجیتال (SZ)، شنژن، دانشگاه هوهای، نانجینگ، دانشگاه شنژن و دانشگاه چینگهای، شینینگ، یک معماری ترکیبی جدید به نام RWKV-X را معرفی کرده‌اند. این معماری با زیرکی، کارایی RWKV را در مدل‌سازی وابستگی‌های کوتاه برد با یک مکانیسم توجه پراکنده که به طور خاص برای گرفتن بافت دوربرد طراحی شده است، ترکیب می‌کند.

برخلاف رویکردهای ترکیبی قبلی، RWKV-X در طول آموزش به پیچیدگی زمان خطی و در طول رمزگشایی استنتاج به پیچیدگی زمان ثابت دست می‌یابد. این امر آن را برای پردازش دنباله‌های طولانی فوق‌العاده کارآمد می‌کند. این مدل دقت تقریباً کاملی را در معیار بازیابی رمز عبور 64K هنگام پیش‌آموزش روی دنباله‌های 64K-توکنی به طور مداوم نشان می‌دهد. به طور مداوم از مدل‌های RWKV-7 قبلی در معیارهای بافت طولانی بهتر عمل می‌کند و در عین حال عملکرد قوی را در وظایف بافت کوتاه حفظ می‌کند.

نوآوری‌های RWKV-X یک گام مهم به جلو در پرداختن به چالش‌های مدل‌سازی زبانی بافت طولانی است. RWKV-X با ترکیب نقاط قوت مدل‌های بازگشتی و مکانیسم‌های توجه پراکنده، به تعادلی بین کارایی و دقت دست می‌یابد و راه را برای پردازش مؤثرتر دنباله‌های گسترده هموار می‌کند.

RWKV-X: معماری و آموزش

RWKV-X یک معماری ترکیبی را تجسم می‌کند که بلوک‌های RWKV-7 را با بلوک‌های توجه پراکنده ادغام می‌کند تا از نقاط قوت هر دو رویکرد استفاده کند. RWKV-X به جای آموزش از ابتدا، با استفاده از یک رویکرد انبساط بلوک متناوب و مکانیسم مقداردهی اولیه صفر الهام گرفته از LLaMA Pro، بر روی مدل‌های موجود ساخته می‌شود.

فرایند آموزش از دو مرحله تشکیل شده است که به دقت طراحی شده‌اند تا عملکرد مدل را در هر دو بافت کوتاه و بلند بهینه کنند:

  • پیش‌آموزش بافت کوتاه: در ابتدا، مدل بر روی بافت‌های کوتاه 1024-توکنی استخراج شده از مجموعه داده MiniPile آموزش داده می‌شود. در طول این مرحله، همه پارامترها به جز پارامترهای بلوک‌های تازه اضافه شده، مسدود می‌شوند و اطمینان حاصل می‌شود که دانش از پیش آموزش داده شده از مدل RWKV-7 پایه حفظ شده است. این به بلوک‌های تازه اضافه شده اجازه می‌دهد تا بدون مختل کردن نمایش‌های از پیش آموزش داده شده، با معماری موجود سازگار شوند.
  • پیش‌آموزش مداوم بافت طولانی: مرحله دوم شامل پیش‌آموزش مداوم بافت طولانی با استفاده از مجموعه داده ProLong-64K و طول بافت 64K توکن است که در مجموع تقریباً 1 میلیارد توکن را پردازش می‌کند. در طول این مرحله، همه پارامترها رفع انسداد شده و به طور مشترک بهینه می‌شوند و به مدل اجازه می‌دهند تا نمایش‌های خود را تنظیم دقیق کند و وابستگی‌های دوربرد را بیاموزد. آموزش از دست دادن آنتروپی متقابل بافت طولانی (LongCE) استفاده می‌کند که به طور پویا توکن‌ها را بر اساس اهمیتشان وزن می‌کند. این تابع از دست دادن به مدل کمک می‌کند تا بر روی مرتبط‌ترین بخش‌های دنباله تمرکز کند و توانایی آن را در گرفتن روابط دوربرد بهبود می‌بخشد.

فرایند آموزش دو مرحله‌ای به RWKV-X اجازه می‌دهد تا به طور موثر کارایی RWKV-7 را برای مدل‌سازی کوتاه برد با آگاهی از بافت دوربرد مکانیسم توجه پراکنده ترکیب کند. مدل با آموزش ابتدا بر روی بافت‌های کوتاه و سپس تنظیم دقیق بر روی بافت‌های طولانی، یاد می‌گیرد که به طور موثر اطلاعات را از بخش‌های مختلف دنباله ادغام کند.

RWKV-X: ارزیابی و عملکرد

ارزیابی بافت کوتاه نشان می‌دهد که RWKV-X عملکرد رقابتی را در سراسر معیارهای استاندارد حفظ می‌کند و توانایی خود را در مدیریت موثر دنباله‌های کوتاه‌تر نشان می‌دهد. RWKV-X کوچکتر (0.22B) به میانگین امتیاز 51.0 دست می‌یابد که قابل مقایسه با RWKV-7 با 51.8 است. در مقیاس بزرگتر، RWKV-X (3.6B) به 71.9 می‌رسد که با RWKV-7 (2.9B، 72.8) و Qwen2.5-3B (71.4) مطابقت دارد و در عین حال از LLaMA3.2-3B (69.7) پیشی می‌گیرد. این نتایج اثربخشی RWKV-X را به عنوان یک ستون فقرات LLM با هدف عمومی بدون قربانی کردن عملکرد در بافت‌های کوتاه‌تر تأیید می‌کند.

علاوه بر این، تجزیه و تحلیل کارایی، ویژگی‌های مقیاس‌بندی برتر RWKV-X را برای دنباله‌های طولانی نشان می‌دهد. در 128K توکن، RWKV-X به سرعت 1.37 برابر نسبت به Flash-Attention v3 دست می‌یابد و با افزایش طول بافت، این مزیت گسترش می‌یابد. این نشان می‌دهد که RWKV-X با رشد طول دنباله در مقایسه با سایر مکانیسم‌های توجه به طور فزاینده‌ای کارآمد می‌شود.

عملکرد قوی RWKV-X در هر دو بافت کوتاه و بلند، تطبیق‌پذیری و کارایی آن را به عنوان یک مدل زبانی برجسته می‌کند. توانایی آن در حفظ عملکرد رقابتی در دنباله‌های کوتاه‌تر در عین دستیابی به سرعت‌های قابل توجه در دنباله‌های طولانی‌تر، آن را به یک معماری امیدوارکننده برای طیف گسترده‌ای از کاربردها تبدیل می‌کند.

RWKV-X: محدودیت‌ها و جهت‌گیری‌های آینده

RWKV-X به عنوان یک مدل زبانی ترکیبی ظاهر می‌شود که با موفقیت کارایی RWKV را برای مدل‌سازی وابستگی‌های کوتاه برد با یک مکانیسم توجه پراکنده جدید که به طور خاص برای مدل‌سازی بافت دوربرد طراحی شده است، ترکیب می‌کند. در حالی که RWKV-X عملکرد و کارایی قوی را در مدل‌سازی زبانی بافت طولانی نشان می‌دهد، چندین محدودیت باقی مانده است.

اول، مکانیسم توجه پراکنده آن که بر انتخاب قطعات برتر-k تکیه دارد، از یک رویکرد اکتشافی استفاده می‌کند که ممکن است وابستگی‌های مرتبط معنایی را نادیده بگیرد. استراتژی انتخاب برتر-k ممکن است همیشه مهم‌ترین اطلاعات را در دنباله به دست نیاورد و به طور بالقوه منجر به عملکرد نامطلوب شود.

دوم، پیاده‌سازی فعلی نشان می‌دهد که رمزگشایی توجه پراکنده کندتر از RWKV وانیلی اجرا می‌شود که نشان می‌دهد تلاش‌های مهندسی بیشتری برای بهینه‌سازی عملکرد مورد نیاز است. در حالی که RWKV-X در مقایسه با سایر مکانیسم‌های توجه در دنباله‌های طولانی به سرعت‌های قابل توجهی دست می‌یابد، رمزگشایی توجه پراکنده آن همچنان کندتر از RWKV وانیلی است که نشان می‌دهد در پیاده‌سازی آن جای پیشرفت وجود دارد.

تحقیقات آینده می‌تواند بر روی رفع این محدودیت‌ها با کاوش در مکانیسم‌های توجه پراکنده پیچیده‌تر، بهینه‌سازی پیاده‌سازی رمزگشایی توجه پراکنده و بررسی استراتژی‌های آموزش جایگزین تمرکز کند. RWKV-X با غلبه بر این چالش‌ها، این پتانسیل را دارد که به یک مدل زبانی قدرتمندتر و کارآمدتر برای کاربردهای بافت طولانی تبدیل شود.