RWKV-7 'Goose': مسیری نو برای مدل‌سازی توالی کارآمد

تغییر جزر و مد در پردازش توالی: فراتر از محدودیت‌های Transformer

برای چندین سال، حوزه مدل‌سازی توالی، به ویژه در پردازش زبان طبیعی، به طور چشمگیری تحت تأثیر موفقیت معماری‌های Transformer خودرگرسیو قرار گرفته است. استعداد قابل توجه آن‌ها در یادگیری درون‌متنی، همراه با قابلیت موازی‌سازی ذاتی در مرحله آموزش که توسط مکانیسم توجه softmax تسهیل می‌شود، جایگاه آن‌ها را به عنوان پارادایم غالب تثبیت کرد. با این حال، این تسلط هزینه قابل توجهی دارد. موتور محاسباتی اصلی، یعنی توجه softmax، رفتار مقیاس‌پذیری درجه دوم را نسبت به طول توالی ورودی نشان می‌دهد. این ویژگی مستقیماً به افزایش سربار محاسباتی و نیازهای قابل توجه حافظه تبدیل می‌شود و یک گلوگاه مهم ایجاد می‌کند، به خصوص هنگام کار با توالی‌های گسترده که در کاربردهای مدرن مانند خلاصه‌سازی اسناد، پاسخگویی به سؤالات طولانی یا تجزیه و تحلیل ژنومی رایج است.

در حالی که بهینه‌سازی‌های پیچیده GPU موفق به کاهش برخی از این فشارها برای طول‌های توالی کوتاه‌تر در طول آموزش شده‌اند، مرحله استنتاج - جایی که مدل‌ها در سناریوهای دنیای واقعی مستقر می‌شوند - به طور بدنامی پرمصرف و گران باقی می‌ماند، به ویژه هنگام کار در مقیاس بزرگ. ماهیت درجه دوم توجه به این معنی است که دو برابر کردن طول توالی، تلاش محاسباتی و ردپای حافظه را در طول استنتاج چهار برابر می‌کند و استقرار مدل‌های Transformer بسیار بزرگ در زمینه‌های طولانی را از نظر اقتصادی چالش‌برانگیز یا از نظر فنی در بسیاری از موقعیت‌ها غیرممکن می‌سازد.

با تشخیص این محدودیت‌های اساسی، محققان به طور مداوم مسیرهای معماری جایگزین را بررسی کرده‌اند. یک جهت امیدوارکننده شامل بازبینی و احیای طرح‌های شبکه عصبی بازگشتی (RNN) است. رویکردهای مدرن RNN با هدف گنجاندن مکانیسم‌های حالت فشرده‌سازی انجام می‌شود. این حالت‌ها اطلاعات تاریخی مرتبط از توالی را در بر می‌گیرند و به مدل اجازه می‌دهند با پیچیدگی محاسباتی خطی نسبت به طول توالی عمل کند و مهمتر از آن، استفاده از حافظه ثابت را بدون توجه به طولانی شدن توالی در طول استنتاج حفظ کند. این ویژگی مزیت قانع‌کننده‌ای نسبت به Transformerها برای وظایف توالی طولانی ارائه می‌دهد. پیشرفت‌های اخیر در زمینه‌هایی مانند تقریب‌های توجه خطی و مدل‌های فضای حالت (SSMs) پتانسیل قابل توجهی را نشان داده‌اند. معماری‌هایی مانند RWKV-4 به عنوان نمونه‌های قابل توجهی ظاهر شدند که سطوح عملکرد رقابتی را به نمایش گذاشتند و در عین حال بار محاسباتی مرتبط با استنتاج را به شدت کاهش دادند و به مسیری قابل دوام فراتر از محدودیت‌های درجه دوم توجه استاندارد اشاره کردند.

معرفی RWKV-7 ‘Goose’: معیاری جدید در عملکرد معماری بازگشتی

با تکیه بر این پایه و پیش بردن مرزهای معماری‌های بازگشتی، تلاش مشترکی با مشارکت محققان از مؤسسات مختلف، از جمله پروژه RWKV، EleutherAI، دانشگاه Tsinghua و دیگران، به توسعه RWKV-7، با نام رمز ‘Goose’ منجر شده است. این معماری مدل‌سازی توالی جدید، جهش قابل توجهی به جلو را نشان می‌دهد و معیارهای عملکردی پیشرفته (SoTA) جدیدی را به ویژه در مقیاس 3 میلیارد پارامتر، در طیف گسترده‌ای از وظایف چندزبانه ایجاد می‌کند.

یکی از برجسته‌ترین جنبه‌های دستاورد RWKV-7، کارایی قابل توجه آن است. علیرغم آموزش بر روی مجموعه توکن‌های بسیار کوچکتر در مقایسه با بسیاری از مدل‌های پیشرو معاصر، RWKV-7 قابلیت‌های پردازش زبان انگلیسی را ارائه می‌دهد که با همتایان بزرگتر و تشنه‌تر به داده خود بسیار رقابتی است. شاید مهمتر از آن، این کار را با پایبندی وفادارانه به اصول اصلی کارایی RNNهای پیشرفته انجام می‌دهد: مصرف حافظه ثابت و زمان استنتاج ثابت برای هر توکن، صرف نظر از طول توالی در حال پردازش. این امر RWKV-7 را به گزینه‌ای فوق‌العاده جذاب برای برنامه‌هایی تبدیل می‌کند که هم به عملکرد بالا و هم به صرفه‌جویی در منابع نیاز دارند، به ویژه هنگام مدیریت زمینه‌های طولانی.

پیشرفت‌های تجسم یافته در RWKV-7 از چندین نوآوری کلیدی معماری ناشی می‌شود که اصول پیشینیان خود را گسترش داده و اصلاح می‌کنند. این مدل شامل یک مکانیسم گیتینگ حالت با مقادیر برداری پیچیده است که امکان کنترل دقیق‌تری بر جریان اطلاعات در حالت بازگشتی را فراهم می‌کند. علاوه بر این، نرخ‌های یادگیری درون‌متنی تطبیقی را معرفی می‌کند که به مدل امکان می‌دهد فرآیند یادگیری خود را به صورت پویا بر اساس زمینه فوری تنظیم کند و به طور بالقوه توانایی خود را در ثبت وابستگی‌های پیچیده افزایش دهد. یک مکانیسم جایگزینی مقدار اصلاح‌شده در قاعده به‌روزرسانی بازگشتی اصلی آن، که مفهوم قاعده دلتا را گسترش می‌دهد، بیانگری و ظرفیت مدل را برای تشخیص الگوهای پیچیده بیشتر تقویت می‌کند.

این پیشرفت‌ها صرفاً بهبودهای تجربی نیستند؛ آن‌ها به RWKV-7 قابلیت‌های نظری می‌بخشند که از قابلیت‌های مرتبط با Transformerهای استاندارد تحت مفروضات پیچیدگی معمول فراتر می‌روند. محققان شواهدی ارائه می‌دهند که نشان می‌دهد RWKV-7 می‌تواند به طور کارآمد حالت‌های پیچیده را ردیابی کند و به طور قابل توجهی، کل کلاس زبان‌های منظم را تشخیص دهد، کاری که برای Transformerهای وانیلی بدون تغییرات تخصصی یا مقیاس‌پذیری محاسباتی بالقوه بازدارنده، چالش‌برانگیز تلقی می‌شود.

تیم تحقیقاتی با تأکید بر تعهد خود به علم باز و پیشرفت مشترک، نه تنها جزئیات معماری بلکه مجموعه‌ای از مدل‌های RWKV-7 از پیش آموزش‌دیده را نیز منتشر کرده است. این مدل‌ها طیفی از اندازه‌ها را شامل می‌شوند، از 0.19 میلیارد پارامتر چابک تا نوع قدرتمند 2.9 میلیارد پارامتری، که نیازهای محاسباتی و کاربردهای متنوع را برآورده می‌کنند. همراه با این مدل‌ها، یک مجموعه داده چندزبانه عظیم 3.1 تریلیون توکنی، با نام RWKV World v3، وجود دارد که در آموزش مدل‌ها نقش اساسی داشته و خود منبع ارزشمندی برای جامعه است. تمام این مشارکت‌ها، از جمله وزن‌های مدل و کد پایه زیربنایی، تحت مجوز متن‌باز Apache 2.0 در دسترس قرار گرفته‌اند که پذیرش گسترده، بررسی دقیق و توسعه بیشتر را تقویت می‌کند.

بررسی عمیق معماری: موتور محرک RWKV-7

فلسفه طراحی RWKV-7 بر پایه محکمی که توسط RWKV-6 بنا نهاده شده، استوار است و ویژگی‌هایی مانند token-shift برای مدل‌سازی زمانی بهبود یافته، مکانیسم‌های پاداش برای رفتار شبه‌توجه اصلاح‌شده و ساختار شبکه پیشخور کارآمد ReLU² را به ارث می‌برد. با این حال، تکرار ‘Goose’ چندین پیشرفت حیاتی را معرفی می‌کند که به طور جمعی قابلیت‌های آن را ارتقا می‌دهند.

  • گیتینگ حالت با مقادیر برداری (Vector-Valued State Gating): RWKV-7 با فاصله گرفتن از گیتینگ اسکالر ساده‌تر، از گیت‌های برداری استفاده می‌کند. این به کانال‌ها یا ابعاد مختلف در حالت بازگشتی اجازه می‌دهد تا به طور مستقل به‌روز و تعدیل شوند و درجه کنترل بسیار دقیق‌تری بر نحوه پایداری یا زوال اطلاعات در طول زمان فراهم می‌کند. این جزئیات بیشتر، توانایی مدل را در مدیریت اطلاعات متنی پیچیده و چندوجهی افزایش می‌دهد.
  • نرخ‌های یادگیری درون‌متنی تطبیقی (Adaptive In-Context Learning Rates): یک مکانیسم جدید به “نرخ یادگیری” داخلی مدل برای جذب زمینه اجازه می‌دهد تا به صورت پویا بر اساس توکن‌های در حال پردازش تطبیق یابد. این نشان می‌دهد که مدل می‌تواند تمرکز خود را بر اطلاعات جدید یا شگفت‌انگیز تشدید کند در حالی که به طور بالقوه ورودی‌های اضافی را کم‌اهمیت جلوه می‌دهد، که منجر به یادگیری کارآمدتر و نمایش حالت می‌شود.
  • فرمول‌بندی اصلاح‌شده قاعده دلتا (Refined Delta Rule Formulation): بلوک اصلی ترکیب زمانی، که مسئول ادغام اطلاعات گذشته است، شاهد اصلاح قابل توجهی در قاعده دلتا است. این شامل تعاملات پیچیده بین توکن‌های ورودی و حالت بازگشتی است که از ماتریس‌های قابل آموزش (نشان داده شده با ابعاد مدل D) برای تبدیل‌های پیچیده استفاده می‌کند. این فرآیند شامل آماده‌سازی وزن با استفاده از پرسپترون‌های چندلایه (MLPs) با رتبه پایین برای کارایی است. اجزای کلیدی حاکم بر تکامل حالت عبارتند از:
    • کلیدهای جایگزینی (Replacement Keys): تعیین بخش‌هایی از حالت که باید به‌روز شوند.
    • عوامل زوال (Decay Factors): کنترل سرعت محو شدن اطلاعات گذشته.
    • نرخ‌های یادگیری (Learning Rates): تعدیل شدت به‌روزرسانی‌ها بر اساس ورودی فعلی.
  • مکانیسم کلید-مقدار وزنی (Weighted Key-Value - WKV): این مکانیسم برای تقریب توجه خطی معماری RWKV مرکزی است. این مکانیسم انتقال حالت پویا را بر اساس تعاملات وزنی بین کلیدها و مقادیر مشتق شده از توالی ورودی تسهیل می‌کند و به طور مؤثر مانند یک گیت فراموشی پیچیده عمل می‌کند که به مدل اجازه می‌دهد به طور انتخابی اطلاعات گذشته را بر اساس ارتباط حفظ یا حذف کند.
  • افزایش بیانگری (Expressivity Enhancements): RWKV-7 شامل تغییرات در هر کانال و استفاده از ساختار MLP دو لایه در اجزای خاصی است. این تغییرات نه تنها برای افزایش قدرت نمایشی مدل طراحی شده‌اند، بلکه برای بهبود پایداری محاسباتی و دقت عددی در طول آموزش و استنتاج نیز طراحی شده‌اند، در حالی که به دقت قابلیت‌های حیاتی ردیابی حالت ذاتی در طراحی RNN را حفظ می‌کنند.

رژیم آموزشی RWKV-7 از مجموعه داده RWKV World v3 تازه گردآوری شده استفاده کرد. این مجموعه داده عظیم، حاوی بیش از 3 تریلیون توکن، به طور عمدی برای تقویت مهارت مدل نه تنها در زبان انگلیسی بلکه به طور قابل توجهی در زبان‌های مختلف دیگر و کد برنامه‌نویسی تنظیم شده است، که منعکس کننده نیاز روزافزون به مدل‌های پایه واقعاً چندزبانه و آگاه به کد است.

علاوه بر این، این تحقیق پایه نظری برای قدرت RWKV-7 فراهم می‌کند. اثبات‌هایی ارائه شده است که ظرفیت آن را برای حل مسائلی که فراتر از دسترس کلاس پیچیدگی TC₀ در نظر گرفته می‌شوند، نشان می‌دهد، که شامل وظایفی مانند ردیابی حالت S₅ (مدیریت جایگشت‌های 5 عنصر) و تشخیص تمام زبان‌های منظم فوق‌الذکر است. این برتری نظری نشان می‌دهد که RWKV-7 ممکن است انواع خاصی از وظایف ساختاریافته یا الگوریتمی را به طور طبیعی‌تر و کارآمدتر از معماری‌های Transformer معمولی مدیریت کند. یک نتیجه عملی جالب از طراحی معماری، پیشنهاد یک مسیر ارتقاء مقرون به صرفه است. این روش به طور بالقوه امکان ارتقاء مدل‌های RWKV موجود را برای گنجاندن بهبودهای معماری جدید بدون نیاز به یک چرخه بازآموزی کامل و پرهزینه از ابتدا فراهم می‌کند و توسعه مدل چابک‌تر و تدریجی‌تر را تسهیل می‌کند.

سنجش ‘Goose’: عملکرد در معیارهای متنوع

برای ارزیابی دقیق قابلیت‌های RWKV-7، مدل‌ها تحت ارزیابی گسترده‌ای با استفاده از LM Evaluation Harness که به طور گسترده پذیرفته شده است، قرار گرفتند. این چارچوب مجموعه‌ای استاندارد از معیارها را ارائه می‌دهد که طیف گسترده‌ای از وظایف درک و تولید زبان را پوشش می‌دهد. ارزیابی‌ها هم معیارهای متمرکز بر زبان انگلیسی و هم انواع چالش‌های چندزبانه را در بر گرفتند.

نتایج تصویر قانع‌کننده‌ای از توانایی RWKV-7 ترسیم می‌کنند. در بسیاری از معیارها، مدل‌های RWKV-7 سطوح عملکردی را نشان دادند که با مدل‌های پیشرفته تثبیت‌شده، از جمله معماری‌های برجسته مبتنی بر Transformer، بسیار رقابتی است. این امر به ویژه با توجه به حجم قابل توجه کمتر توکن‌های آموزشی مورد استفاده برای RWKV-7 در مقایسه با بسیاری از رقبای خود، قابل توجه است. به عنوان مثال، در معیار چالش‌برانگیز MMLU (Massive Multitask Language Understanding)، RWKV-7 بهبودهای قابل توجهی نسبت به سلف خود، RWKV-6، نشان داد. دستاوردهای آن در وظایف چندزبانه حتی بارزتر بود، که مستقیماً مزایای حاصل از مجموعه داده آموزشی گسترده و متنوع RWKV World v3 را منعکس می‌کند.

فراتر از معیارهای آکادمیک استاندارد، ارزیابی همچنین شامل ارزیابی‌هایی با استفاده از داده‌های اینترنتی اخیر بود. این آزمایش‌ها با هدف سنجش توانایی مدل در پردازش و استدلال در مورد اطلاعات به‌روز انجام شد و اثربخشی آن را در مدیریت دانش و کاربرد زبان معاصر تأیید کرد.

نقاط قوت خاصی که در طول ارزیابی برجسته شدند عبارتند از:

  • یادآوری انجمنی (Associative Recall): مدل ظرفیت قوی برای یادآوری اطلاعات بر اساس نشانه‌های مرتبط نشان داد، که یک قابلیت حیاتی برای وظایف مربوط به بازیابی دانش و استدلال است.
  • طراحی معماری مکانیکی (Mechanistic Architecture Design): ارزیابی‌ها به طور ضمنی اثربخشی انتخاب‌های معماری خاص انجام شده در RWKV-7 را تأیید می‌کنند و سهم آن‌ها را در عملکرد کلی نشان می‌دهند.
  • حفظ زمینه طولانی (Long-Context Retention): در حالی که از استفاده ثابت از حافظه بهره می‌برد، مدل همچنین توانایی عملی در حفظ و استفاده از اطلاعات در طول توالی‌های طولانی را به نمایش گذاشت، که برای وظایفی که نیاز به مدل‌سازی وابستگی دوربرد دارند، حیاتی است.

نکته مهم این است که دستاوردهای عملکرد با کارایی محاسباتی قابل توجهی محقق شد. علیرغم عملکرد تحت محدودیت در منابع آموزشی موجود در مقایسه با برخی غول‌های صنعتی، RWKV-7 امتیازات معیار قوی خود را در حالی به دست آورد که به عملیات ممیز شناور (FLOPs) کمتری در طول آموزش نسبت به چندین مدل Transformer پیشرو با اندازه قابل مقایسه نیاز داشت. این امر بر کارایی پارامتر و مزایای ذاتی طراحی بازگشتی با مقیاس‌پذیری خطی آن تأکید می‌کند. ترکیب عملکرد سطح SoTA (به ویژه چندزبانه) و صرفه‌جویی محاسباتی برتر، RWKV-7 را به عنوان یک جایگزین قدرتمند و عملی در چشم‌انداز مدل‌سازی توالی قرار می‌دهد.

پیمایش موانع فعلی و چشم‌انداز افق‌های آینده

علیرغم دستاوردهای چشمگیر و مزایای ذاتی، معماری RWKV-7، مانند هر فناوری پیچیده‌ای، بدون محدودیت و زمینه‌هایی برای اصلاحات آتی نیست. محققان آشکارا چندین چالش را تأیید می‌کنند:

  • حساسیت به دقت عددی (Numerical Precision Sensitivity): جنبه‌های خاصی از محاسبات مدل می‌تواند به دقت عددی حساس باشد و به طور بالقوه نیاز به پیاده‌سازی و مدیریت دقیق دارد، به ویژه در طول آموزش با فرمت‌های دقت پایین‌تر (مانند bfloat16) برای حفظ پایداری و عملکرد.
  • فقدان تنظیم دستورالعمل (Lack of Instruction Tuning): مدل‌های RWKV-7 منتشر شده، در زمان معرفی، تحت تنظیم دستورالعمل در مقیاس بزرگ یا یادگیری تقویتی از بازخورد انسانی (RLHF) قرار نگرفته بودند. این بدان معناست که ممکن است در پیروی از دستورالعمل‌های پیچیده یا درگیر شدن در گفتگوی دقیق به صورت zero-shot نسبت به همتایان تنظیم‌شده مهارت کمتری داشته باشند.
  • حساسیت به پرامپت (Prompt Sensitivity): مانند بسیاری از مدل‌های زبان بزرگ، کیفیت خروجی RWKV-7 گاهی اوقات می‌تواند به عبارت‌بندی و ساختار خاص پرامپت ورودی حساس باشد. دستیابی به نتایج بهینه ممکن است به درجاتی از مهندسی پرامپت نیاز داشته باشد.
  • منابع محاسباتی محدود (Restricted Computational Resources): در حالی که نسبت به عملکرد خود کارآمد است، توسعه و آموزش همچنان تحت محدودیت‌های منابع در مقایسه با قدرت محاسباتی گسترده در دسترس برخی از آزمایشگاه‌های بزرگ هوش مصنوعی انجام شد. تلاش‌های مقیاس‌پذیری ممکن است چالش‌ها یا فرصت‌های جدیدی را آشکار کند.

با نگاه به آینده، نقشه راه توسعه RWKV شامل چندین جهت امیدوارکننده با هدف رفع این محدودیت‌ها و افزایش بیشتر قابلیت‌های معماری است. حوزه‌های کلیدی تمرکز عبارتند از:

  • بهینه‌سازی سرعت استنتاج (Optimizing Inference Speed): تلاش‌های مستمر برای بهینه‌سازی کد پایه و به طور بالقوه کاوش پیاده‌سازی‌های خاص سخت‌افزاری می‌تواند سرعت استنتاج را که در حال حاضر سودمند است، بیشتر بهبود بخشد و استقرار را حتی عملی‌تر کند.
  • گنجاندن استدلال زنجیره‌ای فکر (Incorporating Chain-of-Thought Reasoning): بررسی روش‌هایی برای استخراج یا آموزش قابلیت‌های استدلال زنجیره‌ای فکر (CoT) در چارچوب RWKV می‌تواند به طور قابل توجهی عملکرد آن را در وظایف حل مسئله پیچیده که نیاز به استنتاج منطقی چند مرحله‌ای دارند، افزایش دهد.
  • مقیاس‌پذیری با مجموعه داده‌های بزرگتر و اندازه‌های مدل (Scaling with Larger Datasets and Model Sizes): استفاده از معماری کارآمد برای آموزش مدل‌های حتی بزرگتر بر روی نسخه‌های بالقوه گسترش‌یافته مجموعه داده چندزبانه، نویدبخش پیشبرد بیشتر مرزهای عملکرد است.
  • تنظیم دستورالعمل و هم‌ترازی (Instruction Tuning and Alignment): به کارگیری تکنیک‌های تثبیت‌شده برای پیروی از دستورالعمل و هم‌ترازی با ترجیحات انسانی برای کاربرپسندتر و قابل کنترل‌تر کردن مدل‌های RWKV برای برنامه‌های کاربردی پایین‌دستی حیاتی خواهد بود.

در دسترس بودن باز مدل‌های RWKV-7، مجموعه داده آموزشی گسترده و کد مرتبط تحت مجوز Apache 2.0 به عنوان یک کاتالیزور قدرتمند برای مشارکت جامعه عمل می‌کند. این امر تحقیقات گسترده‌تری را در زمینه مدل‌سازی توالی کارآمد تشویق می‌کند، امکان تأیید مستقل نتایج را فراهم می‌آورد و توسعه‌دهندگان را قادر می‌سازد تا بر اساس این معماری بازگشتی نوآورانه بنا کنند و به طور بالقوه پیشرفت به سمت سیستم‌های هوش مصنوعی تواناتر، در دسترس‌تر و از نظر محاسباتی پایدارتر را تسریع بخشند.