تغییر جزر و مد در پردازش توالی: فراتر از محدودیتهای Transformer
برای چندین سال، حوزه مدلسازی توالی، به ویژه در پردازش زبان طبیعی، به طور چشمگیری تحت تأثیر موفقیت معماریهای Transformer خودرگرسیو قرار گرفته است. استعداد قابل توجه آنها در یادگیری درونمتنی، همراه با قابلیت موازیسازی ذاتی در مرحله آموزش که توسط مکانیسم توجه softmax تسهیل میشود، جایگاه آنها را به عنوان پارادایم غالب تثبیت کرد. با این حال، این تسلط هزینه قابل توجهی دارد. موتور محاسباتی اصلی، یعنی توجه softmax، رفتار مقیاسپذیری درجه دوم را نسبت به طول توالی ورودی نشان میدهد. این ویژگی مستقیماً به افزایش سربار محاسباتی و نیازهای قابل توجه حافظه تبدیل میشود و یک گلوگاه مهم ایجاد میکند، به خصوص هنگام کار با توالیهای گسترده که در کاربردهای مدرن مانند خلاصهسازی اسناد، پاسخگویی به سؤالات طولانی یا تجزیه و تحلیل ژنومی رایج است.
در حالی که بهینهسازیهای پیچیده GPU موفق به کاهش برخی از این فشارها برای طولهای توالی کوتاهتر در طول آموزش شدهاند، مرحله استنتاج - جایی که مدلها در سناریوهای دنیای واقعی مستقر میشوند - به طور بدنامی پرمصرف و گران باقی میماند، به ویژه هنگام کار در مقیاس بزرگ. ماهیت درجه دوم توجه به این معنی است که دو برابر کردن طول توالی، تلاش محاسباتی و ردپای حافظه را در طول استنتاج چهار برابر میکند و استقرار مدلهای Transformer بسیار بزرگ در زمینههای طولانی را از نظر اقتصادی چالشبرانگیز یا از نظر فنی در بسیاری از موقعیتها غیرممکن میسازد.
با تشخیص این محدودیتهای اساسی، محققان به طور مداوم مسیرهای معماری جایگزین را بررسی کردهاند. یک جهت امیدوارکننده شامل بازبینی و احیای طرحهای شبکه عصبی بازگشتی (RNN) است. رویکردهای مدرن RNN با هدف گنجاندن مکانیسمهای حالت فشردهسازی انجام میشود. این حالتها اطلاعات تاریخی مرتبط از توالی را در بر میگیرند و به مدل اجازه میدهند با پیچیدگی محاسباتی خطی نسبت به طول توالی عمل کند و مهمتر از آن، استفاده از حافظه ثابت را بدون توجه به طولانی شدن توالی در طول استنتاج حفظ کند. این ویژگی مزیت قانعکنندهای نسبت به Transformerها برای وظایف توالی طولانی ارائه میدهد. پیشرفتهای اخیر در زمینههایی مانند تقریبهای توجه خطی و مدلهای فضای حالت (SSMs) پتانسیل قابل توجهی را نشان دادهاند. معماریهایی مانند RWKV-4 به عنوان نمونههای قابل توجهی ظاهر شدند که سطوح عملکرد رقابتی را به نمایش گذاشتند و در عین حال بار محاسباتی مرتبط با استنتاج را به شدت کاهش دادند و به مسیری قابل دوام فراتر از محدودیتهای درجه دوم توجه استاندارد اشاره کردند.
معرفی RWKV-7 ‘Goose’: معیاری جدید در عملکرد معماری بازگشتی
با تکیه بر این پایه و پیش بردن مرزهای معماریهای بازگشتی، تلاش مشترکی با مشارکت محققان از مؤسسات مختلف، از جمله پروژه RWKV، EleutherAI، دانشگاه Tsinghua و دیگران، به توسعه RWKV-7، با نام رمز ‘Goose’ منجر شده است. این معماری مدلسازی توالی جدید، جهش قابل توجهی به جلو را نشان میدهد و معیارهای عملکردی پیشرفته (SoTA) جدیدی را به ویژه در مقیاس 3 میلیارد پارامتر، در طیف گستردهای از وظایف چندزبانه ایجاد میکند.
یکی از برجستهترین جنبههای دستاورد RWKV-7، کارایی قابل توجه آن است. علیرغم آموزش بر روی مجموعه توکنهای بسیار کوچکتر در مقایسه با بسیاری از مدلهای پیشرو معاصر، RWKV-7 قابلیتهای پردازش زبان انگلیسی را ارائه میدهد که با همتایان بزرگتر و تشنهتر به داده خود بسیار رقابتی است. شاید مهمتر از آن، این کار را با پایبندی وفادارانه به اصول اصلی کارایی RNNهای پیشرفته انجام میدهد: مصرف حافظه ثابت و زمان استنتاج ثابت برای هر توکن، صرف نظر از طول توالی در حال پردازش. این امر RWKV-7 را به گزینهای فوقالعاده جذاب برای برنامههایی تبدیل میکند که هم به عملکرد بالا و هم به صرفهجویی در منابع نیاز دارند، به ویژه هنگام مدیریت زمینههای طولانی.
پیشرفتهای تجسم یافته در RWKV-7 از چندین نوآوری کلیدی معماری ناشی میشود که اصول پیشینیان خود را گسترش داده و اصلاح میکنند. این مدل شامل یک مکانیسم گیتینگ حالت با مقادیر برداری پیچیده است که امکان کنترل دقیقتری بر جریان اطلاعات در حالت بازگشتی را فراهم میکند. علاوه بر این، نرخهای یادگیری درونمتنی تطبیقی را معرفی میکند که به مدل امکان میدهد فرآیند یادگیری خود را به صورت پویا بر اساس زمینه فوری تنظیم کند و به طور بالقوه توانایی خود را در ثبت وابستگیهای پیچیده افزایش دهد. یک مکانیسم جایگزینی مقدار اصلاحشده در قاعده بهروزرسانی بازگشتی اصلی آن، که مفهوم قاعده دلتا را گسترش میدهد، بیانگری و ظرفیت مدل را برای تشخیص الگوهای پیچیده بیشتر تقویت میکند.
این پیشرفتها صرفاً بهبودهای تجربی نیستند؛ آنها به RWKV-7 قابلیتهای نظری میبخشند که از قابلیتهای مرتبط با Transformerهای استاندارد تحت مفروضات پیچیدگی معمول فراتر میروند. محققان شواهدی ارائه میدهند که نشان میدهد RWKV-7 میتواند به طور کارآمد حالتهای پیچیده را ردیابی کند و به طور قابل توجهی، کل کلاس زبانهای منظم را تشخیص دهد، کاری که برای Transformerهای وانیلی بدون تغییرات تخصصی یا مقیاسپذیری محاسباتی بالقوه بازدارنده، چالشبرانگیز تلقی میشود.
تیم تحقیقاتی با تأکید بر تعهد خود به علم باز و پیشرفت مشترک، نه تنها جزئیات معماری بلکه مجموعهای از مدلهای RWKV-7 از پیش آموزشدیده را نیز منتشر کرده است. این مدلها طیفی از اندازهها را شامل میشوند، از 0.19 میلیارد پارامتر چابک تا نوع قدرتمند 2.9 میلیارد پارامتری، که نیازهای محاسباتی و کاربردهای متنوع را برآورده میکنند. همراه با این مدلها، یک مجموعه داده چندزبانه عظیم 3.1 تریلیون توکنی، با نام RWKV World v3، وجود دارد که در آموزش مدلها نقش اساسی داشته و خود منبع ارزشمندی برای جامعه است. تمام این مشارکتها، از جمله وزنهای مدل و کد پایه زیربنایی، تحت مجوز متنباز Apache 2.0 در دسترس قرار گرفتهاند که پذیرش گسترده، بررسی دقیق و توسعه بیشتر را تقویت میکند.
بررسی عمیق معماری: موتور محرک RWKV-7
فلسفه طراحی RWKV-7 بر پایه محکمی که توسط RWKV-6 بنا نهاده شده، استوار است و ویژگیهایی مانند token-shift برای مدلسازی زمانی بهبود یافته، مکانیسمهای پاداش برای رفتار شبهتوجه اصلاحشده و ساختار شبکه پیشخور کارآمد ReLU² را به ارث میبرد. با این حال، تکرار ‘Goose’ چندین پیشرفت حیاتی را معرفی میکند که به طور جمعی قابلیتهای آن را ارتقا میدهند.
- گیتینگ حالت با مقادیر برداری (Vector-Valued State Gating): RWKV-7 با فاصله گرفتن از گیتینگ اسکالر سادهتر، از گیتهای برداری استفاده میکند. این به کانالها یا ابعاد مختلف در حالت بازگشتی اجازه میدهد تا به طور مستقل بهروز و تعدیل شوند و درجه کنترل بسیار دقیقتری بر نحوه پایداری یا زوال اطلاعات در طول زمان فراهم میکند. این جزئیات بیشتر، توانایی مدل را در مدیریت اطلاعات متنی پیچیده و چندوجهی افزایش میدهد.
- نرخهای یادگیری درونمتنی تطبیقی (Adaptive In-Context Learning Rates): یک مکانیسم جدید به “نرخ یادگیری” داخلی مدل برای جذب زمینه اجازه میدهد تا به صورت پویا بر اساس توکنهای در حال پردازش تطبیق یابد. این نشان میدهد که مدل میتواند تمرکز خود را بر اطلاعات جدید یا شگفتانگیز تشدید کند در حالی که به طور بالقوه ورودیهای اضافی را کماهمیت جلوه میدهد، که منجر به یادگیری کارآمدتر و نمایش حالت میشود.
- فرمولبندی اصلاحشده قاعده دلتا (Refined Delta Rule Formulation): بلوک اصلی ترکیب زمانی، که مسئول ادغام اطلاعات گذشته است، شاهد اصلاح قابل توجهی در قاعده دلتا است. این شامل تعاملات پیچیده بین توکنهای ورودی و حالت بازگشتی است که از ماتریسهای قابل آموزش (نشان داده شده با ابعاد مدل D) برای تبدیلهای پیچیده استفاده میکند. این فرآیند شامل آمادهسازی وزن با استفاده از پرسپترونهای چندلایه (MLPs) با رتبه پایین برای کارایی است. اجزای کلیدی حاکم بر تکامل حالت عبارتند از:
- کلیدهای جایگزینی (Replacement Keys): تعیین بخشهایی از حالت که باید بهروز شوند.
- عوامل زوال (Decay Factors): کنترل سرعت محو شدن اطلاعات گذشته.
- نرخهای یادگیری (Learning Rates): تعدیل شدت بهروزرسانیها بر اساس ورودی فعلی.
- مکانیسم کلید-مقدار وزنی (Weighted Key-Value - WKV): این مکانیسم برای تقریب توجه خطی معماری RWKV مرکزی است. این مکانیسم انتقال حالت پویا را بر اساس تعاملات وزنی بین کلیدها و مقادیر مشتق شده از توالی ورودی تسهیل میکند و به طور مؤثر مانند یک گیت فراموشی پیچیده عمل میکند که به مدل اجازه میدهد به طور انتخابی اطلاعات گذشته را بر اساس ارتباط حفظ یا حذف کند.
- افزایش بیانگری (Expressivity Enhancements): RWKV-7 شامل تغییرات در هر کانال و استفاده از ساختار MLP دو لایه در اجزای خاصی است. این تغییرات نه تنها برای افزایش قدرت نمایشی مدل طراحی شدهاند، بلکه برای بهبود پایداری محاسباتی و دقت عددی در طول آموزش و استنتاج نیز طراحی شدهاند، در حالی که به دقت قابلیتهای حیاتی ردیابی حالت ذاتی در طراحی RNN را حفظ میکنند.
رژیم آموزشی RWKV-7 از مجموعه داده RWKV World v3 تازه گردآوری شده استفاده کرد. این مجموعه داده عظیم، حاوی بیش از 3 تریلیون توکن، به طور عمدی برای تقویت مهارت مدل نه تنها در زبان انگلیسی بلکه به طور قابل توجهی در زبانهای مختلف دیگر و کد برنامهنویسی تنظیم شده است، که منعکس کننده نیاز روزافزون به مدلهای پایه واقعاً چندزبانه و آگاه به کد است.
علاوه بر این، این تحقیق پایه نظری برای قدرت RWKV-7 فراهم میکند. اثباتهایی ارائه شده است که ظرفیت آن را برای حل مسائلی که فراتر از دسترس کلاس پیچیدگی TC₀ در نظر گرفته میشوند، نشان میدهد، که شامل وظایفی مانند ردیابی حالت S₅ (مدیریت جایگشتهای 5 عنصر) و تشخیص تمام زبانهای منظم فوقالذکر است. این برتری نظری نشان میدهد که RWKV-7 ممکن است انواع خاصی از وظایف ساختاریافته یا الگوریتمی را به طور طبیعیتر و کارآمدتر از معماریهای Transformer معمولی مدیریت کند. یک نتیجه عملی جالب از طراحی معماری، پیشنهاد یک مسیر ارتقاء مقرون به صرفه است. این روش به طور بالقوه امکان ارتقاء مدلهای RWKV موجود را برای گنجاندن بهبودهای معماری جدید بدون نیاز به یک چرخه بازآموزی کامل و پرهزینه از ابتدا فراهم میکند و توسعه مدل چابکتر و تدریجیتر را تسهیل میکند.
سنجش ‘Goose’: عملکرد در معیارهای متنوع
برای ارزیابی دقیق قابلیتهای RWKV-7، مدلها تحت ارزیابی گستردهای با استفاده از LM Evaluation Harness که به طور گسترده پذیرفته شده است، قرار گرفتند. این چارچوب مجموعهای استاندارد از معیارها را ارائه میدهد که طیف گستردهای از وظایف درک و تولید زبان را پوشش میدهد. ارزیابیها هم معیارهای متمرکز بر زبان انگلیسی و هم انواع چالشهای چندزبانه را در بر گرفتند.
نتایج تصویر قانعکنندهای از توانایی RWKV-7 ترسیم میکنند. در بسیاری از معیارها، مدلهای RWKV-7 سطوح عملکردی را نشان دادند که با مدلهای پیشرفته تثبیتشده، از جمله معماریهای برجسته مبتنی بر Transformer، بسیار رقابتی است. این امر به ویژه با توجه به حجم قابل توجه کمتر توکنهای آموزشی مورد استفاده برای RWKV-7 در مقایسه با بسیاری از رقبای خود، قابل توجه است. به عنوان مثال، در معیار چالشبرانگیز MMLU (Massive Multitask Language Understanding)، RWKV-7 بهبودهای قابل توجهی نسبت به سلف خود، RWKV-6، نشان داد. دستاوردهای آن در وظایف چندزبانه حتی بارزتر بود، که مستقیماً مزایای حاصل از مجموعه داده آموزشی گسترده و متنوع RWKV World v3 را منعکس میکند.
فراتر از معیارهای آکادمیک استاندارد، ارزیابی همچنین شامل ارزیابیهایی با استفاده از دادههای اینترنتی اخیر بود. این آزمایشها با هدف سنجش توانایی مدل در پردازش و استدلال در مورد اطلاعات بهروز انجام شد و اثربخشی آن را در مدیریت دانش و کاربرد زبان معاصر تأیید کرد.
نقاط قوت خاصی که در طول ارزیابی برجسته شدند عبارتند از:
- یادآوری انجمنی (Associative Recall): مدل ظرفیت قوی برای یادآوری اطلاعات بر اساس نشانههای مرتبط نشان داد، که یک قابلیت حیاتی برای وظایف مربوط به بازیابی دانش و استدلال است.
- طراحی معماری مکانیکی (Mechanistic Architecture Design): ارزیابیها به طور ضمنی اثربخشی انتخابهای معماری خاص انجام شده در RWKV-7 را تأیید میکنند و سهم آنها را در عملکرد کلی نشان میدهند.
- حفظ زمینه طولانی (Long-Context Retention): در حالی که از استفاده ثابت از حافظه بهره میبرد، مدل همچنین توانایی عملی در حفظ و استفاده از اطلاعات در طول توالیهای طولانی را به نمایش گذاشت، که برای وظایفی که نیاز به مدلسازی وابستگی دوربرد دارند، حیاتی است.
نکته مهم این است که دستاوردهای عملکرد با کارایی محاسباتی قابل توجهی محقق شد. علیرغم عملکرد تحت محدودیت در منابع آموزشی موجود در مقایسه با برخی غولهای صنعتی، RWKV-7 امتیازات معیار قوی خود را در حالی به دست آورد که به عملیات ممیز شناور (FLOPs) کمتری در طول آموزش نسبت به چندین مدل Transformer پیشرو با اندازه قابل مقایسه نیاز داشت. این امر بر کارایی پارامتر و مزایای ذاتی طراحی بازگشتی با مقیاسپذیری خطی آن تأکید میکند. ترکیب عملکرد سطح SoTA (به ویژه چندزبانه) و صرفهجویی محاسباتی برتر، RWKV-7 را به عنوان یک جایگزین قدرتمند و عملی در چشمانداز مدلسازی توالی قرار میدهد.
پیمایش موانع فعلی و چشمانداز افقهای آینده
علیرغم دستاوردهای چشمگیر و مزایای ذاتی، معماری RWKV-7، مانند هر فناوری پیچیدهای، بدون محدودیت و زمینههایی برای اصلاحات آتی نیست. محققان آشکارا چندین چالش را تأیید میکنند:
- حساسیت به دقت عددی (Numerical Precision Sensitivity): جنبههای خاصی از محاسبات مدل میتواند به دقت عددی حساس باشد و به طور بالقوه نیاز به پیادهسازی و مدیریت دقیق دارد، به ویژه در طول آموزش با فرمتهای دقت پایینتر (مانند bfloat16) برای حفظ پایداری و عملکرد.
- فقدان تنظیم دستورالعمل (Lack of Instruction Tuning): مدلهای RWKV-7 منتشر شده، در زمان معرفی، تحت تنظیم دستورالعمل در مقیاس بزرگ یا یادگیری تقویتی از بازخورد انسانی (RLHF) قرار نگرفته بودند. این بدان معناست که ممکن است در پیروی از دستورالعملهای پیچیده یا درگیر شدن در گفتگوی دقیق به صورت zero-shot نسبت به همتایان تنظیمشده مهارت کمتری داشته باشند.
- حساسیت به پرامپت (Prompt Sensitivity): مانند بسیاری از مدلهای زبان بزرگ، کیفیت خروجی RWKV-7 گاهی اوقات میتواند به عبارتبندی و ساختار خاص پرامپت ورودی حساس باشد. دستیابی به نتایج بهینه ممکن است به درجاتی از مهندسی پرامپت نیاز داشته باشد.
- منابع محاسباتی محدود (Restricted Computational Resources): در حالی که نسبت به عملکرد خود کارآمد است، توسعه و آموزش همچنان تحت محدودیتهای منابع در مقایسه با قدرت محاسباتی گسترده در دسترس برخی از آزمایشگاههای بزرگ هوش مصنوعی انجام شد. تلاشهای مقیاسپذیری ممکن است چالشها یا فرصتهای جدیدی را آشکار کند.
با نگاه به آینده، نقشه راه توسعه RWKV شامل چندین جهت امیدوارکننده با هدف رفع این محدودیتها و افزایش بیشتر قابلیتهای معماری است. حوزههای کلیدی تمرکز عبارتند از:
- بهینهسازی سرعت استنتاج (Optimizing Inference Speed): تلاشهای مستمر برای بهینهسازی کد پایه و به طور بالقوه کاوش پیادهسازیهای خاص سختافزاری میتواند سرعت استنتاج را که در حال حاضر سودمند است، بیشتر بهبود بخشد و استقرار را حتی عملیتر کند.
- گنجاندن استدلال زنجیرهای فکر (Incorporating Chain-of-Thought Reasoning): بررسی روشهایی برای استخراج یا آموزش قابلیتهای استدلال زنجیرهای فکر (CoT) در چارچوب RWKV میتواند به طور قابل توجهی عملکرد آن را در وظایف حل مسئله پیچیده که نیاز به استنتاج منطقی چند مرحلهای دارند، افزایش دهد.
- مقیاسپذیری با مجموعه دادههای بزرگتر و اندازههای مدل (Scaling with Larger Datasets and Model Sizes): استفاده از معماری کارآمد برای آموزش مدلهای حتی بزرگتر بر روی نسخههای بالقوه گسترشیافته مجموعه داده چندزبانه، نویدبخش پیشبرد بیشتر مرزهای عملکرد است.
- تنظیم دستورالعمل و همترازی (Instruction Tuning and Alignment): به کارگیری تکنیکهای تثبیتشده برای پیروی از دستورالعمل و همترازی با ترجیحات انسانی برای کاربرپسندتر و قابل کنترلتر کردن مدلهای RWKV برای برنامههای کاربردی پاییندستی حیاتی خواهد بود.
در دسترس بودن باز مدلهای RWKV-7، مجموعه داده آموزشی گسترده و کد مرتبط تحت مجوز Apache 2.0 به عنوان یک کاتالیزور قدرتمند برای مشارکت جامعه عمل میکند. این امر تحقیقات گستردهتری را در زمینه مدلسازی توالی کارآمد تشویق میکند، امکان تأیید مستقل نتایج را فراهم میآورد و توسعهدهندگان را قادر میسازد تا بر اساس این معماری بازگشتی نوآورانه بنا کنند و به طور بالقوه پیشرفت به سمت سیستمهای هوش مصنوعی تواناتر، در دسترستر و از نظر محاسباتی پایدارتر را تسریع بخشند.