Променящите се тенденции в обработката на поредици: Отвъд ограниченията на Transformer
В продължение на няколко години областта на моделирането на поредици, особено в обработката на естествен език, беше доминирана от успеха на авторегресивните Transformer архитектури. Тяхната забележителна способност за учене в контекст, съчетана с присъщата паралелизуемост по време на фазата на обучение, улеснена от механизма за внимание softmax, затвърди позицията им като доминираща парадигма. Тази доминация обаче има значителна цена. Основният изчислителен двигател, вниманието softmax, показва квадратично поведение на мащабиране по отношение на дължината на входната поредица. Тази характеристика се превръща директно в нарастващи изчислителни разходи и значителни изисквания за памет, представлявайки сериозно затруднение, особено при работа с обширни поредици, често срещани в съвременни приложения като обобщаване на документи, отговаряне на дълги въпроси или геномен анализ.
Докато сложните GPU оптимизации успяха да облекчат част от този натиск за по-къси дължини на поредиците по време на обучение, етапът на инференция – където моделите се внедряват в реални сценарии – остава изключително ресурсоемък и скъп, особено при работа в голям мащаб. Квадратичният характер на вниманието означава, че удвояването на дължината на поредицата учетворява изчислителните усилия и отпечатъка върху паметта по време на инференция, което прави внедряването на много големи Transformer модели в дълги контексти икономически предизвикателно или технически неосъществимо в много ситуации.
Осъзнавайки тези фундаментални ограничения, изследователите упорито проучват алтернативни архитектурни пътища. Особено обещаваща посока включва преразглеждане и съживяване на дизайните на рекурентни невронни мрежи (RNN). Съвременните RNN подходи имат за цел да включат механизми за компресивно състояние. Тези състояния капсулират релевантна историческа информация от поредицата, позволявайки на модела да работи с линейна изчислителна сложност спрямо дължината на поредицата и, което е от решаващо значение, да поддържа константна употреба на памет, независимо колко дълга става поредицата по време на инференция. Тази характеристика предлага убедително предимство пред Transformer за задачи с дълги поредици. Последните постижения в области като апроксимации на линейно внимание и модели на състояние-пространство (SSMs) демонстрираха значителен потенциал. Архитектури като RWKV-4 се появиха като забележителни примери, показващи конкурентни нива на производителност, като същевременно драстично намаляват изчислителната тежест, свързана с инференцията, намеквайки за жизнеспособен път напред отвъд квадратичните ограничения на стандартното внимание.
Представяне на RWKV-7 ‘Goose’: Нов еталон в производителността на рекурентните архитектури
Надграждайки тази основа и разширявайки границите на рекурентните архитектури, съвместните усилия на изследователи от различни институции, включително RWKV Project, EleutherAI, Tsinghua University и други, доведоха до разработването на RWKV-7, с кодово име ‘Goose’. Тази нова архитектура за моделиране на поредици представлява значителен скок напред, установявайки нови еталони за най-съвременна (SoTA) производителност, особено в мащаба от 3 милиарда параметри, в широк спектър от многоезични задачи.
Един от най-поразителните аспекти на постижението на RWKV-7 е неговата забележителна ефективност. Въпреки че е обучен върху значително по-малък корпус от токени в сравнение с много водещи съвременни модели, RWKV-7 предоставя възможности за обработка на английски език, които са силно конкурентни на неговите по-големи и по-гладни за данни аналози. Може би по-важното е, че той постига това, като същевременно вярно се придържа към основните принципи на ефективност на напредналите RNN: константна консумация на памет и постоянно време за инференция на токен, независимо от дължината на обработваната поредица. Това прави RWKV-7 изключително привлекателна опция за приложения, изискващи както висока производителност, така и икономичност на ресурсите, особено при работа с дълги контексти.
Напредъкът, въплътен в RWKV-7, произтича от няколко ключови архитектурни иновации, които разширяват и усъвършенстват принципите на неговите предшественици. Моделът включва усъвършенстван механизъм за векторно стробиране на състоянието (vector-valued state gating), позволяващ по-нюансиран контрол върху потока на информация в рамките на рекурентното състояние. Освен това, той въвежда адаптивни скорости на учене в контекст (adaptive in-context learning rates), позволявайки на модела динамично да коригира своя процес на учене въз основа на непосредствения контекст, потенциално подобрявайки способността му да улавя сложни зависимости. Усъвършенстван механизъм за замяна на стойности (value replacement mechanism) в рамките на основното му правило за рекурентно обновяване, разширяващ концепцията на делта правилото, допълнително повишава изразителността и капацитета на модела за разпознаване на сложни модели.
Тези подобрения не са просто емпирични подобрения; те дават на RWKV-7 теоретични възможности, които надхвърлят тези, често свързвани със стандартните Transformer при типични предположения за сложност. Изследователите предоставят доказателства, предполагащи, че RWKV-7 може ефективно да проследява сложни състояния и, което е важно, да разпознава целия клас регулярни езици, подвиг, считан за предизвикателство за обикновените Transformer без специализирани модификации или потенциално непосилно изчислително мащабиране.
Подчертавайки ангажимента си към отворената наука и съвместния напредък, изследователският екип пусна не само подробности за архитектурата, но и набор от предварително обучени RWKV-7 модели. Тези модели обхващат редица размери, от пъргав вариант с 0.19 милиарда параметри до мощния вариант с 2.9 милиарда параметри, отговаряйки на различни изчислителни бюджети и нужди на приложенията. Към тези модели е приложен обширен многоезичен корпус от 3.1 трилиона токена, наречен RWKV World v3, който е бил от основно значение при обучението на моделите и сам по себе си е ценен ресурс за общността. Всички тези приноси, включително теглата на моделите и основният код, са достъпни под разрешителния отворен лиценз Apache 2.0, насърчавайки широкото приемане, проверка и по-нататъшно развитие.
Архитектурно потапяне: Двигателят, задвижващ RWKV-7
Философията на дизайна на RWKV-7 се основава на солидната основа, положена от RWKV-6, наследявайки функции като token-shift за подобрено времево моделиране, бонус механизми за усъвършенствано поведение, подобно на вниманието, и ефективна структура на мрежата за препращане ReLU². Въпреки това, итерацията ‘Goose’ въвежда няколко критични подобрения, които колективно повишават нейните възможности.
- Векторно стробиране на състоянието (Vector-Valued State Gating): Отклонявайки се от по-простото скаларно стробиране, RWKV-7 използва векторни гейтове. Това позволява на различни канали или измерения в рамките на рекурентното състояние да се актуализират и модулират независимо, осигурявайки много по-фина степен на контрол върху това как информацията се запазва или затихва с течение на времето. Тази повишена грануларност подобрява способността на модела да управлява сложна, многостранна контекстуална информация.
- Адаптивни скорости на учене в контекст (Adaptive In-Context Learning Rates): Нов механизъм позволява на вътрешната „скорост на учене“ на модела за асимилация на контекст да се адаптира динамично въз основа на обработваните токени. Това предполага, че моделът може да засили фокуса си върху нова или изненадваща информация, като същевременно потенциално намалява тежестта на излишните входове, което води до по-ефективно учене и представяне на състоянието.
- Усъвършенствана формулировка на делта правилото (Refined Delta Rule Formulation): Основният блок за смесване на времето, отговорен за интегрирането на минала информация, претърпява значително усъвършенстване на делта правилото. Това включва сложни взаимодействия между входящите токени и рекурентното състояние, използвайки обучаеми матрици (означени с размерността на модела D) за сложни трансформации. Процесът включва подготовка на теглата с помощта на нискорангови многослойни перцептрони (MLPs) за ефективност. Ключовите компоненти, управляващи еволюцията на състоянието, включват:
- Ключове за замяна (Replacement Keys): Определяне на части от състоянието, които да бъдат актуализирани.
- Фактори на затихване (Decay Factors): Контролиране колко бързо избледнява миналата информация.
- Скорости на учене (Learning Rates): Модулиране на интензивността на актуализациите въз основа на текущия вход.
- Механизъм за претеглени ключ-стойност (Weighted Key-Value - WKV): Този механизъм е централен за апроксимацията на линейното внимание в архитектурата RWKV. Той улеснява динамичните преходи на състоянието въз основа на претеглени взаимодействия между ключове и стойности, извлечени от входната поредица, ефективно действайки като усъвършенстван гейт за забравяне, който позволява на модела избирателно да запазва или изхвърля минала информация въз основа на релевантността.
- Подобрения на изразителността (Expressivity Enhancements): RWKV-7 включва модификации по канали и използва двуслойна MLP структура в определени компоненти. Тези промени са предназначени не само да увеличат представителната мощ на модела, но и да подобрят изчислителната стабилност и числовата точност по време на обучение и инференция, като същевременно внимателно запазват ключовите възможности за проследяване на състоянието, присъщи на RNN дизайна.
Режимът на обучение за RWKV-7 използва новосъставения корпус RWKV World v3. Този огромен набор от данни, съдържащ над 3 трилиона токена, беше умишлено подбран, за да подсили уменията на модела не само на английски, но и значително на различни други езици и програмен код, отразявайки нарастващата нужда от наистина многоезични и разбиращи код основни модели.
Освен това, изследването предоставя теоретична основа за мощта на RWKV-7. Предлагат се доказателства, демонстриращи неговия капацитет да решава проблеми, считани извън обсега на класа на сложност TC₀, който включва задачи като проследяване на състояние S₅ (управление на пермутации на 5 елемента) и гореспоменатото разпознаване на всички регулярни езици. Това теоретично предимство предполага, че RWKV-7 може да се справя с определени типове структурирани или алгоритмични задачи по-естествено и ефективно от конвенционалните Transformer архитектури. Интересен практически резултат от архитектурния дизайн е предложението за икономичен път за надграждане. Този метод потенциално позволява подобряване на съществуващи RWKV модели, за да включат нови архитектурни подобрения, без да е необходим пълен, скъп цикъл на преобучение от нулата, улеснявайки по-гъвкаво и инкрементално разработване на модели.
Измерване на ‘Goose’: Производителност в различни бенчмаркове
За да се оценят стриктно възможностите на RWKV-7, моделите преминаха обширна оценка с помощта на широко възприетия LM Evaluation Harness. Тази рамка предоставя стандартизиран набор от бенчмаркове, обхващащи широк спектър от задачи за разбиране и генериране на език. Оценките обхванаха както бенчмаркове, ориентирани към английски език, така и различни многоезични предизвикателства.
Резултатите рисуват убедителна картина за уменията на RWKV-7. В множество бенчмаркове моделите RWKV-7 демонстрираха нива на производителност, които са силно конкурентни на утвърдени най-съвременни модели, включително видни архитектури, базирани на Transformer. Това е особено забележително предвид значително по-малкия обем токени за обучение, използвани за RWKV-7 в сравнение с много от неговите конкуренти. Например, в предизвикателния бенчмарк MMLU (Massive Multitask Language Understanding), RWKV-7 показа забележими подобрения спрямо своя предшественик, RWKV-6. Неговите печалби бяха още по-изразени в многоезични задачи, пряко отразявайки ползите, извлечени от обширния и разнообразен корпус за обучение RWKV World v3.
Освен стандартизираните академични бенчмаркове, оценката включваше и оценки с помощта на скорошни интернет данни. Тези тестове имаха за цел да измерят способността на модела да обработва и разсъждава върху актуална информация, потвърждавайки неговата ефективност при работа със съвременни знания и езикова употреба.
Специфичните силни страни, подчертани по време на оценката, включват:
- Асоциативно извикване (Associative Recall): Моделът демонстрира силен капацитет за извикване на информация въз основа на асоциирани сигнали, критична способност за задачи, включващи извличане на знания и разсъждение.
- Механистичен архитектурен дизайн (Mechanistic Architecture Design): Оценките имплицитно валидират ефективността на специфичните архитектурни избори, направени в RWKV-7, показвайки техния принос към общата производителност.
- Запазване на дълъг контекст (Long-Context Retention): Въпреки че се възползва от константната употреба на памет, моделът също така демонстрира практическа способност за запазване и използване на информация върху разширени дължини на поредици, което е от решаващо значение за задачи, изискващи моделиране на зависимости на дълги разстояния.
От решаващо значение е, че постиженията в производителността бяха реализирани със забележителна изчислителна ефективност. Въпреки че работи при ограничения в наличните ресурси за обучение в сравнение с някои индустриални гиганти, RWKV-7 постигна своите силни резултати в бенчмарковете, като същевременно изисква по-малко операции с плаваща запетая (FLOPs) по време на обучение от няколко водещи Transformer модела със сравним размер. Това подчертава ефективността на параметрите и присъщите предимства на неговия линейно мащабиращ се рекурентен дизайн. Комбинацията от производителност на ниво SoTA (особено многоезично) и превъзходна изчислителна икономичност позиционира RWKV-7 като мощна и практична алтернатива в пейзажа на моделирането на поредици.
Навигиране през текущите препятствия и визия за бъдещи хоризонти
Въпреки впечатляващите си постижения и присъщи предимства, архитектурата RWKV-7, както всяка сложна технология, не е без своите ограничения и области за бъдещо усъвършенстване. Изследователите открито признават няколко предизвикателства:
- Чувствителност към числова точност (Numerical Precision Sensitivity): Някои аспекти на изчисленията на модела могат да бъдат чувствителни към числовата точност, което потенциално изисква внимателно внедряване и обработка, особено по време на обучение във формати с по-ниска точност (като bfloat16), за да се поддържа стабилност и производителност.
- Липса на настройка по инструкции (Lack of Instruction Tuning): Пуснатите модели RWKV-7, към момента на представянето им, не са преминали през мащабна настройка по инструкции или Обучение с обратна връзка от хора (RLHF). Това означава, че те може да са по-малко умели от фино настроените си аналози в следването на сложни инструкции или воденето на нюансиран диалог по начин zero-shot.
- Чувствителност към подкани (Prompt Sensitivity): Подобно на много големи езикови модели, качеството на изхода на RWKV-7 понякога може да бъде чувствително към специфичната формулировка и структура на входната подкана. Постигането на оптимални резултати може да изисква известна степен на инженеринг на подкани.
- Ограничени изчислителни ресурси (Restricted Computational Resources): Макар и ефективно спрямо производителността си, разработването и обучението все пак са проведени при ограничения на ресурсите в сравнение с огромната изчислителна мощ, достъпна за някои големи AI лаборатории. Усилията за мащабиране могат да разкрият нови предизвикателства или възможности.
Гледайки напред, пътната карта за развитие на RWKV включва няколко обещаващи насоки, целящи справяне с тези ограничения и по-нататъшно подобряване на възможностите на архитектурата. Ключовите области на фокус включват:
- Оптимизиране на скоростта на инференция (Optimizing Inference Speed): Продължаващите усилия за оптимизиране на кодовата база и потенциално проучване на специфични за хардуера имплементации биха могли допълнително да подобрят вече изгодната скорост на инференция, правейки внедряването още по-практично.
- Включване на разсъждение тип „верига на мисълта“ (Incorporating Chain-of-Thought Reasoning): Изследването на методи за извличане или обучение на способности за разсъждение тип „верига на мисълта“ (CoT) в рамките на RWKV би могло значително да повиши производителността му при сложни задачи за решаване на проблеми, които изискват многоетапна логическа дедукция.
- Мащабиране с по-големи набори от данни и размери на модели (Scaling with Larger Datasets and Model Sizes): Използването на ефективната архитектура за обучение на още по-големи модели върху потенциално разширени версии на многоезичния набор от данни обещава по-нататъшно разширяване на границите на производителността.
- Настройка по инструкции и подравняване (Instruction Tuning and Alignment): Прилагането на установени техники за следване на инструкции и подравняване с човешките предпочитания ще бъде от решаващо значение за превръщането на RWKV моделите в по-удобни за потребителя и контролируеми за последващи приложения.
Отворената наличност на моделите RWKV-7, обширният набор от данни за обучение и свързаният код под лиценза Apache 2.0 служат като мощен катализатор за участието на общността. Това насърчава по-широки изследвания в областта на ефективното моделиране на поредици, позволява независима проверка на резултатите и дава възможност на разработчиците да надграждат върху тази иновативна рекурентна архитектура, потенциално ускорявайки напредъка към по-способни, достъпни и изчислително устойчиви AI системи.