RWKV-7 'Goose': Эффективное моделирование последовательностей | ru

Меняющиеся тенденции в обработке последовательностей: за пределами ограничений Transformer

В течение нескольких лет область моделирования последовательностей, особенно в обработке естественного языка, в подавляющем большинстве определялась успехом авторегрессионных архитектур Transformer. Их замечательная способность к обучению в контексте (in-context learning) в сочетании с присущей параллелизуемостью на этапе обучения, обеспечиваемой механизмом внимания softmax attention, закрепили их позицию доминирующей парадигмы. Однако это доминирование сопряжено со значительными издержками. Основной вычислительный механизм, softmax attention, демонстрирует квадратичное масштабирование по отношению к длине входной последовательности. Эта характеристика напрямую приводит к росту вычислительных затрат и значительным требованиям к памяти, создавая серьезное узкое место, особенно при работе с обширными последовательностями, характерными для современных приложений, таких как реферирование документов, ответы на длинные вопросы или геномный анализ.

Хотя сложные оптимизации для GPU позволили несколько смягчить это давление для коротких последовательностей во время обучения, этап вывода (inference) — когда модели развертываются в реальных сценариях — остается печально известным своей ресурсоемкостью и дороговизной, особенно при работе в больших масштабах. Квадратичная природа внимания означает, что удвоение длины последовательности учетверяет вычислительные усилия и объем памяти во время вывода, что делает развертывание очень больших моделей Transformer на длинных контекстах экономически сложным или технически невыполнимым во многих ситуациях.

Признавая эти фундаментальные ограничения, исследователи настойчиво изучали альтернативные архитектурные пути. Особенно перспективным направлением является пересмотр и возрождение конструкций рекуррентных нейронных сетей (RNN). Современные подходы к RNN направлены на включение механизмов сжимаемого состояния. Эти состояния инкапсулируют релевантную историческую информацию из последовательности, позволяя модели работать с линейной вычислительной сложностью относительно длины последовательности и, что особенно важно, поддерживать постоянное использование памяти независимо от того, насколько длинной становится последовательность во время вывода. Эта характеристика предлагает убедительное преимущество перед Transformer для задач с длинными последовательностями. Недавние успехи в таких областях, как аппроксимации линейного внимания и модели пространства состояний (SSMs), продемонстрировали значительный потенциал. Архитектуры, такие как RWKV-4, стали заметными примерами, демонстрируя конкурентоспособные уровни производительности при резком снижении вычислительной нагрузки, связанной с выводом, намекая на жизнеспособный путь вперед за пределы квадратичных ограничений стандартного внимания.

Представляем RWKV-7 ‘Goose’: новый эталон производительности рекуррентных архитектур

Опираясь на этот фундамент и расширяя границы рекуррентных архитектур, совместные усилия исследователей из различных учреждений, включая RWKV Project, EleutherAI, Tsinghua University и других, привели к разработке RWKV-7, под кодовым названием ‘Goose’. Эта новая архитектура моделирования последовательностей представляет собой значительный скачок вперед, устанавливая новые эталонные показатели производительности (SoTA), особенно в масштабе 3 миллиардов параметров, в широком спектре многоязычных задач.

Одним из самых поразительных аспектов достижений RWKV-7 является его замечательная эффективность. Несмотря на то, что RWKV-7 обучался на значительно меньшем корпусе токенов по сравнению со многими ведущими современными моделями, он обеспечивает возможности обработки английского языка, которые весьма конкурентоспособны с его более крупными и более требовательными к данным аналогами. Возможно, более важно то, что он достигает этого, строго придерживаясь основных принципов эффективности продвинутых RNN: постоянное потребление памяти и постоянное время вывода на токен, независимо от длины обрабатываемой последовательности. Это делает RWKV-7 исключительно привлекательным вариантом для приложений, требующих как высокой производительности, так и экономии ресурсов, особенно при обработке длинных контекстов.

Достижения, воплощенные в RWKV-7, проистекают из нескольких ключевых архитектурных инноваций, которые расширяют и совершенствуют принципы его предшественников. Модель включает в себя сложный механизм векторного управления состоянием (vector-valued state gating), позволяющий более тонко контролировать поток информации в рекуррентном состоянии. Кроме того, она вводит адаптивные скорости обучения в контексте (adaptive in-context learning rates), позволяя модели динамически корректировать процесс обучения на основе непосредственного контекста, потенциально повышая ее способность улавливать сложные зависимости. Усовершенствованный механизм замены значений (value replacement mechanism) в рамках основного правила рекуррентного обновления, расширяющий концепцию delta rule, дополнительно повышает выразительность модели и ее способность к распознаванию сложных паттернов.

Эти усовершенствования — не просто эмпирические улучшения; они наделяют RWKV-7 теоретическими возможностями, которые превосходят те, что часто ассоциируются со стандартными Transformer при типичных предположениях о сложности. Исследователи предоставляют доказательства того, что RWKV-7 может эффективно отслеживать сложные состояния и, что важно, распознавать весь класс регулярных языков, что считается сложной задачей для ванильных Transformer без специализированных модификаций или потенциально непомерного вычислительного масштабирования.

Подчеркивая свою приверженность открытой науке и совместному прогрессу, исследовательская группа выпустила не только детали архитектуры, но и набор предварительно обученных моделей RWKV-7. Эти модели охватывают диапазон размеров, от гибкого варианта с 0.19 миллиардами параметров до мощного варианта с 2.9 миллиардами параметров, удовлетворяя разнообразные вычислительные бюджеты и потребности приложений. К этим моделям прилагается обширный многоязычный корпус из 3.1 триллиона токенов, названный RWKV World v3, который сыграл важную роль в обучении моделей и сам по себе является ценным ресурсом для сообщества. Все эти вклады, включая веса моделей и базовый код, доступны по разрешительной лицензии Apache 2.0 open-source, способствуя широкому внедрению, изучению и дальнейшему развитию.

Глубокое погружение в архитектуру: движок, приводящий в действие RWKV-7

Философия дизайна RWKV-7 основывается на прочном фундаменте, заложенном RWKV-6, наследуя такие функции, как token-shift для улучшенного временного моделирования, бонусные механизмы для уточненного поведения, подобного вниманию, и эффективную структуру сети прямого распространения ReLU². Однако итерация ‘Goose’ вносит несколько критических улучшений, которые в совокупности повышают ее возможности.

Векторное управление состоянием (Vector-Valued State Gating): Отходя от более простых скалярных гейтов, RWKV-7 использует векторные гейты. Это позволяет различным каналам или измерениям в рекуррентном состоянии обновляться и модулироваться независимо, обеспечивая гораздо более тонкую степень контроля над тем, как информация сохраняется или затухает со временем. Эта повышенная гранулярность улучшает способность модели управлять сложной, многогранной контекстной информацией.
Адаптивные скорости обучения в контексте (Adaptive In-Context Learning Rates): Новый механизм позволяет внутренней «скорости обучения» модели для усвоения контекста динамически адаптироваться на основе обрабатываемых токенов. Это предполагает, что модель может усиливать свое внимание к новой или неожиданной информации, потенциально снижая вес избыточных входных данных, что приводит к более эффективному обучению и представлению состояния.
Усовершенствованная формулировка Delta Rule: Основной блок смешивания времени (time-mixing block), отвечающий за интеграцию прошлой информации, претерпел значительное усовершенствование delta rule. Это включает сложные взаимодействия между входящими токенами и рекуррентным состоянием с использованием обучаемых матриц (обозначенных размерностью модели D) для сложных преобразований. Процесс включает подготовку весов с использованием низкоранговых многослойных перцептронов (MLP) для эффективности. Ключевые компоненты, управляющие эволюцией состояния, включают:
- Ключи замены (Replacement Keys): Определяют части состояния, подлежащие обновлению.
- Факторы затухания (Decay Factors): Контролируют, как быстро исчезает прошлая информация.
- Скорости обучения (Learning Rates): Модулируют интенсивность обновлений на основе текущего ввода.
Механизм взвешенных ключ-значение (Weighted Key-Value, WKV): Этот механизм является центральным для аппроксимации линейного внимания в архитектуре RWKV. Он облегчает динамические переходы состояний на основе взвешенных взаимодействий между ключами и значениями, полученными из входной последовательности, эффективно действуя как сложный гейт забывания, который позволяет модели избирательно сохранять или отбрасывать прошлую информацию на основе релевантности.
Улучшения выразительности (Expressivity Enhancements): RWKV-7 включает поканальные модификации и использует двухслойную структуру MLP в определенных компонентах. Эти изменения предназначены не только для увеличения репрезентативной мощности модели, но и для улучшения вычислительной стабильности и числовой точности во время обучения и вывода, при этом тщательно сохраняя критически важные возможности отслеживания состояния, присущие дизайну RNN.

Режим обучения RWKV-7 использовал недавно скомпилированный корпус RWKV World v3. Этот массивный набор данных, содержащий более 3 триллионов токенов, был целенаправленно подобран для повышения квалификации модели не только в английском, но и значительно в различных других языках и программном коде, отражая растущую потребность в действительно многоязычных и осведомленных о коде базовых моделях.

Кроме того, исследование предоставляет теоретическое обоснование мощности RWKV-7. Предлагаются доказательства, демонстрирующие его способность решать проблемы, считающиеся недоступными для класса сложности TC₀, который включает такие задачи, как отслеживание состояния S₅ (управление перестановками 5 элементов) и вышеупомянутое распознавание всех регулярных языков. Это теоретическое преимущество предполагает, что RWKV-7 может обрабатывать определенные типы структурированных или алгоритмических задач более естественно и эффективно, чем традиционные архитектуры Transformer. Интересным практическим результатом архитектурного дизайна является предложение экономически эффективного пути обновления. Этот метод потенциально позволяет улучшать существующие модели RWKV для включения новых архитектурных улучшений без необходимости полного, дорогостоящего цикла переобучения с нуля, способствуя более гибкой и инкрементной разработке моделей.

Оценка ‘Goose’: производительность на различных бенчмарках

Для тщательной оценки возможностей RWKV-7 модели прошли обширное тестирование с использованием широко распространенного LM Evaluation Harness. Эта платформа предоставляет стандартизированный набор бенчмарков, охватывающих широкий спектр задач понимания и генерации языка. Оценки охватывали как англоцентричные бенчмарки, так и различные многоязычные задачи.

Результаты рисуют убедительную картину мастерства RWKV-7. На многочисленных бенчмарках модели RWKV-7 продемонстрировали уровни производительности, которые весьма конкурентоспособны с устоявшимися моделями state-of-the-art, включая известные архитектуры на основе Transformer. Это особенно примечательно, учитывая значительно меньший объем обучающих токенов, использованных для RWKV-7 по сравнению со многими его конкурентами. Например, на сложном бенчмарке MMLU (Massive Multitask Language Understanding) RWKV-7 показал заметные улучшения по сравнению со своим предшественником, RWKV-6. Его успехи были еще более выраженными в многоязычных задачах, что напрямую отражает преимущества, полученные от обширного и разнообразного обучающего корпуса RWKV World v3.

Помимо стандартизированных академических бенчмарков, оценка также включала тесты с использованием свежих данных из интернета. Эти тесты были направлены на оценку способности модели обрабатывать и рассуждать об актуальной информации, подтверждая ее эффективность в работе с современными знаниями и использованием языка.

Конкретные сильные стороны, выявленные в ходе оценки, включают:

Ассоциативное извлечение (Associative Recall): Модель продемонстрировала сильную способность извлекать информацию на основе связанных подсказок, что является критически важной возможностью для задач, связанных с извлечением знаний и рассуждениями.
Механистический дизайн архитектуры (Mechanistic Architecture Design): Оценки неявно подтверждают эффективность конкретных архитектурных решений, принятых в RWKV-7, показывая их вклад в общую производительность.
Удержание длинного контекста (Long-Context Retention): Выигрывая от постоянного использования памяти, модель также продемонстрировала практическую способность сохранять и использовать информацию на протяжении длинных последовательностей, что крайне важно для задач, требующих моделирования дальних зависимостей.

Важно отметить, что достижения в производительности были реализованы с замечательной вычислительной эффективностью. Несмотря на работу в условиях ограниченных доступных ресурсов для обучения по сравнению с некоторыми гигантами индустрии, RWKV-7 достиг своих высоких показателей на бенчмарках, требуя меньше операций с плавающей запятой (FLOPs) во время обучения, чем несколько ведущих моделей Transformer сопоставимого размера. Это подчеркивает эффективность параметров и неотъемлемые преимущества его линейно масштабируемого рекуррентного дизайна. Сочетание производительности уровня SoTA (особенно в многоязычном аспекте) и превосходной вычислительной экономичности позиционирует RWKV-7 как мощную и практичную альтернативу в ландшафте моделирования последовательностей.

Преодоление текущих препятствий и видение будущих горизонтов

Несмотря на впечатляющие достижения и неотъемлемые преимущества, архитектура RWKV-7, как и любая сложная технология, не лишена ограничений и областей для будущих усовершенствований. Исследователи открыто признают несколько проблем:

Чувствительность к числовой точности (Numerical Precision Sensitivity): Некоторые аспекты вычислений модели могут быть чувствительны к числовой точности, что потенциально требует тщательной реализации и обработки, особенно во время обучения в форматах с пониженной точностью (например, bfloat16), для поддержания стабильности и производительности.
Отсутствие настройки на инструкции (Lack of Instruction Tuning): Выпущенные модели RWKV-7 на момент их представления не проходили крупномасштабную настройку на инструкции или обучение с подкреплением на основе обратной связи от человека (RLHF). Это означает, что они могут быть менее искусными, чем дообученные аналоги, в следовании сложным инструкциям или ведении тонкого диалога в режиме zero-shot.
Чувствительность к промптам (Prompt Sensitivity): Как и многие большие языковые модели, качество вывода RWKV-7 иногда может быть чувствительным к конкретной формулировке и структуре входного промпта. Достижение оптимальных результатов может потребовать определенной степени инженерии промптов.
Ограниченные вычислительные ресурсы (Restricted Computational Resources): Хотя разработка и обучение были эффективными относительно производительности, они все же проводились в условиях ограниченных ресурсов по сравнению с огромной вычислительной мощностью, доступной некоторым крупным лабораториям ИИ. Усилия по масштабированию могут выявить новые проблемы или возможности.

Заглядывая вперед, дорожная карта развития RWKV включает несколько перспективных направлений, направленных на устранение этих ограничений и дальнейшее расширение возможностей архитектуры. Ключевые области фокуса включают:

Оптимизация скорости вывода (Optimizing Inference Speed): Продолжающиеся усилия по оптимизации кодовой базы и потенциальное исследование аппаратно-специфических реализаций могут еще больше улучшить и без того выгодную скорость вывода, делая развертывание еще более практичным.
Внедрение рассуждений по цепочке мыслей (Incorporating Chain-of-Thought Reasoning): Исследование методов для вызова или обучения способностям к рассуждению по цепочке мыслей (CoT) в рамках RWKV может значительно повысить его производительность в сложных задачах решения проблем, требующих многошаговой логической дедукции.
Масштабирование с большими наборами данных и размерами моделей (Scaling with Larger Datasets and Model Sizes): Использование эффективной архитектуры для обучения еще более крупных моделей на потенциально расширенных версиях многоязычного набора данных обещает дальнейшее расширение границ производительности.
Настройка на инструкции и выравнивание (Instruction Tuning and Alignment): Применение устоявшихся методов для следования инструкциям и выравнивания с человеческими предпочтениями будет иметь решающее значение для того, чтобы сделать модели RWKV более удобными для пользователя и управляемыми для последующих приложений.

Открытая доступность моделей RWKV-7, обширного обучающего набора данных и связанного с ним кода по лицензии Apache 2.0 служит мощным катализатором для участия сообщества. Это поощряет более широкие исследования в области эффективного моделирования последовательностей, позволяет проводить независимую проверку результатов и дает разработчикам возможность развивать эту инновационную рекуррентную архитектуру, потенциально ускоряя прогресс в направлении более способных, доступных и вычислительно устойчивых систем ИИ.

обновлено 2025-03-27

# LLM # AIGC # RWKV