시퀀스 처리의 변화하는 흐름: Transformer 한계를 넘어서
수년 동안, 특히 자연어 처리 분야에서 시퀀스 모델링 영역은 자동 회귀 Transformer 아키텍처의 성공에 의해 압도적으로 형성되어 왔습니다. 인컨텍스트 학습(in-context learning)에 대한 놀라운 적성 능력과 softmax attention 메커니즘에 의해 촉진된 훈련 단계에서의 고유한 병렬화 가능성은 이들을 지배적인 패러다임으로 확고히 자리 잡게 했습니다. 그러나 이러한 지배력에는 상당한 비용이 따릅니다. 핵심 계산 엔진인 softmax attention은 입력 시퀀스의 길이에 대해 **이차적 스케일링 동작(quadratic scaling behavior)**을 보입니다. 이 특성은 계산 오버헤드 증가와 상당한 메모리 요구 사항으로 직접 변환되어, 문서 요약, 장문 질의응답 또는 게놈 분석과 같은 현대 애플리케이션에서 흔히 볼 수 있는 광범위한 시퀀스를 처리할 때 특히 중요한 병목 현상을 야기합니다.
정교한 GPU 최적화가 훈련 중 짧은 시퀀스 길이에 대한 이러한 압력 중 일부를 완화하는 데 성공했지만, 모델이 실제 시나리오에 배포되는 추론 단계는 특히 대규모로 운영될 때 악명 높게 자원 집약적이고 비용이 많이 듭니다. attention의 이차적 특성은 시퀀스 길이를 두 배로 늘리면 추론 중 계산 노력과 메모리 사용량이 네 배로 증가한다는 것을 의미하며, 이는 매우 긴 컨텍스트에서 매우 큰 Transformer 모델을 배포하는 것을 많은 상황에서 경제적으로 어렵거나 기술적으로 불가능하게 만듭니다.
이러한 근본적인 한계를 인식하고 연구자들은 지속적으로 대안적인 아키텍처 경로를 탐색해 왔습니다. 특히 유망한 방향은 순환 신경망(RNN) 설계를 재검토하고 활성화하는 것을 포함합니다. 현대 RNN 접근 방식은 압축 상태 메커니즘을 통합하는 것을 목표로 합니다. 이러한 상태는 시퀀스로부터 관련 과거 정보를 캡슐화하여 모델이 시퀀스 길이에 대해 **선형 계산 복잡도(linear computational complexity)**로 작동하고, 결정적으로 추론 중 시퀀스가 아무리 길어져도 **상수 메모리 사용량(constant memory usage)**을 유지할 수 있게 합니다. 이 특성은 긴 시퀀스 작업에서 Transformer에 비해 강력한 이점을 제공합니다. 선형 attention 근사 및 상태 공간 모델(SSM)과 같은 분야에서의 최근 진전은 상당한 잠재력을 보여주었습니다. RWKV-4와 같은 아키텍처는 주목할 만한 예시로 등장하여, 추론과 관련된 계산 부담을 대폭 줄이면서 경쟁력 있는 성능 수준을 보여주며, 표준 attention의 이차적 제약을 넘어서는 실행 가능한 길을 암시했습니다.
RWKV-7 ‘Goose’ 소개: 순환 아키텍처 성능의 새로운 기준
이러한 기반 위에 구축되고 순환 아키텍처의 경계를 넓히면서, RWKV Project, EleutherAI, Tsinghua University 등을 포함한 다양한 기관의 연구자들이 참여한 협력 노력은 **RWKV-7, 코드명 ‘Goose’**의 개발로 절정에 달했습니다. 이 새로운 시퀀스 모델링 아키텍처는 상당한 도약을 나타내며, 특히 30억 파라미터 규모에서 광범위한 다국어 작업 전반에 걸쳐 새로운 최첨단(SoTA) 성능 벤치마크를 수립합니다.
RWKV-7의 성취 중 가장 두드러진 측면 중 하나는 놀라운 효율성입니다. 많은 주요 현대 모델에 비해 상당히 적은 토큰 코퍼스로 훈련되었음에도 불구하고, RWKV-7은 더 크고 데이터 집약적인 경쟁 모델들과 매우 경쟁력 있는 영어 처리 능력을 제공합니다. 아마도 더 중요한 것은, 고급 RNN의 핵심 효율성 원칙인 상수 메모리 소비와 토큰당 일관된 추론 시간을 처리되는 시퀀스 길이에 관계없이 충실히 준수하면서 이를 달성한다는 것입니다. 이는 RWKV-7을 높은 성능과 자원 절약이 모두 요구되는 애플리케이션, 특히 긴 컨텍스트를 처리할 때 매우 매력적인 옵션으로 만듭니다.
RWKV-7에 구현된 발전은 이전 모델의 원칙을 확장하고 개선하는 여러 핵심 아키텍처 혁신에서 비롯됩니다. 이 모델은 정교한 **벡터 값 상태 게이팅 메커니즘(vector-valued state gating mechanism)**을 통합하여 순환 상태 내 정보 흐름에 대한 더 미묘한 제어를 가능하게 합니다. 또한, **적응형 인컨텍스트 학습률(adaptive in-context learning rates)**을 도입하여 모델이 즉각적인 컨텍스트를 기반으로 학습 프로세스를 동적으로 조정할 수 있게 하여 복잡한 의존성을 포착하는 능력을 잠재적으로 향상시킵니다. 핵심 순환 업데이트 규칙 내에서 delta rule 개념을 확장한 개선된 **값 대체 메커니즘(value replacement mechanism)**은 모델의 표현력과 복잡한 패턴 인식 능력을 더욱 향상시킵니다.
이러한 개선 사항은 단순히 경험적 개선이 아닙니다. 이는 RWKV-7에 일반적인 복잡성 가정 하에서 표준 Transformer와 관련된 것들을 능가하는 이론적 능력을 부여합니다. 연구자들은 RWKV-7이 복잡한 상태를 효율적으로 추적할 수 있으며, 중요하게는 **모든 정규 언어 클래스를 인식(recognize the entire class of regular languages)**할 수 있다는 증거를 제공합니다. 이는 특수 수정이나 잠재적으로 엄청난 계산 스케일링 없이는 바닐라 Transformer에게 어려운 것으로 간주되는 위업입니다.
개방형 과학과 협력적 진보에 대한 그들의 약속을 강조하며, 연구팀은 아키텍처 세부 정보뿐만 아니라 사전 훈련된 RWKV-7 모델 제품군도 공개했습니다. 이 모델들은 민첩한 0.19억 파라미터부터 강력한 29억 파라미터 변형까지 다양한 크기를 포괄하며, 다양한 계산 예산과 애플리케이션 요구에 부응합니다. 이 모델들과 함께, 모델 훈련에 중요한 역할을 했으며 커뮤니티 자체에 귀중한 자원인 RWKV World v3라고 불리는 광범위한 3.1조 토큰 다국어 코퍼스가 제공됩니다. 모델 가중치와 기본 코드베이스를 포함한 모든 이러한 기여는 허용적인 Apache 2.0 오픈 소스 라이선스 하에 제공되어 광범위한 채택, 검토 및 추가 개발을 촉진합니다.
아키텍처 심층 분석: RWKV-7을 구동하는 엔진
RWKV-7의 설계 철학은 RWKV-6에 의해 놓인 견고한 기반 위에 구축되어, 개선된 시간적 모델링을 위한 token-shift, 정제된 attention 유사 행동을 위한 보너스 메커니즘, 효율적인 ReLU² 피드포워드 네트워크 구조와 같은 특징들을 계승합니다. 그러나 ‘Goose’ 반복은 그 능력을 집합적으로 향상시키는 몇 가지 중요한 개선 사항을 도입합니다.
- 벡터 값 상태 게이팅 (Vector-Valued State Gating): 더 간단한 스칼라 게이팅에서 벗어나, RWKV-7은 벡터 게이트를 사용합니다. 이를 통해 순환 상태 내의 다른 채널이나 차원이 독립적으로 업데이트되고 조절될 수 있어, 정보가 시간에 따라 지속되거나 소멸되는 방식에 대해 훨씬 더 세밀한 제어를 제공합니다. 이러한 증가된 세분성은 모델이 복잡하고 다면적인 문맥 정보를 관리하는 능력을 향상시킵니다.
- 적응형 인컨텍스트 학습률 (Adaptive In-Context Learning Rates): 새로운 메커니즘은 컨텍스트 동화를 위한 모델의 내부 ‘학습률’이 처리되는 토큰에 따라 동적으로 적응할 수 있게 합니다. 이는 모델이 새롭거나 놀라운 정보에 대한 초점을 강화하는 동시에 잠재적으로 중복 입력을 경시하여 더 효율적인 학습 및 상태 표현으로 이어질 수 있음을 시사합니다.
- 개선된 Delta Rule 공식 (Refined Delta Rule Formulation): 과거 정보 통합을 담당하는 핵심 시간 혼합 블록은 delta rule의 상당한 개선을 보입니다. 이는 들어오는 토큰과 순환 상태 간의 복잡한 상호 작용을 포함하며, 정교한 변환을 위해 훈련 가능한 행렬(모델 차원 D로 표시됨)을 사용합니다. 이 프로세스에는 효율성을 위한 저계급(low-rank) Multi-Layer Perceptrons (MLPs)를 사용한 가중치 준비가 포함됩니다. 상태 진화를 지배하는 주요 구성 요소는 다음과 같습니다:
- 대체 키 (Replacement Keys): 업데이트할 상태 부분을 결정합니다.
- 감쇠 인자 (Decay Factors): 과거 정보가 얼마나 빨리 사라지는지 제어합니다.
- 학습률 (Learning Rates): 현재 입력을 기반으로 업데이트 강도를 조절합니다.
- 가중 키-값 (WKV) 메커니즘 (Weighted Key-Value (WKV) Mechanism): 이 메커니즘은 RWKV 아키텍처의 선형 attention 근사의 핵심입니다. 입력 시퀀스에서 파생된 키와 값 사이의 가중 상호 작용을 기반으로 동적 상태 전환을 용이하게 하며, 모델이 관련성에 따라 과거 정보를 선택적으로 유지하거나 폐기할 수 있도록 하는 정교한 망각 게이트처럼 효과적으로 작동합니다.
- 표현력 향상 (Expressivity Enhancements): RWKV-7은 채널별 수정 사항을 통합하고 특정 구성 요소에서 2계층 MLP 구조를 활용합니다. 이러한 변경 사항은 모델의 표현력을 높일 뿐만 아니라 훈련 및 추론 중 계산 안정성과 수치 정밀도를 개선하도록 설계되었으며, RNN 설계에 내재된 중요한 상태 추적 기능을 신중하게 보존합니다.
RWKV-7의 훈련 과정은 새로 컴파일된 RWKV World v3 코퍼스를 활용했습니다. 3조 개 이상의 토큰을 포함하는 이 방대한 데이터셋은 모델의 능숙도를 영어뿐만 아니라 다양한 다른 언어 및 프로그래밍 코드에서도 크게 향상시키기 위해 의도적으로 큐레이션되었으며, 이는 진정으로 다국어 및 코드 인식 기반 모델에 대한 증가하는 요구를 반영합니다.
또한, 이 연구는 RWKV-7의 능력에 대한 이론적 근거를 제공합니다. S₅ 상태 추적 (5개 요소의 순열 관리) 및 앞서 언급한 모든 정규 언어 인식과 같은 작업을 포함하는 복잡도 클래스 TC₀의 범위를 벗어나는 것으로 간주되는 문제를 해결할 수 있는 능력을 입증하는 증명이 제공됩니다. 이 이론적 우위는 RWKV-7이 특정 유형의 구조화되거나 알고리즘적인 작업을 기존 Transformer 아키텍처보다 더 자연스럽고 효율적으로 처리할 수 있음을 시사합니다. 아키텍처 설계의 흥미로운 실제 결과는 비용 효율적인 업그레이드 경로 제안입니다. 이 방법은 잠재적으로 기존 RWKV 모델을 향상시켜 처음부터 완전하고 비용이 많이 드는 재훈련 주기를 필요로 하지 않고 새로운 아키텍처 개선 사항을 통합할 수 있게 하여, 보다 민첩하고 점진적인 모델 개발을 용이하게 합니다.
Goose 측정: 다양한 벤치마크에서의 성능
RWKV-7의 능력을 엄격하게 평가하기 위해, 모델들은 널리 채택된 LM Evaluation Harness를 사용하여 광범위한 평가를 거쳤습니다. 이 프레임워크는 광범위한 언어 이해 및 생성 작업을 포괄하는 표준화된 벤치마크 제품군을 제공합니다. 평가는 영어 중심 벤치마크와 다양한 다국어 과제를 모두 포함했습니다.
결과는 RWKV-7의 뛰어난 능력을 설득력 있게 보여줍니다. 수많은 벤치마크에서 RWKV-7 모델은 저명한 Transformer 기반 아키텍처를 포함한 기존 최첨단 모델과 매우 경쟁력 있는 성능 수준을 보여주었습니다. 이는 RWKV-7에 사용된 훈련 토큰의 양이 많은 경쟁 모델에 비해 현저히 적다는 점을 고려할 때 특히 주목할 만합니다. 예를 들어, 어려운 MMLU (Massive Multitask Language Understanding) 벤치마크에서 RWKV-7은 이전 모델인 RWKV-6에 비해 현저한 개선을 보였습니다. 다국어 작업에서의 이득은 더욱 두드러졌으며, 이는 광범위하고 다양한 RWKV World v3 훈련 코퍼스에서 파생된 이점을 직접적으로 반영합니다.
표준화된 학술 벤치마크 외에도, 평가는 최신 인터넷 데이터를 사용한 평가도 포함했습니다. 이러한 테스트는 최신 정보 처리 및 추론 능력에 대한 모델의 능력을 측정하여 현대 지식 및 언어 사용 처리에 대한 효과를 확인하는 것을 목표로 했습니다.
평가 중 강조된 특정 강점은 다음과 같습니다:
- 연관 회상 (Associative Recall): 모델은 연관된 단서를 기반으로 정보를 회상하는 강력한 능력을 보여주었으며, 이는 지식 검색 및 추론을 포함하는 작업에 중요한 능력입니다.
- 기계론적 아키텍처 설계 (Mechanistic Architecture Design): 평가는 RWKV-7에서 이루어진 특정 아키텍처 선택의 효과를 암묵적으로 검증하여 전체 성능에 대한 기여를 보여줍니다.
- 장기 컨텍스트 유지 (Long-Context Retention): 상수 메모리 사용량의 이점을 누리면서도, 모델은 확장된 시퀀스 길이에 걸쳐 정보를 유지하고 활용하는 실용적인 능력을 보여주었으며, 이는 장거리 의존성 모델링이 필요한 작업에 중요합니다.
결정적으로, 성능 성과는 놀라운 계산 효율성으로 실현되었습니다. 일부 산업 거물에 비해 사용 가능한 훈련 자원의 제약 하에서 운영되었음에도 불구하고, RWKV-7은 비슷한 크기의 여러 주요 Transformer 모델보다 훈련 중 **더 적은 부동 소수점 연산(FLOPs)**을 요구하면서 강력한 벤치마크 점수를 달성했습니다. 이는 파라미터 효율성과 선형적으로 확장되는 순환 설계의 고유한 이점을 강조합니다. SoTA 수준의 성능(특히 다국어)과 우수한 계산 절약의 조합은 RWKV-7을 시퀀스 모델링 환경에서 강력하고 실용적인 대안으로 자리매김하게 합니다.
현재 장애물 탐색 및 미래 지평 구상
인상적인 성과와 고유한 이점에도 불구하고, RWKV-7 아키텍처는 다른 복잡한 기술과 마찬가지로 한계와 향후 개선 영역이 없는 것은 아닙니다. 연구자들은 몇 가지 과제를 공개적으로 인정합니다:
- 수치 정밀도 민감성 (Numerical Precision Sensitivity): 모델 계산의 특정 측면은 수치 정밀도에 민감할 수 있으며, 안정성과 성능을 유지하기 위해 특히 낮은 정밀도 형식(예: bfloat16)으로 훈련하는 동안 신중한 구현 및 처리가 필요할 수 있습니다.
- 명령 튜닝 부족 (Lack of Instruction Tuning): 출시된 RWKV-7 모델은 소개 시점에 대규모 명령 튜닝이나 인간 피드백 기반 강화 학습(RLHF)을 거치지 않았습니다. 이는 제로샷 방식으로 복잡한 지침을 따르거나 미묘한 대화에 참여하는 데 미세 조정된 경쟁 모델보다 능숙하지 않을 수 있음을 의미합니다.
- 프롬프트 민감성 (Prompt Sensitivity): 많은 대규모 언어 모델과 마찬가지로 RWKV-7의 출력 품질은 때때로 입력 프롬프트의 특정 표현과 구조에 민감할 수 있습니다. 최적의 결과를 얻으려면 어느 정도의 프롬프트 엔지니어링이 필요할 수 있습니다.
- 제한된 계산 자원 (Restricted Computational Resources): 성능 대비 효율적이지만, 개발 및 훈련은 여전히 일부 주요 AI 연구소에서 사용할 수 있는 방대한 계산 능력에 비해 자원 제약 하에서 수행되었습니다. 확장 노력은 새로운 과제나 기회를 드러낼 수 있습니다.
앞으로 RWKV의 개발 로드맵에는 이러한 한계를 해결하고 아키텍처의 기능을 더욱 향상시키는 것을 목표로 하는 몇 가지 유망한 방향이 포함됩니다. 주요 초점 영역은 다음과 같습니다:
- 추론 속도 최적화 (Optimizing Inference Speed): 코드베이스를 최적화하고 잠재적으로 하드웨어별 구현을 탐색하기 위한 지속적인 노력은 이미 유리한 추론 속도를 더욱 향상시켜 배포를 더욱 실용적으로 만들 수 있습니다.
- 사고 연쇄 추론 통합 (Incorporating Chain-of-Thought Reasoning): RWKV 프레임워크 내에서 사고 연쇄(CoT) 추론 능력을 유도하거나 훈련하는 방법을 조사하면 다단계 논리적 추론이 필요한 복잡한 문제 해결 작업에서 성능을 크게 향상시킬 수 있습니다.
- 더 큰 데이터셋 및 모델 크기로 확장 (Scaling with Larger Datasets and Model Sizes): 효율적인 아키텍처를 활용하여 잠재적으로 확장된 다국어 데이터셋 버전에서 훨씬 더 큰 모델을 훈련하면 성능 경계를 더욱 넓힐 수 있는 가능성이 있습니다.
- 명령 튜닝 및 정렬 (Instruction Tuning and Alignment): 명령 준수 및 인간 선호도와의 정렬을 위한 확립된 기술을 적용하는 것은 RWKV 모델을 다운스트림 애플리케이션에 더 사용자 친화적이고 제어 가능하게 만드는 데 중요할 것입니다.
RWKV-7 모델, 광범위한 훈련 데이터셋 및 관련 코드가 Apache 2.0 라이선스 하에 공개적으로 제공되는 것은 커뮤니티 참여를 위한 강력한 촉매 역할을 합니다. 이는 효율적인 시퀀스 모델링에 대한 광범위한 연구를 장려하고, 결과의 독립적인 검증을 허용하며, 개발자가 이 혁신적인 순환 아키텍처를 기반으로 구축하여 더 유능하고 접근 가능하며 계산적으로 지속 가능한 AI 시스템을 향한 진전을 잠재적으로 가속화할 수 있도록 힘을 실어줍니다.