RWKV-X: Nueva Arquitectura para Contextos Largos
RWKV-X combina RWKV con atención dispersa para modelado eficiente de secuencias largas, superando limitaciones de modelos anteriores.
RWKV-X combina RWKV con atención dispersa para modelado eficiente de secuencias largas, superando limitaciones de modelos anteriores.
RWKV-7 'Goose' redefine el modelado de secuencias con eficiencia RNN. Ofrece rendimiento SoTA, especialmente multilingüe, con complejidad lineal y memoria constante, superando las limitaciones de Transformer. Es de código abierto bajo licencia Apache 2.0.