Tag: Stepfun

阶跃新型注意力机制:KV缓存消耗降93.7% 性能不减反增

阶跃星辰与清华大学等机构联合发布多矩阵分解注意力(MFA)机制,显著降低大语言模型推理成本,KV缓存使用量减少高达93.7%,同时保持甚至超越传统MHA性能。MFA易于实现,对超参数不敏感,兼容多种位置编码,为大模型高效推理提供了新方案。

阶跃新型注意力机制:KV缓存消耗降93.7% 性能不减反增