微软打破 Decoder-Only 架构：大幅降低 GPU 内存需求

微软打破 Decoder-Only 架构：大幅降低 GPU 内存需求

https://www.ithome.com/0/767/340.htm

https://arxiv.org/abs/2405.05254 （英文）

微软 & 清华最新研究，打破 GPT 系列开创的 Decoder-Only 架构 —— 提出 Decoder-Decoder 新型架构，名为 YOCO（You Only Cache Once）。

YOCO 仅缓存一次键值对，可大幅降低 GPU 内存需求，且保留全局注意力能力。一张图来看 YOCO 和标准 Transformer 的比较。

在处理 512K 上下文长度时，标准 Transformer 内存使用是 YOCO 的 6.4 倍，预填充延迟是 YOCO 的 30.3 倍，而 YOCO 的吞吐量提升到标准 Transformer 的 9.6 倍。