论文 | Fast Transformer Decoding: One Write-Head is All You Need

标签: 论文 , Transformer 更新于: 2024/08/29 阅读:219

论文地址

[1911.02150] Fast Transformer Decoding: One Write-Head is All You Need

论文总结

《Fast Transformer Decoding: One Write - Head is All You Need》总结

这篇论文由Noam Shazeer撰写，提出了一种名为多查询注意力（Multi - Query Attention）的Transformer变体，旨在提高增量推理的速度，同时减少质量下降。

引言
- Transformer模型中，多头注意力层在训练时并行性好，但增量推理速度慢，受限于内存带宽。
- 本文提出多查询注意力，减少键和值张量的大小，降低内存带宽要求，提高推理速度。
背景：神经注意力
- 点积注意力：通过查询向量与键向量的点积计算权重，对值向量进行加权求和得到输出向量。
- 多头注意力：并行使用多个注意力层，查询向量、键向量和值向量通过不同的线性投影得到。
- 多头注意力（批量）：批量处理多个查询，提高效率，可防止信息回流。
- 多头注意力（增量）：在自回归语言模型中，由于输出的自注意力层会影响下一个位置的生成，导致无法并行计算。
多查询注意力
- 与多头注意力类似，但不同的头共享一组键和值。
- 性能分析：在增量设置中，内存访问与算术运算的比例降低，理论上能大幅提高增量生成的性能。
实验与结果
- 实验设置：在WMT 2014英德翻译任务和亿词语言建模基准上进行实验，与基线模型进行对比。
- 模型质量：多查询注意力模型略逊于基线模型，但比减少头数或键值维度的模型要好。
- 速度：训练和推理速度在TPUv2上评估，多查询模型的编码器和解码器速度均比基线模型快。
结论
- 多查询注意力降低了内存带宽要求，使基于注意力的序列模型在推理性能关键的应用中更广泛地采用。

论文 | Fast Transformer Decoding: One Write-Head is All You Need

论文地址

论文总结

相关文档

论文相关文章

Transformer相关文章

最近热门

最常浏览