“Fast Inference from Transformers via Speculative Decoding”由Yaniv Leviathan等人撰写。文章提出了推测解码算法,通过并行计算多个令牌加速自回归模型推理,在不改变模型架构、训练过程和输出分布的前提下,实现2 - 3倍的加速。
-
背景与动机:大型自回归模型(如Transformers)推理速度慢,解码K个令牌需串行运行K次模型。现有加速推理的方法,如降低推理成本、自适应计算等,通常需要改变模型架构、训练过程或重新训练,且无法保证输出相同。本文基于部分推理步骤有难易之分,且大模型推理瓶颈常在于内存带宽和通信而非算术运算的观察,提出通过增加并行性加速推理,即推测解码算法。
-
推测解码
- 概述:使用更高效的近似模型生成个完成结果,再用目标模型并行评估这些猜测及其概率,接受能导致相同分布的猜测,并根据调整后的分布采样修正被拒绝的猜测或添加额外令牌。
- 标准化采样:将多种采样方法统一为从调整后的概率分布进行标准采样,便于后续处理。
- 推测采样:从采样,若则保留,否则以的概率拒绝并从调整后的分布重新采样,可证明采样结果服从分布。
-
分析
- 生成令牌数:假设独立同分布,用衡量对的近似程度,单次运行算法生成的令牌数是上限为、成功概率为的截尾几何变量,期望生成令牌数为。
- 计算:定义衡量分布差异,证明,进而得到。
- 运行时间改进:在有足够计算资源支持并行的情况下,算法减少对目标模型的调用次数,考虑近似模型的运行成本,得到算法在总运行时间上的改进因子为。
- 算术运算次数:算法并行运行次,增加了并发算术运算次数,其总运算次数增加因子为 ,但内存访问次数可能减少。
- 选择:根据和数值求解可得到最优 ,以最大化运行时间改进。预测并动态调整可能进一步提升性能。
- 近似模型:推测采样对近似模型选择无限制,实验中使用现成的较小Transformer模型,近似模型比目标模型小两个数量级时效果较好,此外还有零成本近似模型(如n - gram模型)等多种类型。
-
实验
- 运行时间改进:在T5 - XXL模型的英德翻译和文本摘要任务上进行实验,用T5 - small作为近似模型时加速比最高,分别在翻译任务和摘要任务上实现2.6X - 3.4X和2.3X - 3.1X的加速,与理论预测相符。
- 经验值:测量不同任务、模型和采样方法下的值,发现近似模型比目标模型小几个数量级时,值在0.5 - 0.9之间,且调整后的分布越尖锐,值越高,简单的一元和二元模型也能产生不可忽视的值。
-
相关工作:对比其他加速推理方法,如蒸馏、稀疏化、量化等通用方法,以及自适应计算方法,这些方法通常需改变模型架构和训练过程,且不保证输出相同。与类似的利用推测执行加速解码的方法相比,本文方法支持一般随机设置,对近似模型限制少。
-
讨论:推测解码在有足够计算资源时可显著加速推理,但增加并发会导致算术运算次数增加。未来研究方向包括探索与束搜索的兼容性、设计定制近似模型、采用分层算法、动态调整近似模型和、应用不同分布变换,以及拓展到其他领域等。