“Fast Inference from Transformers via Speculative Decoding”由Yaniv Leviathan等人撰写。文章提出了推测解码算法,通过并行计算多个令牌加速自回归模型推理,在不改变模型架构、训练过程和输出分布的前提下,实现2 - 3倍的加速。

  1. 背景与动机:大型自回归模型(如Transformers)推理速度慢,解码K个令牌需串行运行K次模型。现有加速推理的方法,如降低推理成本、自适应计算等,通常需要改变模型架构、训练过程或重新训练,且无法保证输出相同。本文基于部分推理步骤有难易之分,且大模型推理瓶颈常在于内存带宽和通信而非算术运算的观察,提出通过增加并行性加速推理,即推测解码算法。

  2. 推测解码

    • 概述:使用更高效的近似模型生成个完成结果,再用目标模型并行评估这些猜测及其概率,接受能导致相同分布的猜测,并根据调整后的分布采样修正被拒绝的猜测或添加额外令牌。
    • 标准化采样:将多种采样方法统一为从调整后的概率分布进行标准采样,便于后续处理。
    • 推测采样:从采样,若则保留,否则以的概率拒绝并从调整后的分布重新采样,可证明采样结果服从分布。
  3. 分析

    • 生成令牌数:假设独立同分布,用衡量的近似程度,单次运行算法生成的令牌数是上限为、成功概率为的截尾几何变量,期望生成令牌数为
    • 计算:定义衡量分布差异,证明,进而得到
    • 运行时间改进:在有足够计算资源支持并行的情况下,算法减少对目标模型的调用次数,考虑近似模型的运行成本,得到算法在总运行时间上的改进因子为
    • 算术运算次数:算法并行运行,增加了并发算术运算次数,其总运算次数增加因子为 ,但内存访问次数可能减少。
    • 选择:根据数值求解可得到最优 ,以最大化运行时间改进。预测并动态调整可能进一步提升性能。
    • 近似模型:推测采样对近似模型选择无限制,实验中使用现成的较小Transformer模型,近似模型比目标模型小两个数量级时效果较好,此外还有零成本近似模型(如n - gram模型)等多种类型。
  4. 实验

    • 运行时间改进:在T5 - XXL模型的英德翻译和文本摘要任务上进行实验,用T5 - small作为近似模型时加速比最高,分别在翻译任务和摘要任务上实现2.6X - 3.4X和2.3X - 3.1X的加速,与理论预测相符。
    • 经验:测量不同任务、模型和采样方法下的值,发现近似模型比目标模型小几个数量级时,值在0.5 - 0.9之间,且调整后的分布越尖锐,值越高,简单的一元和二元模型也能产生不可忽视的值。
  5. 相关工作:对比其他加速推理方法,如蒸馏、稀疏化、量化等通用方法,以及自适应计算方法,这些方法通常需改变模型架构和训练过程,且不保证输出相同。与类似的利用推测执行加速解码的方法相比,本文方法支持一般随机设置,对近似模型限制少。

  6. 讨论:推测解码在有足够计算资源时可显著加速推理,但增加并发会导致算术运算次数增加。未来研究方向包括探索与束搜索的兼容性、设计定制近似模型、采用分层算法、动态调整近似模型和、应用不同分布变换,以及拓展到其他领域等。