投机采样（Speculative Sampling）

投机采样（Speculative Sampling）是一种用于加速大语言模型（如GPT等）推理过程的技术，最早由Google Research在2022年提出。它的核心目标是通过减少模型生成文本时的计算量，提升生成速度，同时保持生成质量。

双模型协作：
草案模型（Draft Model）：一个较小的、快速但精度较低的模型（例如TinyLLaMA），用于快速生成候选token序列。
目标模型（Target Model）：原始的大模型（如LLaMA-7B），负责对草案模型的输出进行验证和修正。
生成与验证流程：
草案生成：草案模型以自回归方式生成一个短序列（例如3-5个token）作为候选。
并行验证：目标模型一次性并行计算这些候选token的概率分布，而不是逐个生成。
修正机制：比较草案模型的输出与目标模型的概率分布：
- 如果某个token的概率一致，则接受该token。
- 如果不一致，则拒绝后续token，回退到第一个不一致的位置，用目标模型生成新的token。

加速推理：
通过并行验证多个候选token，减少目标模型的调用次数。实验显示，在TinyLLaMA草案模型+LLaMA-7B目标模型的组合下，生成速度可提升1.5-2.4倍。
无损质量：
最终输出与直接使用目标模型完全一致，因为修正机制确保结果的一致性。
无需微调：
直接利用现有模型，无需修改模型权重或架构。

假设生成“人工智能”：

投机采样通过巧妙的“预测-验证”机制，在保证生成质量的前提下显著提升了大模型推理效率，是当前大模型优化领域的重要技术之一。