KV Cache（键值缓存）

KV Cache（键值缓存）是Transformer架构中用于加速大语言模型（LLM）推理的核心技术，其核心思想是通过缓存历史计算结果的键（Key）和值（Value）矩阵，避免自回归生成过程中的重复计算，实现“以空间换时间”的效率优化。以下是其核心原理、应用场景及挑战的详细分析：

动态缓存机制
在自回归生成任务（如文本生成）中，模型每次生成新token时，仅需计算当前token的查询（Query）向量，而历史的Key和Value矩阵通过缓存复用。例如，生成第n个token时： • Key/Value更新：将当前token的Key和Value追加到缓存中； • 注意力计算：用当前Query与所有缓存的历史Key计算注意力权重，再与历史Value矩阵加权求和。
两阶段推理
• 预填充阶段：输入完整提示（Prompt），并行计算所有token的Key和Value并缓存； • 解码阶段：逐token生成时仅需增量更新缓存，大幅减少计算量。

显存占用问题
KV Cache的显存峰值公式为 4BLH(S+N)（B: batch大小，L: 层数，H: 隐层维度，S/N: 输入/输出长度）。以GPT-3为例，当输入长度超过2048时，KV Cache的显存可能超过模型参数本身。
优化策略
• 注意力结构改进：采用多查询注意力（MQA）或分组查询注意力（GQA），减少Key/Value矩阵参数； • 滑动窗口机制：仅缓存最近L个token的Key/Value，结合初始token的“注意力锚点”稳定计算（如StreamingLLM）； • 量化压缩：对KV Cache进行低精度（如FP8）存储，减少显存占用。

以生成句子“The cat is on the mat”为例： 1. 生成“The”时，计算并缓存其Key和Value； 2. 生成“cat”时，仅计算其Query，复用缓存的“The”的Key/Value计算注意力； 3. 每生成一个新token，增量更新缓存直至完成。

KV Cache通过牺牲显存空间换取了推理效率的显著提升，成为LLM部署中的关键技术。然而，其显存占用问题仍是主要瓶颈，需结合量化、结构优化和动态缓存策略平衡性能与资源。随着模型窗口长度的持续扩展，KV Cache的优化将直接影响大语言模型的实际应用能力。