快手MARM: Unlocking the Future of Recommendation Systems through Memory Augmentation and Scalable Complexity

标签: 论文 , 快手更新于: 2025/03/11 阅读:180 原文发表于：2025-03-10

论文介绍
- MARM 论文详细总结
论文地址

论文介绍

MARM 论文详细总结

1. 研究背景与动机

推荐系统与LLM的差异：
- 数据规模：推荐系统每天处理数十亿用户行为数据（如快手500亿/天），远超LLM训练数据。
- 模型参数：推荐系统参数（>200B）超过多数LLM（约100B），但需严格控制推理复杂度（FLOPs）以保证实时性（毫秒级响应）。
- 计算瓶颈：传统注意力机制（如自注意力）的时间复杂度为 $O(n^2 \cdot d)$ ，无法直接扩展到长序列（如用户历史行为序列）。
核心挑战：
- 如何在不显著增加计算成本的前提下，提升推荐模型的表达能力。
- 如何利用推荐系统的海量数据和存储资源优势，缓解计算资源的限制。

2. MARM 模型设计

核心思想：
- 缓存技术：通过缓存多层注意力的中间结果，将复杂的自注意力（ $O(n^2 \cdot d)$ ）转换为目标注意力（ $O(n \cdot d)$ ），降低推理复杂度。
- 可扩展架构：将单层目标注意力扩展为多层，通过缓存实现线性复杂度增长。
模块组成：
序列生成器：生成用户最新曝光的物品序列。
缓存存储：存储历史计算结果，支持快速查询。
多层目标注意力：通过缓存结果模拟多层自注意力，逐层更新特征表示。
结果保存：将中间结果存入缓存，供后续推理使用。
与SIM的结合：
- 引入两阶段搜索（GSU/ESU）处理超长序列（如用户终身行为），提升缓存利用率。
- 每层独立搜索相关历史，减少层间冗余，增强兴趣表达多样性。

3. 缓存扩展定律

缓存规模与性能关系：
- 缓存大小：定义为 $C = L \cdot n \cdot d$ （L为层数，n为序列长度，d为维度），与模型性能呈幂律关系。
- 关键发现：
  - 当缓存规模较小时，增加序列长度（n）比增加层数（L）更有效。
  - 当缓存规模足够大时，层数和序列长度的贡献趋于平衡。
实验验证：
- 通过离线实验验证缓存规模与GAUC的正相关关系，证明MARM的可扩展性。

4. 实验结果

离线对比：
- 基线模型：基于多任务MoE的工业级模型。
- 对比方法：DIN、SIM、TWIN、TWIN V2、HSTU等。
- 结果：MARM（L=4）在GAUC上提升0.43%，AUC提升0.19%，显著优于其他方法。
在线效果：
- 在快手国际版（Kwai）部署，实现：
  - 核心指标：用户平均观看时长增加2.079%。
  - 互动指标：点赞率提升0.605%，但评论、转发略有下降（属合理替代效应）。
成本分析：
- 存储需求：60TB（L=4，n=6000），仅为原始多层自注意力的1/8。
- 计算效率：推理FLOPs显著低于HSTU（未缓存版本）。

5. 贡献与创新

首次提出缓存扩展定律：在推荐系统中探索缓存规模与性能的关系，突破传统模型复杂度限制。
高效架构设计：通过缓存技术将多层自注意力转换为线性复杂度，支持用户终身行为建模。
工业级适配：无缝集成现有推荐系统（检索、粗排、精排），实现端到端优化。

6. 应用场景

实时推荐：快手短视频平台，每日服务数亿用户。
长序列建模：支持用户终身行为分析，捕捉长期兴趣演变。
多阶段优化：在检索、粗排、精排各阶段均提升效果。

7. 结论

MARM通过缓存技术和多层注意力机制，成功解决了推荐系统的计算瓶颈问题，在保持高效推理的同时显著提升模型性能。其提出的缓存扩展定律为推荐系统的可扩展设计提供了新范式，未来可进一步探索与其他技术（如稀疏缓存、动态存储管理）的结合。

论文地址

[2411.09425] MARM: Unlocking the Future of Recommendation Systems through Memory Augmentation and Scalable Complexity