image_2025-03-10_20-38-05.jpg

论文介绍

MARM 论文详细总结

1. 研究背景与动机

  • 推荐系统与LLM的差异

    • 数据规模:推荐系统每天处理数十亿用户行为数据(如快手500亿/天),远超LLM训练数据。
    • 模型参数:推荐系统参数(>200B)超过多数LLM(约100B),但需严格控制推理复杂度(FLOPs)以保证实时性(毫秒级响应)。
    • 计算瓶颈:传统注意力机制(如自注意力)的时间复杂度为 ,无法直接扩展到长序列(如用户历史行为序列)。
  • 核心挑战

    • 如何在不显著增加计算成本的前提下,提升推荐模型的表达能力。
    • 如何利用推荐系统的海量数据和存储资源优势,缓解计算资源的限制。

2. MARM 模型设计

  • 核心思想

    • 缓存技术:通过缓存多层注意力的中间结果,将复杂的自注意力()转换为目标注意力(),降低推理复杂度。
    • 可扩展架构:将单层目标注意力扩展为多层,通过缓存实现线性复杂度增长。
  • 模块组成

  • 序列生成器:生成用户最新曝光的物品序列。

  • 缓存存储:存储历史计算结果,支持快速查询。
  • 多层目标注意力:通过缓存结果模拟多层自注意力,逐层更新特征表示。
  • 结果保存:将中间结果存入缓存,供后续推理使用。

  • 与SIM的结合

    • 引入两阶段搜索(GSU/ESU)处理超长序列(如用户终身行为),提升缓存利用率。
    • 每层独立搜索相关历史,减少层间冗余,增强兴趣表达多样性。

3. 缓存扩展定律

  • 缓存规模与性能关系

    • 缓存大小:定义为 (L为层数,n为序列长度,d为维度),与模型性能呈幂律关系。
    • 关键发现

      • 当缓存规模较小时,增加序列长度(n)比增加层数(L)更有效。
      • 当缓存规模足够大时,层数和序列长度的贡献趋于平衡。
  • 实验验证

    • 通过离线实验验证缓存规模与GAUC的正相关关系,证明MARM的可扩展性。

4. 实验结果

  • 离线对比

    • 基线模型:基于多任务MoE的工业级模型。
    • 对比方法:DIN、SIM、TWIN、TWIN V2、HSTU等。
    • 结果:MARM(L=4)在GAUC上提升0.43%,AUC提升0.19%,显著优于其他方法。
  • 在线效果

    • 在快手国际版(Kwai)部署,实现:

      • 核心指标:用户平均观看时长增加2.079%。
      • 互动指标:点赞率提升0.605%,但评论、转发略有下降(属合理替代效应)。
  • 成本分析

    • 存储需求:60TB(L=4,n=6000),仅为原始多层自注意力的1/8。
    • 计算效率:推理FLOPs显著低于HSTU(未缓存版本)。

5. 贡献与创新

  • 首次提出缓存扩展定律:在推荐系统中探索缓存规模与性能的关系,突破传统模型复杂度限制。

  • 高效架构设计:通过缓存技术将多层自注意力转换为线性复杂度,支持用户终身行为建模。

  • 工业级适配:无缝集成现有推荐系统(检索、粗排、精排),实现端到端优化。

6. 应用场景

  • 实时推荐:快手短视频平台,每日服务数亿用户。

  • 长序列建模:支持用户终身行为分析,捕捉长期兴趣演变。

  • 多阶段优化:在检索、粗排、精排各阶段均提升效果。

7. 结论

MARM通过缓存技术和多层注意力机制,成功解决了推荐系统的计算瓶颈问题,在保持高效推理的同时显著提升模型性能。其提出的缓存扩展定律为推荐系统的可扩展设计提供了新范式,未来可进一步探索与其他技术(如稀疏缓存、动态存储管理)的结合。

论文地址

[2411.09425] MARM: Unlocking the Future of Recommendation Systems through Memory Augmentation and Scalable Complexity