Meta的M-Falcon推理算法是一种为优化生成式推荐系统推理效率而提出的算法。以下是其相关信息:

背景

基于深度学习的大规模推荐系统在互联网生态中至关重要,但现有推荐模型性能提升与计算资源增加的相关性不强。受Transformer类模型在自然语言处理和计算机视觉领域进展的启发,Meta将推荐问题重构为生成式建模框架下的序列转换任务,提出“生成式推荐”范式,并设计了Hierarchical Sequential Transduction Units(HSTU)架构。为进一步优化推理效率,又提出了M - Falcon推理算法。

核心技术

  • 微批处理技术:将总共$N$个候选分为大小为$m$的mini - batch,这样可以利用编码器级KV缓存,通过修改attention masks和biases的方式,同时处理多个候选,有效均摊计算成本。
  • 降低模型复杂度:使模型复杂度随候选数量线性增长,在保持与传统模型相同推理预算的前提下,能够以更高的QPS(1.5 - 3倍)部署计算复杂度为285倍的新型模型,保证了生成式推荐系统在实际应用中的高效率和低延迟。

效果

在工业级别的推荐系统上,采用M - Falcon算法的生成式推荐系统相较于传统系统在关键评估指标上达到了12.4%的显著提升,且该系统已成功部署于多个高流量场景。