Meta的M-Falcon推理算法是一种为优化生成式推荐系统推理效率而提出的算法。以下是其相关信息:
背景
基于深度学习的大规模推荐系统在互联网生态中至关重要,但现有推荐模型性能提升与计算资源增加的相关性不强。受Transformer类模型在自然语言处理和计算机视觉领域进展的启发,Meta将推荐问题重构为生成式建模框架下的序列转换任务,提出“生成式推荐”范式,并设计了Hierarchical Sequential Transduction Units(HSTU)架构。为进一步优化推理效率,又提出了M - Falcon推理算法。
核心技术
- 微批处理技术:将总共$N$个候选分为大小为$m$的mini - batch,这样可以利用编码器级KV缓存,通过修改attention masks和biases的方式,同时处理多个候选,有效均摊计算成本。
- 降低模型复杂度:使模型复杂度随候选数量线性增长,在保持与传统模型相同推理预算的前提下,能够以更高的QPS(1.5 - 3倍)部署计算复杂度为285倍的新型模型,保证了生成式推荐系统在实际应用中的高效率和低延迟。
效果
在工业级别的推荐系统上,采用M - Falcon算法的生成式推荐系统相较于传统系统在关键评估指标上达到了12.4%的显著提升,且该系统已成功部署于多个高流量场景。
M-FALCON是指一种用于生成式推荐模型中的推理算法,具体来说,它是一种微批次处理和缓存机制相结合的方法,旨在提高大规模候选信息处理的效率。
具体含义及延伸拓展:
-
微批次处理:M-FALCON通过将大量的候选信息划分为较小的批次(mini-batch),每次只处理其中的一部分。这种分批处理的方式可以显著减少每次推理所需的计算资源,从而提高整体的吞吐量。
-
缓存机制:在处理这些微批次时,M-FALCON利用编码器级的KV缓存,这意味着在处理不同的批次时,某些共享的计算结果可以被重复利用,而不是每次都重新计算。
-
线性扩展性:M-FALCON算法设计使得模型的复杂度与候选数量成线性关系,这意味着即使候选数量大幅增加,推理资源需求也不会呈指数级增长。
-
显著性能提升:通过上述机制,M-FALCON能够在保持相同推理开销的情况下,处理复杂度285倍的模型,同时实现1.5到2.48倍的加速。这表明它在提高推荐系统性能方面非常有效。
-
应用场景:在推荐系统中,尤其是在排序阶段,候选数量通常达到数万甚至更多。M-FALCON通过分担计算开销,使得推荐系统能够在有限的计算资源下,处理更复杂的模型,从而提升推荐的准确性和用户满意度。