一段话总结
在用户历史行为数据不断增长的背景下,准确的点击率(CTR)预测需有效建模长用户行为序列,但大规模数据带来计算难题。本文提出低秩高效注意力机制(LREA),通过低秩矩阵分解压缩序列,将注意力计算复杂度从$O(L)$降至$O(r)$ ,并设计损失函数保留注意力非线性。在离线训练更新相关矩阵并缓存,在线推理利用预存压缩序列加速。实验显示,LREA在公共和工业数据集上表现优于现有方法,在线A/B测试中相比产品模型(DIN+SIM)实现5.88%的CTR提升和4.26%的RPM提升,为CTR预测提供更高效准确的解决方案。
详细总结
-
研究背景:点击率(CTR)预测是在线广告和推荐系统的关键部分。随着用户行为数据增长,有效建模长期用户行为和捕捉用户兴趣成为研究重点,但大规模数据带来计算复杂性挑战,需要平衡模型性能和在线服务请求时间限制。现有基于检索的方法(如SIM、ETA等)通过序列截断或注意力稀疏化提高运行时效率,但存在信息损失问题。
-
方法介绍
- 低秩矩阵分解:提出低秩高效注意力机制(LREA),通过低秩矩阵分解对用户行为序列进行压缩。利用$W_{Comp}$和$W_{Decomp}$两个矩阵将原始序列表示$E_{s}$压缩为$E_{comp}=E_{s}^{T}W_{Comp}$ ,再通过$E_{s}^{LREA}=(E_{s}^{T}W_{Comp}W_{Decomp})^{T}$还原,将注意力计算复杂度从$O(L)$降低到$O(r)$($r \ll L$),在保持信息的同时降低计算复杂度。
- 矩阵吸收:选择Leaky ReLU激活函数近似满足$\phi(AB)=A\phi(B)$,实现将$E_{comp}$从计算中分离缓存,简化目标注意力计算,在非负性和非线性之间找到平衡。
- 模型训练与推理:引入非负性损失函数$\mathcal{L}{non - neg}=\left| max \left(0,-W^{T}\right)\right| {2}^{2}+\left| max \left(0,-W^{T}E_{s}\right)\right| {2}^{2}$ ,最终训练目标函数为$\mathcal{L}=\mathcal{L}+\lambda \mathcal{L}{non - neg}$ ($\lambda$为超参数)。离线训练阶段更新$W$和$W_{Decompress}$并与$E_{S}$、$E_{S}^{T}$相乘缓存;在线推理阶段使用预存的压缩序列$E_{Auxabsorb}$和$E_{Comp}$,加速推理过程。
-
实验设置
- 数据集:使用亚马逊、淘宝两个公共数据集和一个工业数据集进行离线模型评估。
- 对比模型:与DIN(含长序列和不含长序列版本)、SIM、ETA、SDIM、TWIN等主流CTR模型对比。
- 评估指标:采用AUC和GAUC评估模型性能,GAUC用于工业数据集。
-
实验结果
- 整体性能:在各数据集上,LREA表现优于其他对比模型,在工业数据集上超过DIN且在线计算复杂度更低。
- 超参数分析:在工业数据集上,压缩秩$r = 128$、非负损失系数$\lambda = 0.3$时模型性能最佳。
- 在线A/B测试:在在线广告系统中,LREA相比产品模型(DIN+SIM)实现5.88%的CTR提升和4.26%的RPM提升。
数据集 | 模型 | AUC | GAUC |
---|---|---|---|
亚马逊 | DIN(长序列) | 0.8101 | / |
亚马逊 | DIN(无长序列) | 0.7833 | / |
亚马逊 | SIM | 0.7919 | / |
亚马逊 | ETA | 0.7984 | / |
亚马逊 | SDIM | 0.8013 | / |
亚马逊 | TWIN | 0.8015 | / |
亚马逊 | LREA | 0.8098 | / |
淘宝 | DIN(长序列) | 0.8903 | / |
淘宝 | DIN(无长序列) | 0.8535 | / |
淘宝 | SIM | 0.8667 | / |
淘宝 | ETA | 0.8651 | / |
淘宝 | SDIM | 0.8734 | / |
淘宝 | TWIN | 0.8838 | / |
淘宝 | LREA | 0.8904 | / |
工业数据集 | DIN(长序列) | 0.7149 | 0.6337 |
工业数据集 | DIN(无长序列) | 0.7005 | 0.6187 |
工业数据集 | SIM | 0.7031 | 0.6208 |
工业数据集 | ETA | 0.7083 | 0.6235 |
工业数据集 | SDIM | 0.7097 | 0.6239 |
工业数据集 | TWIN | 0.7103 | 0.6258 |
工业数据集 | LREA | 0.7154 | 0.6343 |
关键问题
-
LREA与其他基于检索的方法相比,优势主要体现在哪些方面?
- 其他基于检索的方法(如SIM、ETA等)通过序列截断或注意力稀疏化提高运行时效率,但会牺牲部分信息,导致信息损失。而LREA利用低秩矩阵分解和矩阵吸收技术,在保证计算效率的同时,能有效整合长期用户行为,避免信息丢失,在CTR预测任务中性能更优。在多个数据集上的实验显示,LREA的AUC和GAUC指标均超过这些基于检索的方法。
-
在LREA中,非负性损失函数的作用是什么?
- 非负性损失函数$\mathcal{L}{non - neg}$用于对矩阵$W^{T}$和$W_{comp}^{T}E_{s}$中的负元素施加惩罚,确保满足矩阵吸收过程中对矩阵元素非负性的要求,从而保证相关计算的有效性。它在训练过程中平衡了模型的非线性和非负性,使得模型在保持非线性特征的同时,能更好地进行低秩矩阵分解和后续计算,最终提升模型的整体性能。当$\lambda$取值适当时,模型在工业数据集上能取得最佳的AUC和GAUC值。
-
为什么在实验中选择128作为压缩秩r的最优值?
- 当固定非负损失系数$\lambda = 0.3$,对压缩秩$r$从32到128进行调整实验时,发现$r = 128$时模型性能最佳。$r$值较小时,如$r = 32$、$r = 64$,模型的AUC和GAUC会显著下降,这表明不能将原始长序列的表示压缩到过低的秩,否则会丢失过多信息,影响模型性能。虽然理论上$r$越大性能可能越好,但考虑到在线部署时模型推理延迟和缓存内存大小的限制,不能无限增大$r$ ,因此综合权衡选择128作为最优值。