Efficient Long Sequential Low-rank Adaptive Attention for Click-through rate Prediction

一段话总结
详细总结
关键问题
参考

一段话总结

在用户历史行为数据不断增长的背景下，准确的点击率（CTR）预测需有效建模长用户行为序列，但大规模数据带来计算难题。本文提出低秩高效注意力机制（LREA），通过低秩矩阵分解压缩序列，将注意力计算复杂度从$O(L)$降至$O(r)$ ，并设计损失函数保留注意力非线性。在离线训练更新相关矩阵并缓存，在线推理利用预存压缩序列加速。实验显示，LREA在公共和工业数据集上表现优于现有方法，在线A/B测试中相比产品模型（DIN+SIM）实现5.88%的CTR提升和4.26%的RPM提升，为CTR预测提供更高效准确的解决方案。

详细总结

研究背景：点击率（CTR）预测是在线广告和推荐系统的关键部分。随着用户行为数据增长，有效建模长期用户行为和捕捉用户兴趣成为研究重点，但大规模数据带来计算复杂性挑战，需要平衡模型性能和在线服务请求时间限制。现有基于检索的方法（如SIM、ETA等）通过序列截断或注意力稀疏化提高运行时效率，但存在信息损失问题。
方法介绍
- 低秩矩阵分解：提出低秩高效注意力机制（LREA），通过低秩矩阵分解对用户行为序列进行压缩。利用$W_{Comp}$和$W_{Decomp}$两个矩阵将原始序列表示$E_{s}$压缩为$E_{comp}=E_{s}^{T}W_{Comp}$ ，再通过$E_{s}^{LREA}=(E_{s}^{T}W_{Comp}W_{Decomp})^{T}$还原，将注意力计算复杂度从$O(L)$降低到$O(r)$（$r \ll L$），在保持信息的同时降低计算复杂度。
- 矩阵吸收：选择Leaky ReLU激活函数近似满足$\phi(AB)=A\phi(B)$，实现将$E_{comp}$从计算中分离缓存，简化目标注意力计算，在非负性和非线性之间找到平衡。
- 模型训练与推理：引入非负性损失函数$\mathcal{L}{non - neg}=\left| max \left(0,-W^{T}\right)\right| {2}^{2}+\left| max \left(0,-W^{T}E_{s}\right)\right| {2}^{2}$ ，最终训练目标函数为$\mathcal{L}=\mathcal{L}+\lambda \mathcal{L}{non - neg}$ （$\lambda$为超参数）。离线训练阶段更新$W$和$W_{Decompress}$并与$E_{S}$、$E_{S}^{T}$相乘缓存；在线推理阶段使用预存的压缩序列$E_{Auxabsorb}$和$E_{Comp}$，加速推理过程。
实验设置
- 数据集：使用亚马逊、淘宝两个公共数据集和一个工业数据集进行离线模型评估。
- 对比模型：与DIN（含长序列和不含长序列版本）、SIM、ETA、SDIM、TWIN等主流CTR模型对比。
- 评估指标：采用AUC和GAUC评估模型性能，GAUC用于工业数据集。
实验结果
- 整体性能：在各数据集上，LREA表现优于其他对比模型，在工业数据集上超过DIN且在线计算复杂度更低。
- 超参数分析：在工业数据集上，压缩秩$r = 128$、非负损失系数$\lambda = 0.3$时模型性能最佳。
- 在线A/B测试：在在线广告系统中，LREA相比产品模型（DIN+SIM）实现5.88%的CTR提升和4.26%的RPM提升。

数据集	模型	AUC	GAUC
亚马逊	DIN（长序列）	0.8101	/
亚马逊	DIN（无长序列）	0.7833	/
亚马逊	SIM	0.7919	/
亚马逊	ETA	0.7984	/
亚马逊	SDIM	0.8013	/
亚马逊	TWIN	0.8015	/
亚马逊	LREA	0.8098	/
淘宝	DIN（长序列）	0.8903	/
淘宝	DIN（无长序列）	0.8535	/
淘宝	SIM	0.8667	/
淘宝	ETA	0.8651	/
淘宝	SDIM	0.8734	/
淘宝	TWIN	0.8838	/
淘宝	LREA	0.8904	/
工业数据集	DIN（长序列）	0.7149	0.6337
工业数据集	DIN（无长序列）	0.7005	0.6187
工业数据集	SIM	0.7031	0.6208
工业数据集	ETA	0.7083	0.6235
工业数据集	SDIM	0.7097	0.6239
工业数据集	TWIN	0.7103	0.6258
工业数据集	LREA	0.7154	0.6343

关键问题

LREA与其他基于检索的方法相比，优势主要体现在哪些方面？
- 其他基于检索的方法（如SIM、ETA等）通过序列截断或注意力稀疏化提高运行时效率，但会牺牲部分信息，导致信息损失。而LREA利用低秩矩阵分解和矩阵吸收技术，在保证计算效率的同时，能有效整合长期用户行为，避免信息丢失，在CTR预测任务中性能更优。在多个数据集上的实验显示，LREA的AUC和GAUC指标均超过这些基于检索的方法。
在LREA中，非负性损失函数的作用是什么？
- 非负性损失函数$\mathcal{L}{non - neg}$用于对矩阵$W^{T}$和$W_{comp}^{T}E_{s}$中的负元素施加惩罚，确保满足矩阵吸收过程中对矩阵元素非负性的要求，从而保证相关计算的有效性。它在训练过程中平衡了模型的非线性和非负性，使得模型在保持非线性特征的同时，能更好地进行低秩矩阵分解和后续计算，最终提升模型的整体性能。当$\lambda$取值适当时，模型在工业数据集上能取得最佳的AUC和GAUC值。
为什么在实验中选择128作为压缩秩r的最优值？
- 当固定非负损失系数$\lambda = 0.3$，对压缩秩$r$从32到128进行调整实验时，发现$r = 128$时模型性能最佳。$r$值较小时，如$r = 32$、$r = 64$，模型的AUC和GAUC会显著下降，这表明不能将原始长序列的表示压缩到过低的秩，否则会丢失过多信息，影响模型性能。虽然理论上$r$越大性能可能越好，但考虑到在线部署时模型推理延迟和缓存内存大小的限制，不能无限增大$r$ ，因此综合权衡选择128作为最优值。

参考

阿里巴巴国际化@2025.03：1w长序列的一阶段低秩压缩建模方法

Efficient Long Sequential Low-rank Adaptive Attention for Click-through rate Prediction

一段话总结

详细总结

关键问题

参考

序列建模相关文章

最近热门

最常浏览