一段话总结

在用户历史行为数据不断增长的背景下,准确的点击率(CTR)预测需有效建模长用户行为序列,但大规模数据带来计算难题。本文提出低秩高效注意力机制(LREA),通过低秩矩阵分解压缩序列,将注意力计算复杂度从$O(L)$降至$O(r)$ ,并设计损失函数保留注意力非线性。在离线训练更新相关矩阵并缓存,在线推理利用预存压缩序列加速。实验显示,LREA在公共和工业数据集上表现优于现有方法,在线A/B测试中相比产品模型(DIN+SIM)实现5.88%的CTR提升和4.26%的RPM提升,为CTR预测提供更高效准确的解决方案。

详细总结

  1. 研究背景:点击率(CTR)预测是在线广告和推荐系统的关键部分。随着用户行为数据增长,有效建模长期用户行为和捕捉用户兴趣成为研究重点,但大规模数据带来计算复杂性挑战,需要平衡模型性能和在线服务请求时间限制。现有基于检索的方法(如SIM、ETA等)通过序列截断或注意力稀疏化提高运行时效率,但存在信息损失问题。

  2. 方法介绍

    • 低秩矩阵分解:提出低秩高效注意力机制(LREA),通过低秩矩阵分解对用户行为序列进行压缩。利用$W_{Comp}$和$W_{Decomp}$两个矩阵将原始序列表示$E_{s}$压缩为$E_{comp}=E_{s}^{T}W_{Comp}$ ,再通过$E_{s}^{LREA}=(E_{s}^{T}W_{Comp}W_{Decomp})^{T}$还原,将注意力计算复杂度从$O(L)$降低到$O(r)$($r \ll L$),在保持信息的同时降低计算复杂度。
    • 矩阵吸收:选择Leaky ReLU激活函数近似满足$\phi(AB)=A\phi(B)$,实现将$E_{comp}$从计算中分离缓存,简化目标注意力计算,在非负性和非线性之间找到平衡。
    • 模型训练与推理:引入非负性损失函数$\mathcal{L}{non - neg}=\left| max \left(0,-W^{T}\right)\right| {2}^{2}+\left| max \left(0,-W^{T}E_{s}\right)\right| {2}^{2}$ ,最终训练目标函数为$\mathcal{L}=\mathcal{L}+\lambda \mathcal{L}{non - neg}$ ($\lambda$为超参数)。离线训练阶段更新$W$和$W_{Decompress}$并与$E_{S}$、$E_{S}^{T}$相乘缓存;在线推理阶段使用预存的压缩序列$E_{Auxabsorb}$和$E_{Comp}$,加速推理过程。
  3. 实验设置

    • 数据集:使用亚马逊、淘宝两个公共数据集和一个工业数据集进行离线模型评估。
    • 对比模型:与DIN(含长序列和不含长序列版本)、SIM、ETA、SDIM、TWIN等主流CTR模型对比。
    • 评估指标:采用AUC和GAUC评估模型性能,GAUC用于工业数据集。
  4. 实验结果

    • 整体性能:在各数据集上,LREA表现优于其他对比模型,在工业数据集上超过DIN且在线计算复杂度更低。
    • 超参数分析:在工业数据集上,压缩秩$r = 128$、非负损失系数$\lambda = 0.3$时模型性能最佳。
    • 在线A/B测试:在在线广告系统中,LREA相比产品模型(DIN+SIM)实现5.88%的CTR提升和4.26%的RPM提升。
数据集 模型 AUC GAUC
亚马逊 DIN(长序列) 0.8101 /
亚马逊 DIN(无长序列) 0.7833 /
亚马逊 SIM 0.7919 /
亚马逊 ETA 0.7984 /
亚马逊 SDIM 0.8013 /
亚马逊 TWIN 0.8015 /
亚马逊 LREA 0.8098 /
淘宝 DIN(长序列) 0.8903 /
淘宝 DIN(无长序列) 0.8535 /
淘宝 SIM 0.8667 /
淘宝 ETA 0.8651 /
淘宝 SDIM 0.8734 /
淘宝 TWIN 0.8838 /
淘宝 LREA 0.8904 /
工业数据集 DIN(长序列) 0.7149 0.6337
工业数据集 DIN(无长序列) 0.7005 0.6187
工业数据集 SIM 0.7031 0.6208
工业数据集 ETA 0.7083 0.6235
工业数据集 SDIM 0.7097 0.6239
工业数据集 TWIN 0.7103 0.6258
工业数据集 LREA 0.7154 0.6343

关键问题

  1. LREA与其他基于检索的方法相比,优势主要体现在哪些方面?

    • 其他基于检索的方法(如SIM、ETA等)通过序列截断或注意力稀疏化提高运行时效率,但会牺牲部分信息,导致信息损失。而LREA利用低秩矩阵分解和矩阵吸收技术,在保证计算效率的同时,能有效整合长期用户行为,避免信息丢失,在CTR预测任务中性能更优。在多个数据集上的实验显示,LREA的AUC和GAUC指标均超过这些基于检索的方法。
  2. 在LREA中,非负性损失函数的作用是什么?

    • 非负性损失函数$\mathcal{L}{non - neg}$用于对矩阵$W^{T}$和$W_{comp}^{T}E_{s}$中的负元素施加惩罚,确保满足矩阵吸收过程中对矩阵元素非负性的要求,从而保证相关计算的有效性。它在训练过程中平衡了模型的非线性和非负性,使得模型在保持非线性特征的同时,能更好地进行低秩矩阵分解和后续计算,最终提升模型的整体性能。当$\lambda$取值适当时,模型在工业数据集上能取得最佳的AUC和GAUC值。
  3. 为什么在实验中选择128作为压缩秩r的最优值?

    • 当固定非负损失系数$\lambda = 0.3$,对压缩秩$r$从32到128进行调整实验时,发现$r = 128$时模型性能最佳。$r$值较小时,如$r = 32$、$r = 64$,模型的AUC和GAUC会显著下降,这表明不能将原始长序列的表示压缩到过低的秩,否则会丢失过多信息,影响模型性能。虽然理论上$r$越大性能可能越好,但考虑到在线部署时模型推理延迟和缓存内存大小的限制,不能无限增大$r$ ,因此综合权衡选择128作为最优值。

参考

阿里巴巴国际化@2025.03:1w长序列的一阶段低秩压缩建模方法