论文地址
论文总结
《Addressing Delayed Feedback for Continuous Training with Neural Networks in CTR prediction》论文总结
-
摘要:本文研究了在点击率预测中,使用神经网络进行连续训练时如何处理延迟反馈的问题,比较了不同的损失函数和模型架构,通过离线和在线实验验证了方法的有效性,提出的FN加权和FN校准损失函数与wide & deep模型结合表现最佳,在线实验中RPMq和Monetized CTR有显著提升。
-
相关工作:
- 介绍了处理延迟反馈的几种方法,包括重要性采样、逆倾向加权、正无标记学习、延迟反馈模型和延迟带等,讨论了它们的挑战和应用场景。
-
提出的方法:
-
模型架构:
- 逻辑回归:使用标准逻辑回归模型,广泛应用于展示广告中。
-
宽深模型:由宽组件和深组件组成,宽组件对应广义线性模型,深组件对应标准前馈神经网络。
- 损失函数:
-
延迟反馈损失:假设时间延迟服从指数分布,与逻辑回归或深度模型联合训练。
- 正无标记损失:将所有负样本视为未标记,根据PU损失函数进行训练。
- 假负加权:基于重要性采样,通过假设和推导得到损失函数,证明其能使模型收敛到正确的预测。
- 假负校准:模型估计偏差分布,然后进行转换,得到新的分布。
-
-
实验:
-
设置:
- 离线指标:使用log loss、RCE和PR - AUC等指标评估模型,RCE用于衡量相对交叉熵的改进。
- 在线指标:使用pooled RCE和RPMq评估在线性能。
-
超参数:设置了SGD优化器、学习率、衰减率、批量大小等超参数。
- 数据:
-
公共数据:使用Criteo数据集评估不同损失函数,创建包含假负样本的数据集。
- 离线Twitter数据:训练数据为4天,评估数据为第5天,对负样本进行下采样,添加时间特征用于估计时间延迟模型。
-
在线Twitter数据:模型实时训练,输出模型用于服务在线流量,计算pooled RCE时去除假负样本。
- 结果:
-
离线评估:在Criteo数据集上,延迟反馈损失在简单pCTR模型和较少训练示例中表现较好,PU损失在公共数据上表现最差且不稳定;在Twitter数据上,深度学习模型整体表现更好,FN校准损失在线性模型中表现最佳,PU损失和FN校准在深度模型中表现最佳,延迟反馈损失在两类模型中均优于log损失。
- 在线评估:FN加权和FN校准损失函数在wide & deep模型中RPMq和Monetized CTR相比传统log损失有显著提升,PU损失在线上实验中在2天后发散。
-
-
结论:
- 提出的FN加权和FN校准损失函数与wide & deep模型结合表现最佳,PU损失在线上不稳定,未来将探索解决其不稳定性的方法。
- 考虑损失函数梯度的时间依赖性,未来希望结合重要性采样和时间延迟建模,进一步探索连续学习中的挑战和解决数据集偏差的方法。
综上所述,本文为解决点击率预测中延迟反馈问题提供了有价值的参考和方法。