论文地址

[1907.06558] Addressing Delayed Feedback for Continuous Training with Neural Networks in CTR prediction

论文总结

《Addressing Delayed Feedback for Continuous Training with Neural Networks in CTR prediction》论文总结

  • 摘要:本文研究了在点击率预测中,使用神经网络进行连续训练时如何处理延迟反馈的问题,比较了不同的损失函数和模型架构,通过离线和在线实验验证了方法的有效性,提出的FN加权和FN校准损失函数与wide & deep模型结合表现最佳,在线实验中RPMq和Monetized CTR有显著提升。

  • 相关工作

    • 介绍了处理延迟反馈的几种方法,包括重要性采样、逆倾向加权、正无标记学习、延迟反馈模型和延迟带等,讨论了它们的挑战和应用场景。
  • 提出的方法

    • 模型架构

      • 逻辑回归:使用标准逻辑回归模型,广泛应用于展示广告中。
      • 宽深模型:由宽组件和深组件组成,宽组件对应广义线性模型,深组件对应标准前馈神经网络。

        • 损失函数
      • 延迟反馈损失:假设时间延迟服从指数分布,与逻辑回归或深度模型联合训练。

      • 正无标记损失:将所有负样本视为未标记,根据PU损失函数进行训练。
      • 假负加权:基于重要性采样,通过假设和推导得到损失函数,证明其能使模型收敛到正确的预测。
      • 假负校准:模型估计偏差分布,然后进行转换,得到新的分布。
  • 实验

    • 设置

      • 离线指标:使用log loss、RCE和PR - AUC等指标评估模型,RCE用于衡量相对交叉熵的改进。
      • 在线指标:使用pooled RCE和RPMq评估在线性能。
      • 超参数:设置了SGD优化器、学习率、衰减率、批量大小等超参数。

        • 数据
      • 公共数据:使用Criteo数据集评估不同损失函数,创建包含假负样本的数据集。

      • 离线Twitter数据:训练数据为4天,评估数据为第5天,对负样本进行下采样,添加时间特征用于估计时间延迟模型。
      • 在线Twitter数据:模型实时训练,输出模型用于服务在线流量,计算pooled RCE时去除假负样本。

        • 结果
      • 离线评估:在Criteo数据集上,延迟反馈损失在简单pCTR模型和较少训练示例中表现较好,PU损失在公共数据上表现最差且不稳定;在Twitter数据上,深度学习模型整体表现更好,FN校准损失在线性模型中表现最佳,PU损失和FN校准在深度模型中表现最佳,延迟反馈损失在两类模型中均优于log损失。

      • 在线评估:FN加权和FN校准损失函数在wide & deep模型中RPMq和Monetized CTR相比传统log损失有显著提升,PU损失在线上实验中在2天后发散。
  • 结论

    • 提出的FN加权和FN校准损失函数与wide & deep模型结合表现最佳,PU损失在线上不稳定,未来将探索解决其不稳定性的方法。
    • 考虑损失函数梯度的时间依赖性,未来希望结合重要性采样和时间延迟建模,进一步探索连续学习中的挑战和解决数据集偏差的方法。

综上所述,本文为解决点击率预测中延迟反馈问题提供了有价值的参考和方法。