论文地址

[2012.03245] Capturing Delayed Feedback in Conversion Rate Prediction via Elapsed-Time Sampling

论文总结

《Capturing Delayed Feedback in Conversion Rate Prediction via Elapsed-Time Sampling》论文总结

  • 摘要:本文提出了一种通过历时采样来解决转化率预测中延迟反馈问题的方法(ES - DFM),通过建模观察到的转换分布和真实转换分布之间的关系,优化真实转换分布的期望,并估计每个实例的重要性权重,用于CVR预测的损失函数权重。实验表明该方法优于先前的最先进结果。

  • 相关工作

    • 延迟反馈模型:早期研究如Chapelle(2014)提出DFM模型,假设转换时间分布为指数延迟,后续有研究提出非参数延迟反馈模型,但这些方法都只优化观察到的转换信息,而非实际延迟转换。
    • 重要性采样:Ktena等人提出FNW方法,通过重要性采样优化真实CVR预测目标,但在流设置中,每个假负样本会对模型产生负面影响;Yasui等人提出FSIW方法,但不允许重复样本,无法使用后续的正标签纠正错误标记的样本。
    • 延迟带:相关研究为延迟反馈场景提供了高效的算法,但目标是最小化累积遗憾,与本文预测CVR以得出广告拍卖中的出价价格的目标不同。
  • 背景

    • 由于延迟反馈问题,训练数据的观察分布往往偏离真实分布,导致理想损失不可用。
    • 引入三个时间点和相应的时间间隔:点击时间、转换时间和观察时间,根据这些时间间隔定义了历时和延迟反馈时间。
  • 提出的方法

    • 历时采样延迟反馈模型(ES - DFM):假设历时服从分布,建模观察到的转换分布和真实转换分布之间的关系,当用户参与广告时,将数据发送给模型并重新归一化
    • ES - DFM的重要性权重:通过重要性采样优化延迟反馈问题中的期望,根据理论背景得到重要性权重,进一步根据的表达式得到具体的重要性权重表达式,并给出重要性加权的CVR损失函数。
    • 重要性权重(IW)的估计:将分解为,通过两个二进制分类器估计这两个概率,在流训练中联合训练这两个模型。
    • 估计IW的偏差分析:理想情况下重要性加权损失函数是无偏的,但由于估计的重要性权重可能会引入偏差,偏差与以及采样分布有关,可以通过控制来减少偏差。
  • 实验

    • 数据集:使用Criteo公开数据集和淘宝数据集进行实验,对数据集进行预处理,分为模型预训练和流数据模拟两部分。
    • 评估指标:采用AUC、PR - AUC和NLL三个指标评估CVR预测任务的模型性能。
    • 流实验协议:设计了流CVR预测的实验评估方法,根据点击时间戳将流数据集划分为多个数据集,模型在第小时的数据上训练并在第小时的数据上测试,以此类推,报告不同小时评估数据集的加权指标来验证不同方法在流数据上的整体性能。
    • 比较方法:与最先进的方法进行比较,包括预训练模型、Vanilla Finetune模型、DFM、FNW、FNC、FSIW和ES - DFM,还报告了Oracle模型的性能作为上限。
    • 参数设置:对所有比较方法的超参数进行仔细调整,模型架构为简单的MLP模型,使用Adam优化器。
    • 选择:通过设置简化的实现,实验表明选择最佳的可以显著提高性能。
    • 标准流实验(RQ1):ES - DFM方法显著优于所有基线方法,达到了最先进的性能;DFM和FSIW性能较差,FNC和FNW在大多数情况下表现更好;ES - DFM在AUC方面的改进相对较小的提升可能会导致在线CTR的显著增加。
    • 历时的影响(RQ2):在Criteo数据集上进行实验,最佳的约为15分钟,较大或较小的都会降低性能,较小的性能下降缓慢,较大的性能下降更快。
    • 鲁棒性实验(RQ3):ES - DFM方法比FNW和FSIW更能抵抗干扰,干扰增加时性能差距更大。
    • 在线评估(RQ4):在线A / B测试中,AUC提高了0.3%,CVR提高了0.7%,GMV提高了1.8%,实验结果表明ES - DFM在工业系统中是有效的。
  • 结论

    • 提出的历时分布平衡了标签准确性和模型新鲜度,以解决流CVR预测中的延迟反馈问题。
    • 通过重要性采样优化真实转换分布的期望,实验表明该方法具有优越性。
    • 提出了严格的流训练和测试实验协议,更符合实际工业应用。