论文：A Feedback Shift Correction in Predicting Conversion Rates under Delayed Feedback

论文地址
论文总结

论文地址

[2002.02068] A Feedback Shift Correction in Predicting Conversion Rates under Delayed Feedback

论文总结

《A Feedback Shift Correction in Predicting Conversion Rates under Delayed Feedback》论文总结

摘要：本文针对展示广告中转化率预测存在的延迟反馈问题，提出使用重要性权重（IW）方法进行反馈偏移校正，通过实验证明了该方法优于现有方法。
相关工作：
- 介绍了延迟反馈问题在转化率预测中的研究现状，一些研究尝试解决该问题，且该问题与正样本未标记学习相关。
- 反馈偏移与协变量偏移相关，后者已被广泛研究，标签偏移是反馈偏移的一般情况，延迟反馈在bandit算法中也有研究。
预分析：
- 通过分析Criteo和Dynalyst数据集，表明点击和转化之间存在延迟，且延迟会导致训练数据和测试数据的标签分布不同，仅等待固定时间窗口来解决延迟问题不是最佳方式。
- Criteo数据集存在24小时周期性，不同活动的周期性模式不同，本文提出的IW方法可以捕捉延迟分布的振荡形状，从而改进转化率预测。
延迟反馈：
- 延迟反馈公式化：定义了相关随机变量，在延迟反馈中，一些正样本会被误标记为负样本，导致训练数据中的负样本包括假负样本和真负样本，将延迟反馈视为训练和测试数据中条件标签分布的差异，即反馈偏移。
- 问题公式化：在转化率预测中，目标是估计 $P(C = 1 | X)$ ，但由于无法观察到C，只能使用Y来训练模型，延迟反馈导致训练和测试数据的分布差异，使得经验风险最小化估计器不一致，从而导致转化率预测器倾向于向下偏差。
重要性权重（IW）方法：
- 理论背景：定义了使用FSIW加权的损失，证明了在反馈偏移下，该损失是一致的，即可以通过最小化该损失来获得一致的估计器，但由于无法直接估计FSIW，需要间接估计。
- 估计FSIW：通过点击后的经过时间和其他特征，分别估计真阳性发生概率的倒数和真阴性发生概率，通过创建人工数据集来估计这两个概率。
实验：
- 公共数据集：Criteo数据集：
  - 数据集和指标：使用Criteo数据集，与现有方法进行比较，使用log loss（LL）、area under the precision - recall curve（PR - AUC）和normalized log loss（NLL）作为评估指标。
  - FSIW估计和超参数：使用LightGBM估计FSIW，设置不同的超参数，使用估计的FSIW作为样本权重训练模型预测转化率。
  - 结果：与DFM和LR相比，本文提出的方法在LL和NLL上有显著改进，训练时间也大大缩短，且不同的反事实截止日期对方法的稳定性影响较小。
    - 数据集：Dynalyst数据集：
  - 数据集和指标：使用Dynalyst的内部数据集，包括三个活动，根据活动的观测期设置不同的反事实截止日期，使用FFM和FFMIW进行评估。
  - FSIW估计和超参数：估计FSIW的超参数与之前实验相同，使用FFM学习转化率预测器，并设置相关超参数。
  - 结果：在所有活动中，FFMIW似乎优于FFM，但只有Campaign L中NLL的差异具有统计学意义。
    - 在线实验：在Campaign L中对FFM和FFMIW进行了14天的A / B测试，结果表明FFMIW在成本和转化率方面表现更好，但CPA没有显著差异。
结论：本文提出的使用IW技术的方法在Criteo数据集上表现优于现有方法，将IW方法应用于FFM并在内部数据集上进行实验，以及在线A / B测试均证明了该方法的有效性。

论文：A Feedback Shift Correction in Predicting Conversion Rates under Delayed Feedback

论文地址

论文总结

延迟反馈相关文章

最近热门

最常浏览