论文地址

[1802.00255] A Nonparametric Delayed Feedback Model for Conversion Rate Prediction

论文总结

《A Nonparametric Delayed Feedback Model for Conversion Rate Prediction》论文总结

  • 摘要:本文提出了一种用于转化率预测的非参数延迟反馈模型(NoDeF),该模型在不假设参数分布的情况下表示时间延迟的分布,能够更好地处理展示广告中广告点击和转化之间的时间延迟问题,在合成数据集和真实数据集上的实验表明,该模型优于现有方法。

  • 相关工作

    • 扩展了Chapelle提出的考虑延迟反馈的转化率预测模型,该模型假设时间延迟服从指数分布。
    • Ji等人提出了分布为威布尔分布混合的模型,Safari等人提出了威布尔分布延迟反馈模型的有效解决方案。
    • 本研究首次在转化率预测模型中以非参数方式表示延迟反馈的分布。
    • 受Du等人表示社交网络信息扩散时间延迟的非参数分布的想法启发,但在数学公式和问题处理上有本质区别。
    • NoDeF的想法对建模多触点归因也有用。
  • 初步:生存分析

    • 简要介绍了生存分析的理论,包括随机变量T、概率密度f(t)、累积分布函数F(t)、生存函数s(t)和风险函数h(t)的定义及它们之间的关系。
  • 提出的模型

    • 模型:NoDeF由两个概率模型组成,时间延迟模型用于表示点击和转化之间的时间延迟,转换模型是一个预测新用户是否会对新展示的广告进行转化的分类器。
      • 时间延迟模型的风险函数根据生存分析框架定义,通过在时间轴上放置等间隔的伪点,使用核函数和强度函数计算。
      • 转换模型使用逻辑回归定义。
      • 定义了观测数据的似然函数,并将样本索引分为正样本集和负样本集。
    • 学习算法:基于EM算法推导学习算法,定义目标函数,通过E步更新隐藏变量的后验概率,M步使用梯度下降或准牛顿方法更新参数,迭代估计参数直到目标函数收敛。
    • 预测:NoDeF可以进行两种类型的预测,一是预测新样本是否会转化,二是预测新样本在特定时间内是否会转化。
  • 实验

    • 合成数据集实验:生成包含三种转换行为模式的合成数据集,实验结果表明NoDeF能够正确估计时间延迟分布的复杂形状。
    • Criteo数据集实验:使用Criteo数据集进行实验,设置NoDeF的超参数并与DFM和NAIVE方法进行比较,结果表明NoDeF在预测性能上优于其他模型。
  • 结论

    • NoDeF能够非参数地估计广告点击和转化之间时间延迟的分布,代表了指数和威布尔分布等参数分布无法捕获的复杂分布。
    • 未来将尝试开发基于随机EM算法的高效学习算法,并将NoDeF应用于多触点归因设置以证明其有效性。

综上所述,本文提出的NoDeF模型在转化率预测中具有较好的性能和应用前景。