论文地址:[1912.07753] A Deep Probabilistic Model for Customer Lifetime Value Prediction

一、研究背景

  • 准确预测客户未来终身价值(LTV)对营销决策至关重要,如客户细分、营销预算分配、实时定向和广告竞价等。

  • 现有LTV建模方法中,针对新客户LTV预测的研究较少,且常用的均方误差(MSE)损失在处理LTV数据挑战时存在不足。

二、相关工作

  • 许多机器学习方法如随机森林在预测LTV方面优于传统的RFM和BTYD模型。

  • 一些研究采用两阶段模型或直接预测LTV的方法,如Vanderveld等人使用两阶段随机森林模型,Malthouse和Blattberg使用回归模型并考虑对LTV进行变换,Benoit和Van den Poel倡导分位数回归方法,Chamberlain等人认识到LTV的不寻常分布并采用相关方法解决,Sifa等人建议使用合成少数过采样(SMOTE)来训练DNN以提高预测性能。

三、DNN模型与ZILN损失

  • 模型概述:使用DNN进行LTV预测,回归标签为初始购买后固定时间内客户的总消费金额(排除首次购买),预测期限通常为1、2或3年。回归特征可从购买历史、客户人口统计、客户群体、退货历史、客户服务质量指标等多种来源提取。

  • ZILN损失:提出基于零膨胀对数正态(ZILN)分布的混合损失,解决MSE损失在LTV预测中的不足,同时学习购买倾向和货币价值,该损失可分解为分类损失和回归损失,并且提供了完整的预测分布。

  • 网络结构:DNN的最后一层有三个预激活逻辑单元,分别确定返回购买概率p、均值μ和标准差σ的LTV,中间层本质上是对两个相关任务(返回客户分类和返回客户消费预测)的共享表示。

四、评估指标

  • 模型区分能力:使用归一化基尼系数来衡量模型区分高价值客户的能力,它是基尼系数的一种扩展,无需指定命中率水平或百分位数,通过计算模型基尼系数与标签基尼系数的比值得到,介于0和1之间。

  • 模型校准能力:通过绘制预测值的十分位图表来评估模型校准情况,比较每个预测十分位的平均预测值和平均标签值,同时使用十分位级平均绝对百分比误差(MAPE)作为定量衡量指标。

五、数据实验

  • 数据集:使用两个公共数据集进行实验,一是Kaggle Acquire Valued Shoppers Challenge数据集,预测每个客户在接下来12个月的总购买价值;二是KDD Cup 1998数据集,预测对1997年邮件活动的捐赠美元价值。

  • 实验设置:在Kaggle数据集中,限制实验范围为前20家公司,随机选取80%客户进行模型训练,20%用于评估,考虑线性和DNN模型,比较ZILN损失和MSE损失,并报告返回客户预测的二进制分类结果;在KDD Cup数据集中,固定DNN模型(四层),比较ZILN损失和MSE损失,对每个模型训练50次并报告评估指标的平均值。

  • 实验结果:在Kaggle数据集中,ZILN损失在Spearman相关系数、归一化基尼系数和模型校准方面表现优于MSE损失,DNN结合ZILN损失取得最佳效果;在KDD Cup数据集中,ZILN损失在Spearman相关系数、归一化基尼系数和模型校准方面也优于MSE损失,最佳表现的DNN模型结合ZILN损失实现的总利润相对比赛冠军报告的总利润增加了5%。

六、结论

  • 本文使用DNN结合ZILN损失预测新客户的LTV,倡导使用归一化基尼系数量化模型区分能力,使用十分位图表评估模型校准能力,并在两个公共数据集上展示了所提方法的竞争力。