论文：A DEEP PROBABILISTIC MODEL FOR CUSTOMER LIFETIME VALUE PREDICTION

一、研究背景

二、相关工作

许多机器学习方法如随机森林在预测LTV方面优于传统的RFM和BTYD模型。
一些研究采用两阶段模型或直接预测LTV的方法，如Vanderveld等人使用两阶段随机森林模型，Malthouse和Blattberg使用回归模型并考虑对LTV进行变换，Benoit和Van den Poel倡导分位数回归方法，Chamberlain等人认识到LTV的不寻常分布并采用相关方法解决，Sifa等人建议使用合成少数过采样（SMOTE）来训练DNN以提高预测性能。

三、DNN模型与ZILN损失

模型概述：使用DNN进行LTV预测，回归标签为初始购买后固定时间内客户的总消费金额（排除首次购买），预测期限通常为1、2或3年。回归特征可从购买历史、客户人口统计、客户群体、退货历史、客户服务质量指标等多种来源提取。
ZILN损失：提出基于零膨胀对数正态（ZILN）分布的混合损失，解决MSE损失在LTV预测中的不足，同时学习购买倾向和货币价值，该损失可分解为分类损失和回归损失，并且提供了完整的预测分布。
网络结构：DNN的最后一层有三个预激活逻辑单元，分别确定返回购买概率p、均值μ和标准差σ的LTV，中间层本质上是对两个相关任务（返回客户分类和返回客户消费预测）的共享表示。

四、评估指标

模型区分能力：使用归一化基尼系数来衡量模型区分高价值客户的能力，它是基尼系数的一种扩展，无需指定命中率水平或百分位数，通过计算模型基尼系数与标签基尼系数的比值得到，介于0和1之间。
模型校准能力：通过绘制预测值的十分位图表来评估模型校准情况，比较每个预测十分位的平均预测值和平均标签值，同时使用十分位级平均绝对百分比误差（MAPE）作为定量衡量指标。

五、数据实验

数据集：使用两个公共数据集进行实验，一是Kaggle Acquire Valued Shoppers Challenge数据集，预测每个客户在接下来12个月的总购买价值；二是KDD Cup 1998数据集，预测对1997年邮件活动的捐赠美元价值。
实验设置：在Kaggle数据集中，限制实验范围为前20家公司，随机选取80%客户进行模型训练，20%用于评估，考虑线性和DNN模型，比较ZILN损失和MSE损失，并报告返回客户预测的二进制分类结果；在KDD Cup数据集中，固定DNN模型（四层），比较ZILN损失和MSE损失，对每个模型训练50次并报告评估指标的平均值。
实验结果：在Kaggle数据集中，ZILN损失在Spearman相关系数、归一化基尼系数和模型校准方面表现优于MSE损失，DNN结合ZILN损失取得最佳效果；在KDD Cup数据集中，ZILN损失在Spearman相关系数、归一化基尼系数和模型校准方面也优于MSE损失，最佳表现的DNN模型结合ZILN损失实现的总利润相对比赛冠军报告的总利润增加了5%。

六、结论

本文使用DNN结合ZILN损失预测新客户的LTV，倡导使用归一化基尼系数量化模型区分能力，使用十分位图表评估模型校准能力，并在两个公共数据集上展示了所提方法的竞争力。