因果推断 | uplift | 营销增长 | 增长算法

| 原文发表于 2021-07-02

前言

本文不定期收集uplift等相关术语和知识，因不知取啥标题好，因此罗列了一些关键词。

uplift模型

简介

uplift modelling目标是精确学习给定一个干预（发券）后，对结果（是否购买概率）增量。即它要建模出增量效应（发券对比不发券对结果的影响）。直白一点，用经济学语言就是，学习出边际效用，且好的模型能最大化边际效用。
普通的决策树的分裂准则是信息增益，这样使得叶子节点的信息熵最少、类别的不确定性最小，以达到分类的目的；
基于决策树的Uplift模型的分类准则是分布散度，比如常用的有kl散度、卡方散度，这样可以使叶子节点中干预组和无干预组的分布差异最大，来达到提升增益的目的。

样本构造

随机样本
倾向性得分

ITE（individual treatment effect）

$ITE = Y_i(T = 1) - Y_i(T=0)$

ATE（average treatment effect）

$ATE = E[Y_i(T = 1) - Y_i(T=0)]$

CATE（conditional average treatment effect）

$CATE = E[Y_i(T = 1) - Y_i(T=0)|X=x]$

lift值

lift理解：提升指数越大，模型的运行效果越好。

RCT

RCT（随机对照试验）是一种对医疗卫生服务中的某种疗法或药物的效果进行检测的手段，特别常用于医学、药学、护理学研究中，在司法、教育、社会科学等其他领域也有所应用。基本方法是，将研究对象随机分组，对不同组实施不同的干预，以对照效果的不同。

AUUC

AUUC的全称是Area Under Uplift Curve, 虽然翻译是Uplift Curve弹性曲线下的面积，但实际上AUUC值是由Uplift Curve计算得到，并不是曲线下面积。

第 k 个 Uplift 值的含义是：前 k 个人中实验组平均产生的价值-前 k 个人中空白组平均产生的价值。依次类推，我们可以得到第 1~n 个 Uplift 值，可以根据此画出曲线。

$S=\sum_{k=1}^n (u(k)*k)$ $AUUC = \frac{S}{n*u(n)}$

uplift实战

https://www.uplift-modeling.com/en/latest/index.html

多元因果模型

智能营销要研究的核心问题是，用户对不同补贴额度的转化效果差异有多大？这些不同的补贴额度可以被看作是因果推断中的 treatments，所以场景驱使研究者去研究用户在不同 treatments 下的转化效果，即需要多元因果模型。

营销增益评价指标

这里提出IRR和NRR指标来评价最终营销增益的效果。

IRR（内部收益率）

IRR用来测量营销活动带来的购买率，接受营销活动的人群里有购买行为的比例减去未接受人群中有购买行为的比例。即为营销活动组(treatment)带来的购买率减去自然增长(control)的购买率。

NRR（名义回报率）

NRR测量由营销活动带来的盈利。这里10代表商品利润，0.15代表单笔营销成本。当NIR为负数时，说明该营销活动并未盈利，说明该营销方案不可取。

Boldness（序准指标）

Boldness衡量模型的区分能力，以下称为序准指标，比如AUUC、最大累积收益等；

Accurate（偏差指标）

Accurate衡量的准确性，以下称为偏差指标，比如预估偏差等

业界应用

因果推断在哈啰出行的实践探索

论文

DESCN（Deep Entire Space Cross Networks for Individual Treatment Effect Estimation）
Learning to rank for uplift modeling

因果推断 | uplift | 营销增长 | 增长算法 | 智能营销

前言