论文 | DESCN：Deep Entire Space Cross Networks for Individual Treatment Effect Estimation

参考

https://zhuanlan.zhihu.com/p/553307117

DESCN原理介绍

DESCN 是深度全空间交叉网络（Deep Entire Space Cross Networks）的缩写，它是一种用于个体治疗效果估计的模型。

在因果推理中，准确估计个体治疗效果（ITE）非常重要，但传统方法通常会遇到一些问题。例如，由于治疗偏差，处理组和对照组之间的分布可能不同，且它们的样本量可能存在显著不平衡。

DESCN 旨在解决这些问题，其主要贡献包括：

提出了端到端的多任务交叉网络 DESCN，它能够以综合的方式捕获治疗倾向、真实反应和伪治疗效果之间的关系，同时缓解治疗偏差和样本不平衡问题。大量实验表明，DESCN 在 ITE 估计精度和提升排序性能方面优于基线模型。
设计了用于对整个样本空间中处理和响应函数的联合分布进行建模的全空间网络（ESN）。ESN 不是分别在处理组和对照组各自的样本空间中单独建模治疗响应（TR）和控制响应（CR），而是应用倾向网络学习治疗倾向，然后与 TR 和 CR 连接以导出整个空间治疗反应（ESTR）和整个空间控制响应（ESCR）。这样模型可以直接在 ESTR 和 ESCR 上进行训练，利用整个样本来解决治疗偏差问题。ESN 不仅限于 DESCN 模型，还可应用于其他基于个体响应函数估计的提升模型。
收集了来自电子商务平台关于代金券分布的大规模生产数据集，并特别设计实验在训练集中生成强治疗偏差，而在测试集中使用随机处理，以更好地评估模型性能。这是第一个同时在训练和测试集中具有有偏和随机处理的工业生产数据集，有助于推动因果推理的未来研究。

具体来说，在 DESCN 模型中，首先定义观察样本 $D={y_i,x_i,w_i}_{i=1}^n$ ，其中$y$表示效果（即标签），$x$表示样本特征，$w$表示是否被干预（1 表示干预，0 表示未干预）。倾向性得分估计表示为$\pi(x)=P(W=1|X=x)$，令$T={i:w_i=1}$和$C={i:w_i=0}$分别表示实验组和对照组的样本。干预的响应 TR 和对照的响应 CR 可以表示为： $\mu_{1}(x)=\mathbb{E}_{\mathbb{P}}(Y \mid W=1, X=x)$ ， $\mu_{0}(x)=\mathbb{E}_{\mathbb{P}}(Y \mid W=0, X=x)$ ， ITE 可估计为$\tau=\mu_1(x)-\mu_0(x)$。

ESN 的损失函数如下： $L_{ESN}=\alpha \cdot L_{\pi}+\beta_{1} \cdot L_{ESTR}+\beta_{0} \cdot L_{ESCR}$ ，其中 $L_{\pi}=\frac{1}{n} \sum_{i} l\left(t_{i}, \hat{\pi}\left(x_{i}\right)\right)$ ， $L_{ESTR}=\frac{1}{n} \sum_{i} l\left(y_{i} \& w_{i}, \hat{\mu}_{1}\left(x_{i}\right) \cdot \hat{\pi}\left(x_{i}\right)\right)$ ， $L_{ESCR}=\frac{1}{n} \sum_{i} l\left(y_{i} \&\left(1-w_{i}\right), \hat{\mu}_{0}\left(x_{i}\right) \cdot\left(1-\hat{\pi}\left(x_{i}\right)\right)\right)$ 。

X-network 部分的损失函数如下：

$L_{TR}=\frac{1}{|T|} \sum_{i \in T} l\left(y_{i}, \hat{\mu}_{1}\left(x_{i}\right)\right)$ ， $L_{CR}=\frac{1}{|C|} \sum_{i \in C} l\left(y_{i}, \hat{\mu}_{0}\left(x_{i}\right)\right)$ ， $L_{CrossTR}=\frac{1}{|T|} \sum_{i \in T} l\left(y_{i}, \hat{\mu}_{1}^{\prime}\left(x_{i}\right)\right)=\frac{1}{|T|} \sum_{i \in T} l\left(y_{i}, \sigma\left(\sigma^{-1}\left(\hat{\mu}_{0}\left(x_{i}\right)\right)+\sigma^{-1}\left(\hat{\tau}^{\prime}\left(x_{i}\right)\right)\right)\right.$ ， $L_{CrossCR}=\frac{1}{|C|} \sum_{i \in C} l\left(y_{i}, \hat{\mu}_{0}^{\prime}\left(x_{i}\right)\right)=\frac{1}{|C|} \sum_{i \in C} l\left(y_{i}, \sigma\left(\sigma^{-1}\left(\hat{\mu}_{1}\left(x_{i}\right)\right)-\sigma^{-1}\left(\hat{\tau}^{\prime}\left(x_{i}\right)\right)\right)\right.$

DESCN 的总体损失函数为： $L_{DESCN} =L_{ESN}+\gamma_{1} \cdot L_{CrossTR}+\gamma_{0} \cdot L_{CrossCR}=\alpha \cdot L_{\pi}+\beta_{1} \cdot L_{ESTR}+\beta_{0} \cdot L_{ESCR}+\gamma_{1} \cdot L_{CrossTR}+\gamma_{0} \cdot L_{CrossCR}$

DESCN 通过交叉网络以多任务学习的方式捕获治疗倾向、反应和隐藏治疗效果的综合信息，联合学习整个样本空间中的治疗和响应函数以避免治疗偏差，并采用中间伪治疗效果预测网络来缓解样本不平衡。如果你想了解更多关于 DESCN 模型的详细信息，可以查阅相关论文或访问其代码链接（https://github.com/kailiang-zhong/descn）。

网络结构

DESCN

论文 | DESCN：Deep Entire Space Cross Networks for Individual Treatment Effect Estimation

相关信息

参考

DESCN原理介绍

网络结构

相关文档

论文相关文章

因果推断相关文章

最近热门

最常浏览