原文发表于:2020-06-10
什么是样本选择偏差问题
训练空间分布和推断空间样本分布不一致的情况,通常被称为样本选择偏差(Sample Selection Bias,SSB)。
具体是指,训练的时候使用的样本只是预测时样本的一部分,如推荐系统中精排训练的时候用的曝光样本,但实际预测的时候是过粗排的Top样本。
怎么解决样本选择偏差问题
解决样本选择偏差问题有多种方法,包括随机抽样、加权方法、匹配方法等。
通用策略
- 随机抽样:确保样本是从总体中随机选取的,以减少偏差。
- 加权方法:如果已知样本选择的概率,可以通过加权来调整样本以反映总体特征。
- 匹配方法:使用倾向得分匹配(Propensity Score Matching)等方法,为每个样本找到一个或多个类似的对照样本。
ESMM方法
- 整体空间建模:ESMM不是仅在点击的样本上训练模型,而是在整个样本空间上进行建模。这意味着模型在所有曝光(包括未点击的)上进行训练,从而避免了仅在点击样本上训练可能引入的偏差。
- 辅助任务:ESMM引入了两个辅助任务,即CTR(点击率)和CTCVR(点击转化率)。这些任务帮助模型在整个样本空间上进行训练,而不是仅仅依赖于点击后的转化数据。
- 特征表示迁移学习:ESMM通过共享CTR网络和CVR网络的嵌入参数,利用CTR任务中更丰富的样本来帮助CVR网络学习特征表示,这有助于缓解数据稀疏(DS)问题,同时也减少了由于样本选择偏差带来的影响。
- 损失函数设计:ESMM的损失函数不直接使用CVR任务的损失,而是结合CTR和CTCVR任务的损失,这有助于在整个样本空间上优化模型。
参考
- https://zhuanlan.zhihu.com/p/338825375
- https://zhuanlan.zhihu.com/p/458148902
- 样本选择偏差(Sample Selection Bias)
- https://www.zhihu.com/question/475787809/answer/3529649786