论文 | PAL: A Position-bias Aware Learning Framework for CTR Prediction in Live Recommender Systems

《PAL: a position - bias aware learning framework for CTR prediction in live recommender systems》总结

论文总结

研究背景：
- CTR预测的重要性：CTR预测在推荐系统中至关重要，直接决定了推荐系统的收益和用户体验。
- 位置偏差的影响：用户与物品的交互受到物品展示位置的影响，导致训练数据中存在位置偏差，需要在CTR预测模型中考虑位置偏差。
- 现有方法的不足：将位置信息作为特征的方法在在线推理时需要使用默认位置值，但不同的默认位置值可能导致不同的推荐结果，从而影响在线性能；而另一种方法时间复杂度高，且选择合适的位置值进行离线评估或在线实验成本高昂，且缺乏通用性。
方法：
- 记号：定义了离线点击数据集的表示形式，包括特征向量、位置信息和用户反馈。
- 初步探讨：介绍了建模位置偏差的两种方向，即作为特征和作为模块，并分析了它们的优缺点。
- 框架：提出了Position - bias Aware Learning框架（PAL），基于用户点击物品的概率取决于物品被用户看到的概率和用户在看到物品后点击的概率这一假设，由两个模块组成，分别建模这两个概率，并通过联合优化这两个模块来避免次优性能。在离线训练时，通过最小化标签和预测的bCTR之间的对数损失来优化模块参数；在线推理时，使用训练好的pCTR模块进行CTR预测，无需位置信息。
在线实验：
- 数据集：从公司X的App Store流量日志中采样约10亿条记录作为离线训练数据集，并以滑动时间窗口的方式更新数据集，训练特征包括应用特征、用户特征和上下文特征。
- 基线：选择“将位置作为特征”的策略作为基线，通过离线实验从不同位置值中选择了BASE_p5、BASE_p9和BASE_p1作为基线进行在线AB测试。
- AB测试：在游戏推荐场景中进行了为期三周的AB测试，对照组使用基线框架生成推荐，实验组使用PAL生成推荐，比较了PAL与不同基线的rCTR和rCVR指标，结果表明PAL在整个测试中持续优于基线，且基线的性能因位置值的不同而有显著差异。
- 在线分析：通过比较PAL和基线与真实排名的距离以及个性化程度，验证了PAL通过在离线训练中明智地建模位置偏差并在在线推理中消除位置偏差，从而优于基线，并且能够更好地捕捉不同用户的特定兴趣，根据用户的个人兴趣推荐物品。
结论：
- 提出PAL框架：能够在离线训练中建模训练数据中的位置偏差，并在在线推理中无需位置信息进行CTR预测。
- 实验效果：在为期三周的在线AB测试中，PAL比基线产生了更好的结果，验证了其有效性。

PAL框架

Position - bias Aware Learning框架（PAL）的具体实现包括以下步骤：

数据准备：
- 定义离线点击数据集 $S = \{(x_i, pos_i, y_i)\}_{i=1}^N$ ，其中 $N$ 是样本总数， $x_i$ 是样本 $i$ 的特征向量（包括用户资料、物品特征和上下文信息）， $pos_i$ 是样本 $i$ 的位置信息， $y_i$ 是用户反馈（如果用户点击该物品， $y_i = 1$ ，否则 $y_i = 0$ ）。
- 训练数据的特征包括应用特征、用户特征和上下文特征等。
框架结构：
- PAL基于用户点击物品的概率取决于两个因素的假设：物品被用户看到的概率 $p(seen | pos)$ 和用户在看到物品后点击的概率 $p(y = 1 | x, seen)$ 。
- 框架由两个模块组成：
  - 第一个模块“ProbSeen”，建模 $p(seen | pos)$ ，输入为位置信息 $pos$ 。
  - 第二个模块“pCTR”，建模，输入为训练数据中的特征向量。
    - 学习到的考虑位置偏差的CTR（“bCTR”）是这两个模块输出的乘积，即 $bCTR = ProbSeen \times pCTR$ 。
训练过程：
- 损失函数定义为： $L(\theta_{ps}, \theta_{pCTR}) = \frac{1}{N} \sum_{i=1}^N l(y_i, bCTR_i) = \frac{1}{N} \sum_{i=1}^N l(y_i, ProbSeen_i \times pCTR_i)$ ，其中 $\theta_{ps}$ 和 $\theta_{pCTR}$ 分别是“ProbSeen”和“pCTR”模块的参数， $l(-)$ 是交叉熵损失函数。
- 通过随机梯度下降（SGD）优化“ProbSeen”和“pCTR”模块的参数，具体更新公式为：
  - $\theta_{ps} = \theta_{ps} - \eta \cdot \frac{1}{N} \sum_{i=1}^N (bCTR_i - y_i) \cdot pCTR_i \cdot \frac{\partial ProbSeen_i}{\partial \theta_{ps}}$
  - - 使用早期停止策略获取训练良好的模型。
在线推理：
- 一旦PAL训练良好，将“pCTR”模块部署到在线进行CTR推理，此时不需要位置信息。

总之，PAL通过联合优化两个模块来建模位置偏差，在离线训练中学习位置偏差和用户偏好的影响，在线推理时无需位置信息，从而提高了CTR预测的准确性和推荐系统的性能。

论文 | PAL: A Position-bias Aware Learning Framework for CTR Prediction in Live Recommender Systems

论文总结

PAL框架

相关文档

论文相关文章

最近热门

最常浏览