“Toward Understanding Privileged Features Distillation in Learning-to-Rank”由Shuo Yang、Sujay Sanghavi等人撰写。文章研究了学习排序(Learning-to-Rank)中特权特征蒸馏(Privileged Features Distillation,PFD)的相关问题,通过实证研究和理论分析揭示了PFD的有效性及相关特性。
1. 研究背景
- 在推荐系统等学习排序问题中,测试时的特征通常是训练时特征的子集,缺失的特征可能因计算成本高或为事后特征(如电商网站中“点击”特征在离线训练数据中存在,但在线服务时不可用),这些仅在训练时存在的特征被称为特权特征。
- 解决此问题的一种方法是利用特权特征训练“教师”模型,然后将信息传递给仅使用常规特征的“学生”模型,其中教师模型使用特权特征和常规特征的方法被称为PFD,仅使用特权特征的方法被称为广义蒸馏(GenD)。
2. 研究目的
通过对中规模公共数据集和工业规模专有数据集的实证消融研究以及对简单线性模型的理论分析,深入探究特权特征蒸馏何时有效以及为何有效。
3. 实验过程
- 数据集
- 使用三个公共排名数据集(Yahoo、Istella、MSLRWeb30k)和一个来自亚马逊搜索日志的工业规模数据集。
- 对数据集进行预处理,包括去除无正相关分数或文档数量少于10的查询组,对特征进行log1p变换,并根据与二进制标签的相关性大小划分常规特征和特权特征。
- 算法
- PFD:先训练一个同时使用常规特征x和特权特征z的教师模型来预测标签y,然后通过最小化包含数据损失和教师损失的蒸馏损失来训练学生模型。
- GenD:教师模型仅使用特权特征作为输入来训练,然后训练学生模型模仿教师的预测。
- Self-distillation:教师模型与学生模型结构相同,仅使用常规特征进行训练。
- 实验结果
- 在所有评估设置中,PFD的性能优于或等于其他基线方法(无蒸馏、GenD、自蒸馏以及在适用情况下对特权特征进行预训练然后微调)。
- 消融研究
- PFD在教师损失主导蒸馏损失时有效,且对参数α不敏感。
- 当正标签稀疏时,PFD带来的增益更大,且相对于自蒸馏的相对增益也随正标签稀疏程度增加而增加。
- 特权特征的预测能力与学生模型性能呈现非单调关系,即随着特权特征的预测能力增加,学生模型性能先上升后下降。
4. 理论分析
- 通过对线性模型的分析表明,PFD通过减少估计方差来提高性能(定理1)。
- 当特权特征过于具有判别性时,PFD性能会变差,原因是这会导致教师预测方差大,进而使学生估计不准确(定理2)。
5. 研究结论
- PFD在所有评估的数据集和设置中都表现出良好性能。
- 通过消融研究揭示了PFD的非单调行为。
- 理论分析表明PFD通过降低学生估计方差起作用,同时过于预测性的特权教师会导致性能下降。