《Field - aware Calibration: A Simple and Empirically Strong Method for Reliable Probabilistic Predictions》 作者为Feiyang Pan、Xiang Ao等人,发表于2020年的WWW会议。
论文地址
研究背景和动机
- 机器学习模型的概率预测往往存在校准误差,这会导致决策系统的不可靠,例如在线广告中点击率预测的不准确。
- 现有评估校准误差的标准指标存在不足,如负对数似然和Brier分数过于细粒度,可靠性图在子集层面可能过于粗糙。
主要贡献:
- 提出新的评估指标:引入了一种名为“Field - level Calibration Error”的新评估指标,用于测量决策制定者关注的特定输入字段上预测的偏差。
- 提出新的校准方法:提出了一种基于神经网络的简单而强大的后验校准方法“Neural Calibration”,它充分利用了验证集上的字段感知信息来进行校准。
- 进行广泛实验验证:在五个大规模真实世界数据集上进行了广泛实验,证明了Neural Calibration的有效性,它不仅在常见指标(如负对数似然、Brier分数和AUC)上优于未校准的预测,而且在提出的字段级校准误差方面也有显著改进。
相关工作:
- 现有后验校准方法可分为基于非参数和参数映射函数的两类,如分箱方法、Isotonic Regression和Platt Scaling等,但这些方法在数据集偏移情况下可能不可靠。
- 其他相关工作包括使用更详细的映射函数进行校准或在不同问题设置中进行校准,以及研究校准误差产生的原因或如何在训练基础模型时减轻校准误差。
方法介绍:
-
Field - level Calibration Error:通过输入空间的特定分类字段z将数据划分为不相交子集,用于评估概率预测在不同数据子集上的偏差。
-
Neural Calibration:由两个模块组成,一个是将原始模型输出转换为校准输出的参数化单变量映射函数,另一个是充分利用开发集的辅助神经网络。训练目标是最小化验证集上的Log - loss,通过随机梯度下降进行训练。
-
Isotonic Line - Plot Scaling (ILPS):一种新颖的参数化校准映射,具有强大的拟合能力、高效的在线训练能力、可靠性和可解释性。它是一个非递减、连续的分段线性函数。
- 辅助神经网络:用于学习修复字段级校准误差或偏差,通过使用来自开发集的所有必要特征来实现。
实验部分:
-
实验设置:使用五个二进制分类数据集进行实验,将数据集分为训练集、开发集和测试集,允许数据存在偏移。
-
数据集:包括Lending Club贷款数据、Criteo展示广告数据、Avazu点击率预测数据、Porto Seguro的安全驾驶员预测数据和Tencent点击率预测数据。
-
实验结果:
-
现有后验校准方法和在训练集与开发集联合上训练的未校准模型存在缺陷,如Model - 2在AUC上表现更好,但在所有校准相关指标上的误差更高;传统校准方法在某些情况下在校准指标上表现较好,但在AUC上不如Model - 2;传统后验校准方法在数据偏移时不可靠。
-
Neural Calibration在所有校准指标上表现最佳,能显著降低误差,使概率预测更可靠,并且在AUC上能达到与Model - 2相当的水平,甚至更高。
-
ILPS在所有数据集上的表现优于Platt Scaling,与非参数方法相当或更好,可以作为Platt Scaling的良好替代。
-
Neural Calibration中引入字段感知部分有助于校准,ILPS部分提供了基线AUC分数,辅助神经网络在此基础上进行了改进。
-
使用所有输入特征x训练的Neural Calibration模型在经验上优于仅使用敏感字段z的模型,它不仅能降低字段z上的校准误差,还能推断出它可以减少其他字段上的偏差,并且在AUC上明显更好。
-
Neural Calibration在数据偏移情况下具有较好的鲁棒性,表现出较高的样本效率,是可靠的。
-
结论和讨论:
本文提出的Neural Calibration方法能够同时在校准和非校准指标上实现高性能,对实际应用是可靠的。未来的工作方向包括理解现代机器学习中校准误差的来源,将字段感知校准扩展到回归和多类分类,或将监督学习设置扩展到更一般的在线学习和强化学习设置。