《On Calibration of Modern Neural Networks》总结

本文研究了现代神经网络的置信度校准问题,即预测概率估计与真实正确性可能性的匹配程度。通过实验发现现代神经网络存在校准不良的问题,并分析了影响校准的因素,比较了各种后处理校准方法。

论文地址:On Calibration of Modern Neural Networks

  • 研究背景和动机

    • 神经网络在许多应用中被用于做出复杂决策,其不仅应准确,还应能表明决策的可靠性,即提供校准的置信度估计。
    • 2005年的研究表明神经网络能产生良好校准的概率,但现在的神经网络虽更准确却不再校准良好,本文旨在探究原因并找到解决方法。
  • 相关定义

    • 完美校准,其中是类预测,是其相关的置信度。
    • 可靠性图:用于可视化模型校准,若模型完美校准,则图应绘制为恒等函数,任何偏离表示校准不良。
    • 预期校准误差(ECE):通过将预测划分为等间隔的区间并取加权平均来近似衡量校准误差,ECE越低表示校准越好。
    • 最大校准误差(MCE):用于衡量置信度和准确性之间的最坏情况偏差。
  • 观察到的校准不良现象

    • 模型容量:增加深度和宽度虽能减少分类错误,但会负面影响模型校准,因为模型会在正确分类训练样本后通过增加预测置信度来进一步最小化负对数似然(NLL),导致平均置信度高于准确性。
    • 批归一化(Batch Normalization):虽能改善神经网络的优化,但会使模型更易校准不良,尽管其能提高训练时间和准确性。
    • 权重衰减:减少权重衰减对校准有负面影响,增加正则化能改善校准,且校准和准确性并非由相同参数设置优化。
    • NLL与准确性的脱节:神经网络可能过度拟合NLL而不拟合0/1损失,导致校准不良,同时这种过度拟合对分类准确性有益。
  • 校准方法

    • 校准二分类模型

      • 直方图分箱(Histogram binning):将预测分为互斥的区间,并为每个区间分配校准分数,使预测最小化区间内的平方损失。
      • 等渗回归(Isotonic regression):学习一个分段常数函数来转换未校准的输出,以最小化平方损失。
      • 贝叶斯分箱到分位数(Bayesian Binning into Quantiles, BBQ):使用贝叶斯模型平均来扩展直方图分箱,边缘化所有可能的分箱方案来产生校准概率。
      • 普拉特缩放(Platt scaling):使用逻辑回归模型对分类器的非概率预测进行训练,以返回校准后的概率。

        • 扩展到多分类模型
      • 扩展的分箱方法:将多分类问题视为多个二分类问题,为每个类形成一个校准模型。

      • 矩阵和向量缩放(Matrix and vector scaling):矩阵缩放对输入的逻辑向量应用线性变换,向量缩放是其变体,限制矩阵为对角矩阵。
      • 温度缩放(Temperature scaling):使用单个标量参数对所有类进行缩放,修改softmax函数以校准概率,不改变模型的准确性。
    • 其他相关工作:介绍了其他关于校准和置信度分数的研究,如在线设置中的校准、输出空间为结构化对象时的校准、使用网络集成获取不确定性估计、通过惩罚过度自信的预测进行正则化以及使用置信度分数确定样本是否分布外等。

  • 实验结果

    • 校准结果:大多数数据集和模型存在一定程度的校准不良,温度缩放在视觉任务上优于其他方法,在NLP数据集上表现与其他方法相当,且通常比向量和矩阵缩放更有效,矩阵缩放在多类数据集上表现不佳,分箱方法能改善校准但不如温度缩放,直方图分箱通常优于其他更复杂的分箱方法。
    • 可靠性图:展示了CIFAR - 100上ResNet在校准前后的可靠性图,说明温度缩放能产生更好的置信度估计。
    • 计算时间:温度缩放最快,其他方法计算时间较长,与验证集样本数量呈线性关系,向量和矩阵缩放的计算复杂度分别与类的数量呈线性和二次关系。
    • 实现难易度:BBQ最难实现,温度缩放最容易融入神经网络管道。
  • 结论

    • 现代神经网络存在概率误差和校准不良的问题,尽管分类错误减少,但神经网络架构和训练的进步(模型容量、归一化和正则化)对网络校准有强烈影响。
    • 温度缩放是最简单、最快、最直接的校准方法,且通常最有效。

综上所述,本文揭示了现代神经网络校准不良的现象,分析了原因并提出了有效的校准方法,为神经网络的实际应用提供了重要的参考。