1. 定义

    • AUC(Area Under the Curve)即曲线下面积。在回归问题中,通常是指预测值与真实值之间关系曲线下的面积。对于回归模型,一般会先将回归结果转化为排序问题来计算AUC。
    • 例如,假设我们有一组真实值y = [y_1,y_2,\cdots,y_n]和对应的预测值\hat{y}=[\hat{y}_1,\hat{y}_2,\cdots,\hat{y}_n]。我们可以根据预测值的大小对样本进行排序,然后比较排序后的预测值和真实值的顺序关系来计算AUC。
    • 计算方法

    • 回归AUC计算的步骤:

    • 统计正类的有效对数 cnt_{pos}:预测值较大且真实值较大
    • 统计负类的有效对数:预测值大但真实值小
    • 统计总样本对数 cnt_{all}label_i != label_j
    • 计算回归AUC:reg_{auc} = cnt_{pos}/cnt_{all}
    • 意义

    • AUC的取值范围是0.5到1。AUC = 0.5表示模型的预测结果是随机的,没有任何区分能力。AUC = 1表示模型是一个完美的模型,能够完全正确地对样本进行排序。

    • 它可以用来衡量回归模型的预测性能,特别是在比较不同回归模型的优劣时,AUC是一个很有用的指标。例如,在预测房价的回归模型中,AUC越高说明模型对房价高低的排序能力越强,能够更好地将价格高的房子和价格低的房子区分开来。
    • 与分类AUC的区别

    • 在分类问题中,AUC是基于分类结果(如正类和负类)的混淆矩阵计算出来的,直接衡量分类模型对正例和反例的区分能力。而回归AUC是通过将回归结果转化为排序问题来计算的。

    • 例如,在二分类问题中,我们可以直接根据预测的类别概率来计算TPR和FPR,绘制ROC曲线和计算AUC。但在回归问题中,需要先进行排序等操作后才能计算类似的指标。