轮廓系数(Silhouette Coefficient)是用于评估聚类效果的一种指标。

对于单个样本,设 $a(i)$ 是样本 $i$ 到同一簇内其他样本的平均距离(也称为簇内不相似度),$b(i)$ 是样本 $i$ 到其他簇的所有样本的平均距离的最小值(称为簇间不相似度)。

样本 $i$ 的轮廓系数 $s(i)$ 的计算公式为:

轮廓系数的值介于 [-1, 1] 之间:

  • 接近 1 :说明样本的聚类合理,簇内样本距离较近,簇间样本距离较远。
  • 接近 0 :说明样本在两个簇的边界上。
  • 接近 - 1:说明样本被错误分类。

对于整个数据集的轮廓系数,是所有样本轮廓系数的平均值,通过计算数据集的轮廓系数,可以综合评估聚类算法在该数据集上的聚类效果。