机器学习中经常遇到数据不平衡问题,当遇到不平衡问题时,常见的处理方法有以下几种:


1. 使用正确的评估指标

准确率、召回率、F1值、MCC、AUC

   

2. 重新采样训练集

欠采样、过采样


3. 使用集合模型

比如负样本是正样本的10倍,可以分成10份,然后训练10个模型 


4. 设计新模型

设计新模型提高稀有类别分类错误的代价。


参考文献

1. https://www.svds.com/learning-imbalanced-classes/

2. https://yq.aliyun.com/articles/93547?utm_content=m_22922