在使用机器学习算法处理数据的过程中,经常会遇到缺失值的问题。在遇到缺失值时该怎么处理呢,下面给出一些常用的处理方法。
1. 直接删除
这种方法适合缺失值数量较少,并且随机出现的情况。删除它对整体影响不大。
2. 常量填充
2.1 使用未知值填充
比如使用缺失值如"Unknown"等填充,但是效果不好,因为算法可能会把它识别为一个新的类别。
2.2 使用均值填充
该方法不会减少样本信息,处理简单。适合数据正常分布的情况。
2.3 使用中位数填充
在数据倾斜时,可以考虑使用中位数来进行填充。
3. 插补法
3.1 随机插补
从总体样本中随机选取样本值来填充缺失样本
3.2 多重插补
3.3 热平台插补
3.4 牛顿插值
4. 建模
可以考虑使用回归、贝叶斯、决策树等方法来预测缺失值。