在使用机器学习算法处理数据的过程中,经常会遇到缺失值的问题。在遇到缺失值时该怎么处理呢,下面给出一些常用的处理方法。


1. 直接删除

这种方法适合缺失值数量较少,并且随机出现的情况。删除它对整体影响不大。


2. 常量填充

2.1 使用未知值填充

比如使用缺失值如"Unknown"等填充,但是效果不好,因为算法可能会把它识别为一个新的类别。

2.2 使用均值填充

该方法不会减少样本信息,处理简单。适合数据正常分布的情况。

2.3 使用中位数填充

在数据倾斜时,可以考虑使用中位数来进行填充。


3. 插补法

3.1 随机插补

从总体样本中随机选取样本值来填充缺失样本

3.2 多重插补

3.3 热平台插补

3.4 牛顿插值


4. 建模

可以考虑使用回归、贝叶斯、决策树等方法来预测缺失值。