LabelEncoder

简单说,LabelEncoder就是对不连续的数字或者文本进行编号。

示例代码

from sklearn.preprocessing import LabelEncoder
le = LabelEncoder()
le.fit([1,5,67,100])
le.transform([1,1,100,67,5])

输出

array([0, 0, 3, 2, 1])

OneHotEncoder

OneHotEncoder用来将表示分类的数据扩维。

示例代码

from sklearn.preprocessing import OneHotEncoder
ohe = OneHotEncoder()
ohe.fit([[1],[2],[3],[4]])
ohe.transform([[2],[3],[1],[4]]).toarray()

输出

array([[ 0.,  1.,  0.,  0.],
       [ 0.,  0.,  1.,  0.],
       [ 1.,  0.,  0.,  0.],
       [ 0.,  0.,  0.,  1.]])