一种热编码错误python机器学习答案

【问题标题】：One hot encoding error python machine learning一种热编码错误python机器学习
【发布时间】：2018-06-17 10:31:20
【问题描述】：

我正在使用机器学习中的分类变量。这是我的数据示例：

age,gender,height,class,label
25,m,43,A,0
35,f,45,B,1
12,m,36,C,0
14,f,42,A,0

有两个分类变量gender和height。我使用了LabelEncoding技术。

我的代码：

import pandas as pd
import numpy as np
from sklearn.preprocessing import LabelEncoder,OneHotEncoder

df=pd.read_csv('test.csv')

X=df.drop(['label'],1)
y=np.array(df['label'])

data=X.iloc[:,:].values

lben = LabelEncoder()
data[:,1] = lben.fit_transform(data[:,1])
data[:,3] = lben.fit_transform(data[:,3])

onehotencoder = OneHotEncoder(categorical_features=[1])
data = onehotencoder.fit_transform(data).toarray()

onehotencoder = OneHotEncoder(categorical_features=[3])
data = onehotencoder.fit_transform(data).toarray()

print(data.shape)

np.savetxt('data.csv',data,fmt='%s')

data.csv 如下所示：

0.0 0.0 1.0 0.0 0.0 1.0 25.0 0.0
0.0 0.0 0.0 1.0 1.0 0.0 35.0 1.0
1.0 0.0 0.0 0.0 0.0 1.0 12.0 2.0
0.0 1.0 0.0 0.0 1.0 0.0 14.0 0.0

我无法理解为什么该列是这样的，即“高度”列的值在哪里。另外 data.shape 是 (4,8) 而不是 (4,7)，即（性别由 2 表示按 3 和“年龄”和“身高”特征划分的列和类别。

【问题讨论】：

标签： python machine-learning one-hot-encoding

【解决方案1】：

您确定需要使用LabelEncoder+OneHotEncoder吗？有一个更简单的方法（它不允许进行高级程序，但到目前为止您似乎在做基础工作）：

import pandas as pd
import numpy as np

df=pd.read_csv('test.csv')

X=df.drop(['label'],1)
y=np.array(df['label'])

data = pd.get_dummies(X)

当前代码的问题是在你完成了第一个 OHE 之后：

onehotencoder = OneHotEncoder(categorical_features=[1])
data = onehotencoder.fit_transform(data).toarray()

列移动了，第 3 列实际上是原始的 height 列，而不是标签编码的 class 列。因此，将第二个更改为使用第 4 列，您将得到您想要的。

【讨论】：