【发布时间】:2022-01-07 00:58:12
【问题描述】:
我正在使用经典的泰坦尼克号数据集。我使用OneHotEncoder 对人的姓氏进行编码。
transformer = make_column_transformer((OneHotEncoder(sparse=False), ['Surname']), remainder = "drop")
encoded_surname = transformer.fit_transform(titanic)
titanic['Encoded_Surname'] = list(encoded_surname.astype(np.float64))
这是我在寻找.info() 时得到的:
Data columns (total 7 columns):
# Column Non-Null Count Dtype
--- ------ -------------- -----
0 Survived 891 non-null int64
1 Pclass 891 non-null int64
2 Sex 891 non-null int64
3 SibSp 891 non-null int64
4 Parch 891 non-null int64
5 Fare 891 non-null float64
6 Encoded_Surname 891 non-null object
dtypes: float64(1), int64(5), object(1)
由于Encoded_Surname 标签是一个对象,而不是其他数字,因此我无法将数据放入分类器模型中。
如何将我从OneHotEncoder 得到的np.array 转换为数字数据?
【问题讨论】:
标签: pandas numpy scikit-learn one-hot-encoding