【发布时间】:2019-07-27 05:34:47
【问题描述】:
我正在尝试将具有多列的数据表编码为给定的一组类别
ohe1 = OneHotEncoder(categories = [list_names_data_rest.values],dtype = 'int8')
data_rest1 = ohe1.fit_transform(data_rest.values).toarray()
这里,list_names_data_rest.values 是一个形状数组 (664,)。我有 664 个独特的功能,我正在尝试编码 data_rest,即 (5050,6)。编码后,我期待一个形状(5050,664)
我是对预定义特征集的一种热编码,因为我正在分块下载数据集(由于内存限制),并且我希望我的神经网络的输入形状保持一致
如果我使用pd.get_dummies,根据我的数据集,我可以为我的神经网络获得不同的类别和不同的输入形状
ohe1.fit_transform 确实需要一个形状 (n_values, n_features) 但是,我不知道如何处理。
【问题讨论】:
-
嘿@Varoon,您的原始数据有 6 个特征。您希望如何对其进行编码?比如说“a”和“b”在你的类别列表中,你如何编码 row1 = ["a","a","a","a","a","a"] 和 row2 = ["a","a","a","b","b","b"] ?
标签: pandas machine-learning scikit-learn one-hot-encoding