【发布时间】:2020-02-10 13:12:51
【问题描述】:
我正在尝试使用神经网络进行二元和多类分类。我的数据集有二进制、数字和名义变量。训练集的标称值有很多值,所以当我执行OneHotEncoding 时,维度从42 移动到122。此外,由于数据集是以这种方式提出的,因此某些值仅存在于训练集上。
所以我使用了以下顺序:
- 单热编码
- 标准化
- 特征选择或 PCA
但我发现有些人也使用了神经网络,他们甚至在执行 One-hot Encoding 之前就执行了特征选择。这对我来说很奇怪,因为神经网络只能处理数值数据。因此,运行可能删除分类值的特征选择算法可能会损害神经网络,尤其是一个热编码会对整个模型的维度产生影响。
但我不知道,所以我不得不问:这里的正确顺序是什么?这个thread遵循我使用的顺序,但我对one-hot编码和特征选择部分更感兴趣
【问题讨论】:
标签: python machine-learning neural-network feature-selection