特征编码、特征选择和归一化的顺序答案

【问题标题】：Order of Feature Encoding, Feature Selection and normalization特征编码、特征选择和归一化的顺序
【发布时间】：2020-02-10 13:12:51
【问题描述】：

我正在尝试使用神经网络进行二元和多类分类。我的数据集有二进制、数字和名义变量。训练集的标称值有很多值，所以当我执行OneHotEncoding 时，维度从42 移动到122。此外，由于数据集是以这种方式提出的，因此某些值仅存在于训练集上。

所以我使用了以下顺序：

但我发现有些人也使用了神经网络，他们甚至在执行 One-hot Encoding 之前就执行了特征选择。这对我来说很奇怪，因为神经网络只能处理数值数据。因此，运行可能删除分类值的特征选择算法可能会损害神经网络，尤其是一个热编码会对整个模型的维度产生影响。

但我不知道，所以我不得不问：这里的正确顺序是什么？这个thread遵循我使用的顺序，但我对one-hot编码和特征选择部分更感兴趣

【问题讨论】：

【解决方案1】：

qu：这里的正确顺序是什么？此顺序可能因您的应用程序和数据而异。

例如，在您的 qu 中为什么在 oneHotEncoding 之前使用特征选择，它适用于您声明的标称数据： “训练集的标称值有很多值，所以当我执行 OneHotEncoding 时，维度从 42 移动到 122” 在此应用程序中，在 oneHotEncoding 之前进行特征选择很有用。

“因此，运行可能会删除分类值的特征选择算法可能会损害神经网络，尤其是一个热编码会对整个模型的维度产生影响”-> 您在本文中对神经网络的解释方法根本不正确，因为对一种热编码存在无用的分类值可能会使神经网络的调整变得困难（或导致神经网络调整不收敛）或计算复杂度。

【讨论】：