【发布时间】:2018-04-17 07:26:55
【问题描述】:
我知道分类数据应该在训练机器学习算法之前进行一次热编码。对于多元线性回归,我还需要排除其中一个编码变量以避免所谓的虚拟变量陷阱。
例如:如果我有分类特征“大小”:“小”、“中”、“大”,那么在一个热编码中我会得到类似的东西:
small medium large other-feature
0 1 0 2999
因此,为了避免虚拟变量陷阱,我需要删除 3 列中的任何一列,例如“小”列。
在训练神经网络时我应该这样做吗?或者这纯粹是为了多元回归?
谢谢。
【问题讨论】:
标签: neural-network regression one-hot-encoding