【发布时间】:2018-03-25 23:58:58
【问题描述】:
因此,目前我的训练和测试集从 669 个特征开始,其中许多是分类特征,需要一次性编码。
在对两个集合进行 one-hot 编码后,我发现训练集有额外的特征。
我不太确定如何处理这个问题,但我觉得我有三个选择:
- 从训练集中删除这些特征,使两者匹配
- 将这些特征添加到测试集中并生成合成数据。
- 在训练模型之前,使用一些降维技术 (PCA) 并使用相同数量的组件进行训练和测试。
任何反馈将不胜感激。
【问题讨论】:
标签: python machine-learning feature-selection