如果分类列在训练集中有多个值但在测试数据中只有一个值怎么办？这样的功能在模型训练中是否有用？答案

【问题标题】：What if a categorical column has multiple values in the train set but only one in test data? Would such a feature be useful in model training at all?如果分类列在训练集中有多个值但在测试数据中只有一个值怎么办？这样的功能在模型训练中是否有用？
【发布时间】：2018-05-17 07:15:26
【问题描述】：

我正在尝试解决一个回归问题，其中我的一个特征可以在训练集中占用两个值（'1'，'0'），但在测试数据中只能取值'1'。直觉上，包含此功能对我来说似乎是错误的，但我无法找到具体的逻辑来支持我的假设。

【问题讨论】：

标签： python machine-learning regression data-science feature-selection

【解决方案1】：

嗯，这取决于您总共拥有多少功能。如果很少（比如少于五个），那么该单一特征很可能会在您的分类中发挥重要作用。在这种情况下，我会说您有“数据不匹配”问题；这意味着您的训练和测试数据来自不同的分布。解决此问题的一种简单方法是将两个集合放在一起，将整个集合打乱，然后再次拆分数据。

【讨论】：

实际上测试数据的性质是它只有一个值，它不是偶然不平衡的。我总共有大约 11 个特征，包括数字和分类。
在这种情况下，没有必要在您的训练集中保留该功能。请记住，使您的训练和测试集来自几乎相似的分布是有帮助的，有时被称为“人工数据合成”。一个例子是对训练数据应用裁剪和旋转等增强功能，使其看起来更类似于测试分布（通过涵盖更多的输入变化）