【问题标题】:What if a categorical column has multiple values in the train set but only one in test data? Would such a feature be useful in model training at all?如果分类列在训练集中有多个值但在测试数据中只有一个值怎么办?这样的功能在模型训练中是否有用?
【发布时间】:2018-05-17 07:15:26
【问题描述】:

我正在尝试解决一个回归问题,其中我的一个特征可以在训练集中占用两个值('1','0'),但在测试数据中只能取值'1'。直觉上,包含此功能对我来说似乎是错误的,但我无法找到具体的逻辑来支持我的假设。

【问题讨论】:

    标签: python machine-learning regression data-science feature-selection


    【解决方案1】:

    嗯,这取决于您总共拥有多少功能。如果很少(比如少于五个),那么该单一特征很可能会在您的分类中发挥重要作用。在这种情况下,我会说您有“数据不匹配”问题;这意味着您的训练和测试数据来自不同的分布。解决此问题的一种简单方法是将两个集合放在一起,将整个集合打乱,然后再次拆分数据。

    【讨论】:

    • 实际上测试数据的性质是它只有一个值,它不是偶然不平衡的。我总共有大约 11 个特征,包括数字和分类。
    • 在这种情况下,没有必要在您的训练集中保留该功能。请记住,使您的训练和测试集来自几乎相似的分布是有帮助的,有时被称为“人工数据合成”。一个例子是对训练数据应用裁剪和旋​​转等增强功能,使其看起来更类似于测试分布(通过涵盖更多的输入变化)
    猜你喜欢
    • 2015-10-25
    • 2017-01-29
    • 2021-01-20
    • 2019-06-18
    • 2021-03-06
    • 1970-01-01
    • 1970-01-01
    • 2018-01-01
    • 2022-11-23
    相关资源
    最近更新 更多