【问题标题】:LabelEncoding for Train and Test Data separately分别对训练和测试数据进行标签编码
【发布时间】:2018-05-28 22:08:57
【问题描述】:

数据集需要标签编码来处理非数值。但是训练和测试数据有一些不相互的值。所以正如预期的那样,我得到了这个错误“y包含新标签:”。如何解决这个问题并进行标签编码?

【问题讨论】:

标签: python pandas numpy machine-learning data-science


【解决方案1】:

您的测试数据包含一些训练数据中不存在的标签。这些是无用的,因为您的模型从未接触过这些值,因此没有从中学到任何东西。

有两种方法可以解决这个问题:

  1. 使用 pd.get_dummies 创建 1 个热编码并删除测试数据中不存在的列。

  2. 删除变量本身。

【讨论】:

    猜你喜欢
    • 2020-10-31
    • 2021-12-23
    • 2020-11-21
    • 2019-08-26
    • 2018-05-04
    • 2016-02-27
    • 2018-10-23
    • 2019-12-09
    • 2019-04-07
    相关资源
    最近更新 更多