【发布时间】:2018-12-17 19:25:36
【问题描述】:
我正在尝试学习机器学习。
我对一种热编码有疑问:
我有一个数据集分为 2 个 excel 数据表。一张有火车,另一张有测试数据。我首先通过使用 pandas 导入训练数据表来训练我的模型。数据集中有必须编码的分类特征。我对它们进行了热编码。
导入测试数据集后,如果我对其进行热编码,编码会与训练数据集相同还是不同。如果是这样,我该如何解决这个问题?
【问题讨论】:
-
你是如何执行 one-hot 编码的?手动或使用 sklearn。?
-
如果您的训练/测试集在分类中包含不同的值,您是一种热编码,那么您将返回不同的列。 IMO,您的选择是将训练/测试一起编码,或者编写一个函数以将适当的虚拟列添加到您的一个热编码训练/测试集中。
标签: python pandas machine-learning