【发布时间】:2020-06-24 07:17:04
【问题描述】:
我试图了解在对数据执行 OneHotEncoding 以转换分类数据后,决策树如何解释特征。
假设在训练数据中我们有 3 个特征(都是分类的),分别是 X1、X2、X3。
X1 有 3 个不同的值 (a,b,c), X2 有 2 个不同的值 (e,f) 和 X3 有 4 个不同的值 (m,n,o,p)。
编码后,sparse = False,结果矩阵的形状为 (X.shape[0], 9)。
现在在拟合决策树模型时,为了计算信息增益,模型会将其视为 9 个特征的训练集还是 3 个特征的训练集?
如果是 3,模型将如何知道编号。与功能关联的列数。
如果是 9,特征会不会失去重要性?
【问题讨论】:
标签: python encoding scikit-learn decision-tree one-hot-encoding