【发布时间】:2017-07-11 10:33:47
【问题描述】:
不确定标题是否完全有意义,对此感到抱歉。 我是机器学习的新手,我正在使用 Scikit 和决策树。
这就是我想做的;我想获取我的所有输入并包含一个独特的功能,即客户端 ID。现在,客户端 ID 是唯一的,不能以决策树分析中特征的正常方式进行总结。现在发生的情况是,树将客户端 ID 作为任何其他整数值,然后对其进行分支,例如,客户端 ID 小于 430 的路径与大于 430 的路径不同。这是不正确的,也不是我想要的去做。我想要做的是让决策树明白不能以这种方式分析特定字段,每个客户端都有自己的分支。决策树可以做到这一点吗?
我确实有几个解决方法,其中之一是为每个客户开发独特的决策树,但培训这将是一场噩梦。我还可以做另一种解决方法,假设我们有 800 个客户端,我会创建 800 个带有位字段的功能,但这也很疯狂。
【问题讨论】:
-
是的,您描述的第二个选项(一个 - 热编码)是我对您的描述的建议
-
这似乎是一项艰巨的工作,如果我需要扩展到数千个客户,这是最好的方法吗?
-
因为我使用的是 pandas,所以我猜 get_dummies 函数可能是我最好的选择?
-
您已经很好地描述了您自己的解决方案:您需要使用一种工具,允许您将 ID 排除在分析功能之外。
标签: python machine-learning scikit-learn feature-selection