【发布时间】:2017-12-11 01:32:10
【问题描述】:
我正在尝试在 UCI 银行营销数据上构建决策树和随机森林分类器 -> https://archive.ics.uci.edu/ml/datasets/bank+marketing。数据集中有许多分类特征(具有字符串值)。
在 spark ml 文档中,提到可以通过使用 StringIndexer 或 VectorIndexer 进行索引将分类变量转换为数字。我选择使用 StringIndexer(向量索引需要向量特征和将特征转换为向量特征的向量汇编器只接受数字类型)。使用这种方法,分类特征的每个级别都将根据其频率分配数值(0 表示类别特征的最频繁标签)。
我的问题是随机森林或决策树的算法如何理解新特征(源自分类特征)与连续变量不同。索引特征在算法中是否会被认为是连续的?这是正确的方法吗?或者我应该继续对分类特征使用 One-Hot-Encoding。
我从这个论坛上阅读了一些答案,但我没有弄清楚最后一部分。
【问题讨论】:
标签: apache-spark-mllib random-forest decision-tree