【发布时间】:2017-05-18 19:22:29
【问题描述】:
假设我的数据框中有一堆分类字符串列。然后我做下面的变换:
- StringIndex 列
- 然后我使用 VectorAssembler 将所有转换后的列组装成一个向量特征列
- 对新的向量特征列执行 VectorIndexer。
问题:对于第 3 步,是否有意义,还是重复努力?我认为第 1 步已经完成了索引。
【问题讨论】:
-
根据 spark ml 关于决策树的文档,有一行描述 ml 和 mllib 之间的区别,这里我引用
use of DataFrame metadata to distinguish continuous and categorical features,我认为第 3 步的重要性。跨度>
标签: apache-spark machine-learning