【发布时间】:2015-03-31 21:52:51
【问题描述】:
我想使用 spark mllib naive bayes 来处理(训练和测试)这样的数据
男,疑酒,平日,12am-4am,75,30-39
这样我就可以测试标签男/女/未知。我想创建一个 LabeledPoint,以便可以针对 mllib 朴素贝叶斯算法运行此数据。 spark网站上的例子
https://spark.apache.org/docs/1.0.0/mllib-naive-bayes.html
仅显示全为数字的数据。是否可以使用这样的字符串数据运行?我了解我的测试标签需要转换为双精度值,即男性/女性/未知 => 1.0 / 2.0 / 3.0
如果是这样,我如何使用这种类型的语法将上面的 CSV 数据转换为 LabelPoint?
val parsedData = data.map { line =>
val parts = line.split(',')
LabeledPoint(
parts(0).toDouble,
Vectors.dense(parts(1).split(' ').map(_.toDouble)))
}
【问题讨论】:
-
您能否提供更好的训练数据集样本?
标签: apache-spark apache-spark-mllib naivebayes