【发布时间】:2015-11-08 05:12:44
【问题描述】:
我正在尝试在 PySpark 1.3 中为我的数据运行朴素贝叶斯分类器
这是我的数据样本:
使用文本文件,我将其转换为 LabeledPoint 对象
67,[0,1,2,3,4,5,6,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22, 23,24,25,26,27,28,29,30,31,32,3.....60,66],[0.45,0.441666666667,0.475,0.0,0.717763157895,0.0,0.497300944669,0.476608187135,0.0, 0.0.0.451866666666666666666666666666666666667,0.0.0.0.76666666666666666666666666,0.0.0.0.76666666666666666666666666666666666666666666666666666666666666666666666666666666666666666666666666666666666666666666666666666666666666666666666666666666666666666666668666666666666666666666666684>>>>>>>>>>>>是否
data = MLUtils.loadLibSVMFile(sc, 'path to file')
training, test = data.randomSplit([0.7, 0.3], seed=0)
model = NaiveBayes.train(training, 1.0)
predictionAndLabel = test.map(lambda p: (model.predict(p.features), p.label))
accuracy = (
1.0 * predictionAndLabel.filter(lambda (x, v): x == v).count() / test.count()
)
PySpark 似乎永远挂在计算变量模型上。以前有没有其他人遇到过这个问题?谢谢。
【问题讨论】:
标签: apache-spark pyspark apache-spark-mllib naivebayes