【发布时间】:2016-08-25 09:45:43
【问题描述】:
嗨,基本上我们想使用 KAFKA+SPARK 流来捕获我们论文中的 Twitter 垃圾邮件。我想使用streamingKmeans。但我有一个非常新手和严肃的问题:
在这个 spark StreamingKmeans scala 示例 (https://github.com/apache/spark/blob/master/examples/src/main/scala/org/apache/spark/examples/mllib/StreamingKMeansExample.scala) 中有一行代码用于预测:
model.predictOnValues(testData.map(lp => (lp.label, lp.features))).print()
为什么我需要传递带有 features 的“LABEL”?我的意思是,我错了整个想法吗?我们不是要预测“标签”吗?如果它们是垃圾邮件,我将如何预测我的推文?
【问题讨论】:
标签: java scala spark-streaming k-means apache-spark-mllib