【问题标题】:Streaming Kmeans Spark JAVA流式传输 Kmeans Spark JAVA
【发布时间】:2016-08-25 09:45:43
【问题描述】:

嗨,基本上我们想使用 KAFKA+SPARK 流来捕获我们论文中的 Twitter 垃圾邮件。我想使用streamingKmeans。但我有一个非常新手和严肃的问题:

在这个 spark StreamingKmeans scala 示例 (https://github.com/apache/spark/blob/master/examples/src/main/scala/org/apache/spark/examples/mllib/StreamingKMeansExample.scala) 中有一行代码用于预测:

model.predictOnValues(testData.map(lp => (lp.label, lp.features))).print()

为什么我需要传递带有 features 的“LABEL”?我的意思是,我错了整个想法吗?我们不是要预测“标签”吗?如果它们是垃圾邮件,我将如何预测我的推文?

【问题讨论】:

    标签: java scala spark-streaming k-means apache-spark-mllib


    【解决方案1】:

    对于预测,仅使用 lp.features,而 lp.label 被视为保留的密钥。引用自docs

    使用模型对 DStream 的值进行预测并继承其键。

    我猜在你的例子中你只是想用predictOn替换predictOnValues

    【讨论】:

    • 谢谢先生。我一定会试试这个。顺便说一句,你知道我可以加入任何 gitter 或 slack 房间来问我的问题吗?
    • 感谢您接受答复。我不会有这样的房间,但我认为 SO 总是非常愿意回答恰当的问题
    猜你喜欢
    • 2016-11-25
    • 1970-01-01
    • 2018-05-27
    • 2020-07-17
    • 1970-01-01
    • 2016-09-21
    • 1970-01-01
    • 1970-01-01
    • 2015-12-12
    相关资源
    最近更新 更多