流式传输 Kmeans Spark JAVA答案

【问题标题】：Streaming Kmeans Spark JAVA流式传输 Kmeans Spark JAVA
【发布时间】：2016-08-25 09:45:43
【问题描述】：

嗨，基本上我们想使用 KAFKA+SPARK 流来捕获我们论文中的 Twitter 垃圾邮件。我想使用streamingKmeans。但我有一个非常新手和严肃的问题：

model.predictOnValues(testData.map(lp => (lp.label, lp.features))).print()

为什么我需要传递带有 features 的“LABEL”？我的意思是，我错了整个想法吗？我们不是要预测“标签”吗？如果它们是垃圾邮件，我将如何预测我的推文？

【问题讨论】：

【解决方案1】：

对于预测，仅使用 lp.features，而 lp.label 被视为保留的密钥。引用自docs：

使用模型对 DStream 的值进行预测并继承其键。

我猜在你的例子中你只是想用predictOn替换predictOnValues

【讨论】：