【发布时间】:2016-05-09 11:11:36
【问题描述】:
我可以在 Spark 批处理中创建一个模型并将其用于 Spark 流式处理以进行实时处理吗?
我在 Apache Spark 网站上看到了各种示例,其中训练和预测都建立在相同类型的处理(线性回归)之上。
【问题讨论】:
-
据我了解,Spark 流式传输并不是真正的流式传输。它将流分成批次,这将使您训练的批次模型能够很好地工作。如果你想对实时数据进行真正的流处理,你可以看看 Kafka、Flink 或 Storm。
-
@erip 我不确定 OP 在亚秒级流媒体中的意思是“实时”。
-
@YuvalItzchakov 它还有什么其他含义?实时批量训练数据?
-
@erip 你永远不知道他们说“实时”是什么意思。可能 2-3 秒的处理时间对他们来说就足够了。
标签: apache-spark machine-learning spark-streaming