可以在没有安装 Spark 的情况下训练和使用 MLLib 分类器吗？答案

【问题标题】：Can MLLib classifiers be trained and used without a Spark installation?可以在没有安装 Spark 的情况下训练和使用 MLLib 分类器吗？
【发布时间】：2017-06-05 17:44:47
【问题描述】：

我想使用 MLLib 提供的一些分类器（随机森林等），但我想在不连接到 Spark 集群的情况下使用它们。

如果我需要以某种方式在进程中运行一些 Spark 的东西，以便我可以使用 Spark 上下文，那很好。但我无法找到此类用例的任何信息或示例。

所以我的两个问题是：

有没有办法在没有 Spark 上下文的情况下使用 MLLib 分类器？
否则，我是否可以通过在进程中启动 Spark 上下文来使用它们，而无需任何类型的实际 Spark 安装？

【问题讨论】：

标签： apache-spark apache-spark-mllib

【解决方案1】：

org.apache.spark.mllib模特：

不能在没有 Spark 集群的情况下进行训练。
通常可用于无集群的预测，但分布式模型（如 ALS）除外。

org.apache.spark.ml模特：

需要 Spark 集群进行训练。
需要 Spark 集群进行预测，尽管它在未来可能会发生变化 (https://issues.apache.org/jira/browse/SPARK-10413)

有许多第三方工具旨在将 Spark ml 模型导出为可在 Spark 不可知环境中使用的形式（jpmml-spark 和 modeldb 列举了一些，没有特殊偏好）。

Spark mllib 模型也有限支持 PMML。

商业供应商通常会提供自己的工具来生产 Spark 模型。

您当然可以使用local "cluster"，但对于大多数可能的应用程序来说，它可能仍然有点繁重。启动一个完整的上下文至少需要几秒钟，并且会占用大量内存。

还有：

【讨论】：