【问题标题】:Can MLLib classifiers be trained and used without a Spark installation?可以在没有安装 Spark 的情况下训练和使用 MLLib 分类器吗?
【发布时间】:2017-06-05 17:44:47
【问题描述】:

我想使用 MLLib 提供的一些分类器(随机森林等),但我想在不连接到 Spark 集群的情况下使用它们。

如果我需要以某种方式在进程中运行一些 Spark 的东西,以便我可以使用 Spark 上下文,那很好。但我无法找到此类用例的任何信息或示例。

所以我的两个问题是:

  • 有没有办法在没有 Spark 上下文的情况下使用 MLLib 分类器?
  • 否则,我是否可以通过在进程中启动 Spark 上下文来使用它们,而无需任何类型的实际 Spark 安装?

【问题讨论】:

    标签: apache-spark apache-spark-mllib


    【解决方案1】:

    org.apache.spark.mllib模特:

    • 不能在没有 Spark 集群的情况下进行训练。
    • 通常可用于无集群的预测,但分布式模型(如 ALS)除外。

    org.apache.spark.ml模特:

    有许多第三方工具旨在将 Spark ml 模型导出为可在 Spark 不可知环境中使用的形式(jpmml-sparkmodeldb 列举了一些,没有特殊偏好)。

    Spark mllib 模型也有限支持 PMML。

    商业供应商通常会提供自己的工具来生产 Spark 模型。

    您当然可以使用local "cluster",但对于大多数可能的应用程序来说,它可能仍然有点繁重。启动一个完整的上下文至少需要几秒钟,并且会占用大量内存。

    还有:

    【讨论】:

      猜你喜欢
      • 2013-02-08
      • 1970-01-01
      • 2016-07-26
      • 1970-01-01
      • 2015-11-06
      • 1970-01-01
      • 2015-08-24
      • 1970-01-01
      • 2016-05-21
      相关资源
      最近更新 更多