【问题标题】:Run a R Model using SparkR使用 SparkR 运行 R 模型
【发布时间】:2018-04-27 03:02:46
【问题描述】:

提前感谢您的意见。我是 ML 的新手。 我开发了一个 R 模型(在我的本地使用 R Studio)并希望在安装了 R Studio 的 hadoop 集群上进行部署。我想使用 SparkR 来利用高性能计算。 我只是想了解一下 SparkR 在这里的作用。

SparkR 能否让 R 模型在 Hadoop 集群上的 Spark ML 中运行算法?

SparkR 是否会仅启用数据处理,而 ML 算法仍将在 Hadoop 集群上的 R 上下文中运行?

感谢您的意见。

【问题讨论】:

  • 如果答案确实解决了您的问题,请接受 - 谢谢

标签: r apache-spark-mllib sparkr


【解决方案1】:

这些都是一般性问题,但实际上它们有一个非常简单直接的答案:(对两者都适用); SparkR 两者都不会。

来自SparkR docs 的概述部分:

SparkR 是一个 R 包,它提供了一个轻量级前端来使用来自 R 的 Apache Spark。

SparkR 甚至无法读取原生 R 模型。

将 SparkR 用于 ML 任务背后的想法是,您专门在 SparkR 中开发您的模型(如果您尝试,您还会发现与 R 中可用的过多模型相比,它更多 limited 通过各种包)。

即使是 caret 包中的 confusionMatrix 之类的便利功能也不可用,因为它们在 R 数据帧而不是 Spark 数据帧上运行(请参阅 this question & answer)。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2017-05-17
    • 2015-05-14
    • 2015-11-22
    • 1970-01-01
    • 2018-04-22
    • 1970-01-01
    相关资源
    最近更新 更多