【问题标题】:R installation on Hadoop ClusterHadoop集群上的R安装
【发布时间】:2015-10-20 01:13:50
【问题描述】:

我正在现有的 Hadoop 集群上设置 R。到目前为止,我已经在集群的一个节点(EDGE 节点)部分上安装了 R rpms 和相关的库包,它按预期工作。 R rpms 是安装在集群的所有服务器上还是仅安装在库目录上 (在我的情况下是 /usr/lib64/R/library)在所有服务器上同步?

【问题讨论】:

  • 目标是通过 R shell 执行 hadoop MR 作业(rmr、rhive、rhdfs 应该可以访问)。用户将仅登录 EDGE 节点。

标签: r rhadoop


【解决方案1】:

对于 rmr,您需要在任何地方安装,对于 rhdfs,您不需要,对于 rhive,我不知道。安装意味着 R rpms 或等效且必要的依赖项。至于同步 lib​​ 目录,我尝试过类似的方法来简化 rmr2 的部署,但我们(客户和我同意)取消了插件,因为这似乎是一个非常脆弱的策略(取决于所有库完全相同) .它在一个非常受控的环境中工作,但我们同步了整个东西,而不仅仅是图书馆。

【讨论】:

  • 谢谢 Piccolbo。根据您的陈述“但我们同步了整个东西,而不仅仅是库。” - 你的意思是..所有 R 核心 rpm 都安装在所有节点上,并且库在所有节点上同步为嗯..是这样吗?
  • 不确定您所说的“核心”是什么意思。我们刚刚发布了 R_HOME 下的整个子树。您仍然可以在 rmr2 的 0-install 分支中找到该原型(现已过时)。
  • 我刚刚看到一篇解释如何创建可移植二进制文件的文章:pmelsted.wordpress.com/2015/10/14/… 您可能还想考虑这个fumodibit.blogspot.com/2013/04/… 以获得 R_HOME 灵活性,这可能是在集群上部署所必需的
猜你喜欢
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2015-10-09
  • 1970-01-01
  • 1970-01-01
  • 2016-03-09
相关资源
最近更新 更多