【问题标题】:Connect spark on yarn-cluster in CDH 5.4在 CDH 5.4 中连接纱线集群上的火花
【发布时间】:2015-10-18 15:25:48
【问题描述】:

我试图了解连接到远程服务器的“概念”。我拥有的是使用 CDH5.4 在 CentOS 上的 4 台服务器 我想做的是在所有这四个节点上连接纱线上的火花。 我的问题是我不明白如何将 HADOOP_CONF_DIR 设置为指定的here。我应该在哪里为这个变量设置什么值?然后我需要在所有四个节点上设置这个变量还是只有主节点就足够了?

文档说“确保 HADOOP_CONF_DIR 或 YARN_CONF_DIR 指向包含 Hadoop 集群的(客户端)配置文件的目录”。 在在这里提问之前,我已经阅读了许多类似的问题。请让我知道我能做些什么来解决这个问题。我能够在所有节点上以独立模式运行 spark 和 pyspark。

感谢您的帮助。 阿什什

【问题讨论】:

    标签: hadoop apache-spark pyspark


    【解决方案1】:

    我应该在哪里为这个变量设置什么值?

    变量 HADOOP_CONF_DIR 应该指向包含 yarn-site.xml 的目录。通常您将其设置为~/.bashrc。我找到了 CDH 的文档。 http://archive.cloudera.com/cdh5/cdh/5/hadoop/hadoop-project-dist/hadoop-common/ClusterSetup.html

    基本上所有节点都需要有环境变量指向的配置文件。

    完成所有必要的配置后,将文件分发到所有机器上的 HADOOP_CONF_DIR 目录

    【讨论】:

      猜你喜欢
      • 2016-10-11
      • 2023-03-09
      • 2014-12-17
      • 2018-02-22
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2017-07-13
      • 1970-01-01
      相关资源
      最近更新 更多