具有 Ubuntu Master 和 Windows slave 的 Hadoop 集群配置答案

【问题标题】：Hadoop cluster configuration with Ubuntu Master and Windows slave具有 Ubuntu Master 和 Windows slave 的 Hadoop 集群配置
【发布时间】：2014-01-23 06:39:03
【问题描述】：

您好，我是 Hadoop 新手。

Hadoop 版本 (2.2.0)

目标：

独立设置 Hadoop - Ubuntu 12 （已完成）
独立设置 Hadoop - Windows 7（cygwin 仅用于 sshd）（已完成）
使用 Ubuntu Master 和 Windows 7 slave 设置集群（这主要用于学习目的和设置开发环境）（卡住）

与以下问题相关的设置：

使用 hadoop 2.2.0 在 Ubuntu 上运行的 Master
从 hadoop 2.2.0 源代码的自编译版本在 Windows 7 上运行的从站。我仅将 cygwin 用于 sshd
无密码登录设置，我可以使用 ssh 两种方式登录从外面的hadoop。由于我的 Ubuntu 和 Windows 机器有不同的用户名我在 .ssh 文件夹中设置了一个配置文件将主机与用户映射

问题：

在集群中，主服务器中的用户名是否需要与从服务器中的用户名相同。我问这个问题的原因是当我尝试使用 start-dfs.sh 时集群的配置后日志说他们能够 ssh 进入从节点但无法找到位置“/home/xxx/ hadoop/bin/hadoop-daemon.sh”在从站。 “xxx”是我的主用户名，而不是 slaveone。另外，由于我的从属设备是纯 Windows 版本，所以安装在 C:/hadoop/... 主机是否查看环境变量 $HADOOP_HOME 以检查从属设备中的安装位置？我还需要设置其他环境变量吗？
我的目标是在 slave 上使用 Windows hadoop 构建，因为 hadoop 现在正式支持 windows。但是在 cygwin 下运行 Linux 构建来完成这一点会更好吗？问题来了，因为我看到 start-dfs.sh 正在尝试执行 hadoop-daemon.sh 而不是某些 *.cmd。
如果此设置在未来可行，我可能会遇到的一个问题是 Pig、Mahout 等是否会在这种设置中运行，因为我还没有看到用于 Windows 的 Pig、Mahout 的构建。这些组件是否需要仅存在于主节点上，或者它们也需要存在于从节点中。在尝试独立模式时，我看到了两种运行 mahout 的方法，首先使用我能够在 linux 中使用的 mahout 脚本，然后使用 yarn jar 命令，我在使用 windows 版本时传入 mahout jar。如果 Mahout/Pig（使用提供的 sh 脚本时）将假定从站已经有 jars，那么 Ubuntu + Windows 组合似乎不起作用。请指教。

正如我所提到的，这更像是一个实验，而不是一个实施计划。我们的最终环境将完全在 linux 上。谢谢你的建议。

【问题讨论】：

标签： hadoop

【解决方案1】：

使用更标准的部署 hadoop 方法可能会取得更大的成功。尝试将 ubuntu vm 用于 master 和 slave。

您还可以尝试进行伪分布式部署，其中所有进程都在单个 VM 上运行，因此甚至无需考虑多个操作系统。

【讨论】：

感谢您的建议。正如我所提到的，这更像是一个实验来检查它是否可能，因为 Hadoop 2.2.0 还没有准备好 Windows。对于我们的开发，我们正在使用 linux 集群。但这更像是一个实验，我想并行运行以供个人学习。
确定。祝你好运；）

【解决方案2】：

我只使用相同的用户名。通常 SSH 允许使用 -l 命令以不同的登录名登录。但这可能会变得棘手。你必须在 slaves 文件中列出你的 slaves。

至少在手册https://hadoop.apache.org/docs/r0.19.1/cluster_setup.html#Slaves 我没有找到任何可以添加用户名的东西。可能值得尝试将 -l login_name 添加到 slave conf 文件中的 slavenode 并查看它是否有效。

【讨论】：