【发布时间】:2014-01-23 06:39:03
【问题描述】:
您好,我是 Hadoop 新手。
Hadoop 版本 (2.2.0)
目标:
- 独立设置 Hadoop - Ubuntu 12 (已完成)
- 独立设置 Hadoop - Windows 7(cygwin 仅用于 sshd)(已完成)
- 使用 Ubuntu Master 和 Windows 7 slave 设置集群(这主要用于学习目的和设置开发环境)(卡住)
与以下问题相关的设置:
- 使用 hadoop 2.2.0 在 Ubuntu 上运行的 Master
- 从 hadoop 2.2.0 源代码的自编译版本在 Windows 7 上运行的从站。我仅将 cygwin 用于 sshd
- 无密码登录设置,我可以使用 ssh 两种方式登录 从外面的hadoop。由于我的 Ubuntu 和 Windows 机器有 不同的用户名我在 .ssh 文件夹中设置了一个配置文件 将主机与用户映射
问题:
在集群中,主服务器中的用户名是否需要与从服务器中的用户名相同。我问这个问题的原因是当我尝试使用 start-dfs.sh 时集群的配置后日志说他们能够 ssh 进入从节点但无法找到位置“/home/xxx/ hadoop/bin/hadoop-daemon.sh”在从站。 “xxx”是我的主用户名,而不是 slaveone。另外,由于我的从属设备是纯 Windows 版本,所以安装在 C:/hadoop/... 主机是否查看环境变量 $HADOOP_HOME 以检查从属设备中的安装位置?我还需要设置其他环境变量吗?
我的目标是在 slave 上使用 Windows hadoop 构建,因为 hadoop 现在正式支持 windows。但是在 cygwin 下运行 Linux 构建来完成这一点会更好吗?问题来了,因为我看到 start-dfs.sh 正在尝试执行 hadoop-daemon.sh 而不是某些 *.cmd。
如果此设置在未来可行,我可能会遇到的一个问题是 Pig、Mahout 等是否会在这种设置中运行,因为我还没有看到用于 Windows 的 Pig、Mahout 的构建。这些组件是否需要仅存在于主节点上,或者它们也需要存在于从节点中。在尝试独立模式时,我看到了两种运行 mahout 的方法,首先使用我能够在 linux 中使用的 mahout 脚本,然后使用 yarn jar 命令,我在使用 windows 版本时传入 mahout jar。如果 Mahout/Pig(使用提供的 sh 脚本时)将假定从站已经有 jars,那么 Ubuntu + Windows 组合似乎不起作用。请指教。
正如我所提到的,这更像是一个实验,而不是一个实施计划。我们的最终环境将完全在 linux 上。谢谢你的建议。
【问题讨论】:
标签: hadoop