准备3台客户机
(已克隆好并修改好网络配置且配置好jdk与hadoop环境)
详见
【Hadoop】环境配置
【Linux】虚拟机克隆及网络配置
免密登陆配置
(1)生成公钥和私钥:
然后敲(三个回车),就会生成两个文件id_rsa(私钥)、id_rsa.pub(公钥)
(2)将公钥拷贝到要免密登录的目标机器上
测试:
对三台客户机进行同样的配置
编写集群分发脚本xsync
(1)在/usr/local/bin目录下创建xsync文件,文件内容如下
(2)修改脚本 xsync 具有执行权限
(3)调用脚本形式:xsync 文件名称
配置集群
配置规划:
(1)核心配置文件
配置core-site.xml
(2)HDFS配置文件
配置hadoop-env.sh
配置hdfs-site.xml
(3)YARN配置文件
配置yarn-env.sh
配置yarn-site.xml
(4)MapReduce配置文件
配置mapred-env.sh
配置mapred-site.xml(先改名)
群起集群
(1)配置slaves
== 注意:该文件中添加的内容结尾不允许有空格,文件中不允许有空行==同步所有节点配置文件
(2)启动集群
如果集群是第一次启动,需要格式化NameNode(注意格式化之前,一定要先停止上次启动的所有namenode和datanode进程,然后再删除data和log数据)
启动HDFS
启动YARN(hadoop132)
**注意:NameNode和ResourceManger如果不是同一台机器,不能在NameNode上启动 YARN,应该在ResouceManager所在的机器上启动YARN。
**
web端查看
http://192.168.202.133:50090/status.html
集群启动/停止方式总结
.各个模块分开启动/停止(配置ssh)常用
(1)整体启动/停止HDFS
sbin/start-dfs.sh / sbin/stop-dfs.sh
(2)整体启动/停止YARN
sbin/start-yarn.sh / sbin/stop-yarn.sh
测试:
上传文件
运行
查看:
集群时间同步
时间同步的方式:找一个机器,作为时间服务器,所有的机器与这台集群时间进行定时的同步,比如,每隔十分钟,同步一次时间
- 时间服务器配置(必须root用户)
(1)检查ntp是否安装
(2)修改ntp配置文件
a)修改1(授权192.168.202.0-192.168.202.255网段上的所有机器可以从这台机器上查询和同步时间)
b)修改2(集群在局域网中,不使用其他互联网上的时间)
注释掉
c)添加3(当该节点丢失网络连接,依然可以采用本地时间作为时间服务器为集群中的其他节点提供时间同步)
(3)修改/etc/sysconfig/ntpd 文件
(4)重新启动ntpd服务
(5)设置ntpd服务开机启动(自己学习可以不设置,影响机器性能) - 其他机器配置(必须root用户)
在其他机器配置10分钟与时间服务器同步一次