Hadoop运行模式包括:本地模式、伪分布式模式以及完全分布式模式。
一、本地运行模式
(1). 官方Grep案例
- 在 hadoop-2.7.2文件下面创建一个 input文件夹
- 将 Hadoop的 xml配置文件复制到 input
- 执行 share目录下的 MapReduce程序
- 查看输出结果
(2). 官方WordCount案例
- 在 hadoop-2.7.2文件下面创建一个 wcinput文件夹
- 在 wcinput文件下创建一个 wc.input文件
- 编辑 wc.input文件
- 回到 Hadoop目录 /opt/module/hadoop-2.7.2
- 执行程序
- 查看结果
二、伪分布式运行模式
1.启动 HDFS并运行 MapReduce程序
2.启动 YARN并运行 MapReduce程序
3.配置历史服务器
4.配置日志的聚集
5.配置文件说明
三、完全分布式运行模式
1.虚拟机准备
2.编写集群分发脚本 xsync
2.1 scp(secure copy) 安全拷贝
2.2 rsync 远程同步工具
2.3 xsync集群分发 脚本
3.集群配置
3.1 集群部署规划
3.2 配置集群
3.2 在集群上分发配置好的 Hadoop配置文件
3.2 查看文件分发情况
4. 集群单点启动
5. SSH无密登录配置
5.1 配置 ssh
5.2 无**配置
5.3 ssh 文件夹下(~/.ssh)的文件功能解释
6. 群起集群
6.1 配置slaves
6.2 启动集群
- 如果集群是第一次启动,需要格式化 NameNode
- 启动 HDFS
- 启动 YARN
- 在Web端查看 SecondaryNameNode
6.3 集群基本测试
- List item
- 上传文件到集群
- 上传文件后查看文件存放在什么位置
- 拼接
- 下载
7. 集群启动/停止方式总结
-
各个服务组件逐一启动/停止
(1)分别启动/停止HDFS 组件
(2)启动/停止YARN -
各个模块分开启动/停止(配置ssh 是前提)常用
(1)整体启动/停止HDFS
(2)整体启动/停止YARN
8. 集群时间同步
时间同步的方式:找一个机器,作为时间服务器,所有的机器与这台集群时间进行定时的同步,比如,每隔十分钟,同步一次时间。