【3】Hadoop运行模式

Hadoop运行模式包括：本地模式、伪分布式模式以及完全分布式模式。

一、本地运行模式

(1). 官方Grep案例

在 hadoop-2.7.2文件下面创建一个 input文件夹
将 Hadoop的 xml配置文件复制到 input
执行 share目录下的 MapReduce程序
查看输出结果

(2). 官方WordCount案例

在 hadoop-2.7.2文件下面创建一个 wcinput文件夹
在 wcinput文件下创建一个 wc.input文件
编辑 wc.input文件
回到 Hadoop目录 /opt/module/hadoop-2.7.2
执行程序
查看结果

二、伪分布式运行模式

1.启动 HDFS并运行 MapReduce程序

2.启动 YARN并运行 MapReduce程序

3.配置历史服务器

4.配置日志的聚集

5.配置文件说明

三、完全分布式运行模式

1.虚拟机准备

2.编写集群分发脚本 xsync

2.1 scp(secure copy) 安全拷贝

2.2 rsync 远程同步工具

2.3 xsync集群分发脚本

3.集群配置

3.1 集群部署规划

3.2 配置集群

3.2 在集群上分发配置好的 Hadoop配置文件

3.2 查看文件分发情况

4. 集群单点启动

5. SSH无密登录配置

5.1 配置 ssh

5.2 无**配置

5.3 ssh 文件夹下（~/.ssh）的文件功能解释

6. 群起集群

6.1 配置slaves

6.2 启动集群

如果集群是第一次启动，需要格式化 NameNode
启动 HDFS
启动 YARN
在Web端查看 SecondaryNameNode

6.3 集群基本测试

List item
上传文件到集群
上传文件后查看文件存放在什么位置
拼接
下载

7. 集群启动/停止方式总结

各个服务组件逐一启动/停止
（1）分别启动/停止HDFS 组件
（2）启动/停止YARN
各个模块分开启动/停止（配置ssh 是前提）常用
（1）整体启动/停止HDFS
（2）整体启动/停止YARN

8. 集群时间同步

时间同步的方式：找一个机器，作为时间服务器，所有的机器与这台集群时间进行定时的同步，比如，每隔十分钟，同步一次时间。

相关文章：

猜你喜欢

相关资源

相似解决方案

热门标签

Java Python linux javascript Mysql C# Docker 算法前端 SpringBoot Redis Vue spring 设计模式 .net core .net kubernetes c++ 数据库数据结构大数据 js 机器学习微服务 Android Go 程序员面试 JVM ASP.net core 云原生人工智能后端 PHP git CSS golang k8s Nginx Django mybatis 深度学习多线程 React 架构 devops 爬虫云计算 Spring Boot LeetCode