.Hadoop简介

Hadoop是一个开源的可运行于大规模集群上的分布式并行编程框架,其最核心的设计包括:MapReduce 和 HDFS。基于 Hadoop,你可以轻松地编写可处理海量数据的分布式并行程序,并将其运行于由成百上千个结点组成的大规模计算机集群上。

HDFS:Hadoop Distributed File System 的缩写,Hadoop中的分布式文件系统,它是一个高度容错性的系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,适合那些有着超大数据集(large data set)的应用程序。

MapResuce:MapReduce是一套从海量·源数据提取分析元素最后返回结果集的编程模型,将文件分布式存储到硬盘是第一步,而从海量数据中提取分析我们需要的内容就是MapReduce做的事了

进入hadoop官网进行下载,下载地址:https://hadoop.apache.org/releases.html

安装并配置hadoop

 

这里我下载的是2.7.3版本的Hadoop,你也可以选择下载别的版本,用xftp(没有这个可以从网上自己下载一个)把下载好的传到你自己定义的目录中,这里我放在了自己创建的installpkgs目录下,如下图所示:

安装并配置hadoop

完成之后,输入tar -xzvf hadoop-2.7.3.tar.gz 命令进行解压,之后在其他虚拟机上做同样的操作,这里我其他两个虚拟机的名字分别是:hadoop-slave1,hadoop-slave2.解压完成后就是在当前目录下如图:

安装并配置hadoop

配置hadoop环境变量,我的安装目录/home/hadoop/installpkgs/hadoop-2.7.3

输入命令 vi ~/.bashrc 添加如下代码:

export HADOOP_HOME=/home/hadoop/installpkgs/hadoop-2.7.3

export HADOOP_INSTALL=$HADOOP_HOME

export HADOOP_MAPRED_HOME=$HADOOP_HOME

export HADOOP_COMMON_HOME=$HADOOP_HOME

export HADOOP_HDFS_HOME=$HADOOP_HOME

export YARN_HOME=$HADOOP_HOME

export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native

export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin

安装并配置hadoop

保存退出,输入命令 source ~/.bashrc 加载该文件,输入hadoop version 进行验证如下图所示则表示成功:

安装并配置hadoop

每个虚拟机做同样的工作,也可以把写好的一个传送两外连个虚拟机上,命令如下:

scp ~/.bashrc  [email protected]:~/.bashrc

scp ~/.bashrc  [email protected]:~/.bashrc

安装并配置hadoop

在另外两个虚拟机用cat ~/.bashrc命令进行查看, 输入命令source .bashrc 加载该文件,之后用hadoop version 进行验证,这里我只展示一个例子如下图:

安装并配置hadoop

这样我们hadoop的环境变量就配置完成了,之后我们要开始操作hadoop了,在操作之前,我们需要关闭防火墙及selinxu守护进程,如果不关闭,在启动hadoop的时候可能报错或无法启动,每个虚拟机上都要做如下操作:

 systemctl status firewalld   # 查看防火墙状态

 systemctl stop firewalld     # 关闭防火墙

systemctl disable firewalld  #禁止开机时启动

如下图所示:

安装并配置hadoop

 

关闭selinux守护线程:使用root用户

su root          # 切换到rot用户

getenforce       # 查看selinux守护线程的状态

setenforce 0     # 关闭selinux守护线程

exit             # 回到原来的终端

如下图所示:

安装并配置hadoop

这样我们的hadoop安装和配置就完成了,

 

 

相关文章: