一、集群安装流程

  • 准备工作:
    首先,有三台linux主机,主机名分别为master,slave1,slave2,各用户名均为hadoop.(尽量不要用root账户,因为root的权限太大了。)
  • 配置SSH无密码登陆(配置hadoop用户的无密码登录)
  • 安装Java环境
  • 安装hadoop集群

二、安装Hadoop集群

在master节点上:

  1. 下载hadoop压缩包

    首先,去apache hadoop官网下载,hadoop压缩包,下载的压缩包都是32位的,如果主机是64位,需要自己编译或者网上下载已经编译好的对应位数的。我下载的为:hadoop-2.6.4.tar.gz

  2. 解压

    sudo tar -zxvf hadoop-2.6.4.tar.gz -C /home/hadoop/apps/ #解压

  3. 修改配置文件

    集群分布式安装需要修改hadoop的6个配置文件,分别是:hadoop-env.sh,slaves,core-site.xml,hdfs-site.xml,mapred-site.xml,yarn-site.xml。这六个配置文件在/home/hadoop/apps/hadoop-2.6.4/etc/hadoop路径下

    (1)hadoop-env.sh
    Hadoop分布式集群安装
    (2)slaves

    文件 slaves,将作为 DataNode 的主机名写入该文件,每行一个,默认为 localhost,所以在伪分布式配置时,节点即作为 NameNode 也作为 DataNode。分布式配置可以保留 localhost,也可以删掉,让 Master 节点仅作为 NameNode 使用。(本教程让 master 节点仅作为 NameNode 使用,因此将文件中原来的 localhost 删除,添加两行内容:)
    Hadoop分布式集群安装

    (3)core-site.xml
    Hadoop分布式集群安装
    (4)hdfs-site.xml

    Hadoop分布式集群安装
    (5)mapred-site.xml

    文件 mapred-site.xml (可能需要先重命名,默认文件名为 mapred-site.xml.template),然后配置修改如下:

    Hadoop分布式集群安装

    (6)yarn-site.xml
    Hadoop分布式集群安装

4.配置hadoop环境变量

sudo vi /etc/profile #配置

Hadoop分布式集群安装

source /etc/profile #使配置的环境变量生效

5.配置好后,将master上的/home/hadoop/apps/hadoop-2.6.4文件夹复制到slave1,slave2节点上。

三、启动hadoop集群

首次启动需要先在 master 节点执行 NameNode 的格式化:

hdfs namenode -format # 首次运行需要执行初始化,之后不需要。

接着,可以启动 hadoop 了,启动需要在 master 节点上进行:

start-dfs.sh
start-yarn.sh

四、网页可视化

打开浏览器,输入网址:http://master:50070,可以看到如下图效果:
Hadoop分布式集群安装

相关文章: