Hadoop Single Node Cluster安装

Hadoop Single Node Cluster是只以一台机器，建立hadoop环境，您仍然可以使用hadoop命令，只是无法发挥使用多台机器的威力。因为只有一台服务器，所以所有功能都在一台服务器中，安装步骤如下:

安装JDK
设定 SSH 无密码登入
下载安装Hadoop
设定Hadoop环境变数
Hadoop组态档设定
建立与格式化HDFS目录
启动Hadoop
开启Hadoop Web接口

（1）安装JDK

java -version # 查看java版本
sudo apt-get update  # 出 Sub-process returned an error code错误请看Tips2 
sudo apt-get install default-jdk #安装jdk
java -version # 证明安装成功 
update-alternatives --display java # 查询安装路径  #/usr/lib/jvm/java-8-openjdk-amd64/jre/bin/java

（2）设定 SSH 无密码登入

Hadoop是由很多台服务器所组成的，当我们启动Hadoop系统时，NameNode必须和DataNode连接并管理这些节点。此时系统会要求用户输入密码。为了让系统顺利运行不用手动输入密码，我们可以将SSH设置无密码登陆。（以事先交换的SSH Key来进行身份验证而已）

sudo apt-get install ssh # 安装SSH
sudo apt-get install rsync # 安装rsync
ssh-****** -t dsa -P '' -f ~/.ssh/id_dsa # 使用ssh-keyge产生**，**存在主目录下的.ssh文件夹里面，可以用ctrl+h看到
ll ~/.ssh
cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys # 将产生的key放到许可文件里

**（3）下载安装Hadoop **

# Hadoop官网 https://hadoop.apache.org/releases.html
# 注意Hadoop和Spark的版本匹配
wget http://mirror.bit.edu.cn/apache/hadoop/common/hadoop-2.8.5/hadoop-2.8.5.tar.gz
sudo tar -zxvf hadoop-2.8.5.tar.gz
sudo mv hadoop-2.8.5 /usr/local/hadoop
ll /usr/local/hadoop

PS：常用的目录说明如表：

目录	说明
bin/	各项运行文件，包括Hadoop、HDFS、YARN等
sbin/	各项shell运行文件
etc/	各种配置文件
lib/	函数库
logs/	系统日志，可以查看系统运行情况，运行有问题的时候可以从日志里面找出错误

（4）设定Hadoop环境变数

# 修改~/.bashrc
sudo gedit ~/.bashrc

# 输入下列内容
export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64
export HADOOP_HOME=/usr/local/hadoop
export PATH=$PATH:$HADOOP_HOME/bin
export PATH=$PATH:$HADOOP_HOME/sbin
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export YARN_HOME=$HADOOP_HOME
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export YARN_HOME=$HADOOP_HOME
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib"
export JAVA_LIBRARY_PATH=$HADOOP_HOME/lib/native:$JAVA_LIBRARY_PATH

# 让~/.bashrc修改生效
source ~/.bashrc

（5）修改Hadoop组态设定档

# Step1 修改hadoop-env.sh
sudo gedit /usr/local/hadoop/etc/hadoop/hadoop-env.sh
# 输入下列内容:
export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64

#Step2 修改core-site.xml
sudo gedit /usr/local/hadoop/etc/hadoop/core-site.xml

# 在 <configuration></configuration>之间，输入下列内容:
# 设置HDFS的默认名称，我们使用命令或者程序要存取HDFS时可以使用这个名称
<configuration>
<property>
   <name>fs.default.name</name>
   <value>hdfs://localhost:9000</value>
</property>
</configuration>


# Step3 修改yarn-site.xml
sudo gedit /usr/local/hadoop/etc/hadoop/yarn-site.xml

# 在<configuration></configuration>之间，输入下列内容:
<configuration>
<!-- Site specific YARN configuration properties -->
<property>
   <name>yarn.nodemanager.aux-services</name>
   <value>mapreduce_shuffle</value>
</property>
<property>
   <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
   <value>org.apache.hadoop.mapred.ShuffleHandler</value>
</property>
</configuration>

# Step4 修改mapred-site.xml
sudo cp /usr/local/hadoop/etc/hadoop/mapred-site.xml.template /usr/local/hadoop/etc/hadoop/mapred-site.xml
sudo gedit /usr/local/hadoop/etc/hadoop/mapred-site.xml

# 在<configuration></configuration>之间，输入下列内容:
# 设置Mapreduce框架为yarn
<property>
   <name>mapreduce.framework.name</name>
   <value>yarn</value>
</property>

# Step5 修改hdfs-site.xml
sudo gedit /usr/local/hadoop/etc/hadoop/hdfs-site.xml

# 在<configuration></configuration>之间，输入下列内容:
# 设置blocks副本备份数量 默认值是3，blocks副本备份数量是每个文件在其他node的备份数量
<property>
   <name>dfs.replication</name>
   <value>3</value>
</property>
# 设置Namenode的存储目录
<property>
   <name>dfs.namenode.name.dir</name>
   <value>file:/usr/local/hadoop/hadoop_data/hdfs/namenode</value>
</property>
# 设置Datanode的存储目录
<property>
   <name>dfs.datanode.data.dir</name>
   <value>file:/usr/local/hadoop/hadoop_data/hdfs/datanode</value>
</property>

（6）建立与格式化HDFS 目录

sudo mkdir -p /usr/local/hadoop/hadoop_data/hdfs/namenode
sudo mkdir -p /usr/local/hadoop/hadoop_data/hdfs/datanode
sudo chown hadooptest:hadooptest -R /usr/local/hadoop
# 格式化Namenode
hadoop namenode -format

（7）启动Hadoop

# 启动start-dfs.sh，再启动 start-yarn.sh
# 第一次执行会询问是否联机，选择yes
start-dfs.sh
start-yarn.sh
#启动全部
start-all.sh
# 查看目前所执行的行程
jps

Hadoop Single Node Cluster安装
（8）开启Hadoop ResourceManager Web接口

# Hadoop Resource Manager Web接口网址
http://localhost:8088/

Hadoop Single Node Cluster安装
9.NameNode HDFS Web接口

# 开启HDFS Web UI网址
http://localhost:50070/

Hadoop Single Node Cluster安装

** Tips1：** 设置ubutu系统的分辨率，因为在vm里面安装完ubuntu后屏幕特别的小，所以需要调整分辨率

xrandr -s 1280x960

**Tips2：**ubuntu16.04在使用 sudo apt-get update 出现错误Sub-process returned an error code

错误内容：

Problem executing scripts APT::Update::Post-Invoke-Success ‘if /usr/bin/test -w /var/cache/app-info -a -e /usr/bin/appstreamcli; then appstreamcli refresh > /dev/null; fi’
E: Sub-process returned an error code

解决措施：

sudo pkill -KILL appstreamcli
wget -P /tmp https://launchpad.net/ubuntu/+archive/primary/+files/appstream_0.9.4-1ubuntu1_amd64.deb https://launchpad.net/ubuntu/+archive/primary/+files/libappstream3_0.9.4-1ubuntu1_amd64.de
sudo dpkg -i /tmp/appstream_0.9.4-1ubuntu1_amd64.deb /tmp/libappstream3_0.9.4-1ubuntu1_amd64.deb

**Tips3：**解决hadoop启动时的dfs.namenode.servicerpc-address or dfs.namenode.rpc-address is not configured.错误

错误内容：
Hadoop Single Node Cluster安装
解决措施：

在etc/hadoop/core-site.xml中增加如下配置：

<property>
   <name>fs.default.name</name>
   <value>hdfs://localhost:9000</value>
</property>