总目录:https://blog.csdn.net/qq_41106844/article/details/105553392
Hadoop - 子目录:https://blog.csdn.net/qq_41106844/article/details/105553369
前言
搭建前的准备:https://blog.csdn.net/qq_41106844/article/details/105553929
关于hadoop的搭建,我们先熟悉一些常用配置文件
四大核心文件
core-site.xml:集群全局参数
hdfs-site.xml:HDFS参数
mapred-site.xml:MapReduce参数
yarn-site.xml:集群资源管理系统参数 (2.X以上特有)
其他配置文件
hadoop-env.sh:hadoop运行环境
slaves:slave节点列表
伪分布式搭建
下载hadoop源码后,使用xftp传输到master内。
源码链接博文:https://www.jianshu.com/p/ef765c933808
解压
tar -zxvf hadoop-2.7.5.tar.gz
重命名
mv hadoop-2.7.5 hadoop-wfb
伪分布的配置只在master上。
配置环境变量
vi ~/.base_profile
刷新环境变量
source ~/.base_profile
验证是否配置好
hadoop
第一个文件:hadoop-env..sh
第二个文件:core-site,xm
<configuration>
<property>
<name>hadoop.tmp.dir</name>
<value>/usr/hdk/hadoopdata/tmp</value>
<description>临时数据存放文件夹</description>
</property>
<property>
<name>fs.default.name</name>
<value>hdfs://192.168.110.220:9000</value>
<description>NN的ip和端口号</description>
</property>
</configuration>
第三个文件:hdfs-site.xml
<configuration>
<property>
<name>dfs.name.dir</name>
<value>/usr/hdk/hadoopdata/dfs/name</value>
<description>定义HDFS的名称节点在本地文件系统的位置</description>
</property>
<property>
<name>dfs.data.dir</name>
<value>/usr/hdk/hadoopdata/dfs/data</value>
<description>定义HDFS数据节点存储数据块时存储在本地文件系统的位置</description>
</property>
<property>
<name>dfs.replication</name>
<value>1</value>
<description>Block块副本最大数量</description>
</property>
</configuration>
第四个文件mapred-site.xml
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
<description>指定MapReduce运行在yarn上</description>
</property>
</configuration>
伪分布模式可以不配置yarn-site.xml。
管理集群
首先格式化hdfs
hadoop namenode -format
启动集群
cd sbin
start-dfs.sh
查看正在运行的java进程
jps
关闭集群
stop-dfs.sh
ps:这条命令在集群搭建成功后执行一次即可,效力等同于 rm -rf /* 会清空hdfs上所有文件。
我们可以看到,这里有三个进程,分别对应hdfs三角色。