1.3.3完全分布式搭建

总目录：https://blog.csdn.net/qq_41106844/article/details/105553392

Hadoop - 子目录：https://blog.csdn.net/qq_41106844/article/details/105553369

完全分布

搭建前的准备：https://blog.csdn.net/qq_41106844/article/details/105553929

cp -R hadoop-2.7.5 hadoop-fb

修改环境变量

第一个文件：hadoop-env..sh

首先打开该文件

将jdk环境变量修改为绝对路径

第二个文件：core-site,xml

打开文件

常用配置

<configuration>

<property>

<name>hadoop.tmp.dir</name>

<value>/usr/hdk/hadoopdata/tmp</value>

<description>临时数据存放文件夹</description>

  </property>

   <property>

  <name>fs.default.name</name>

  <value>hdfs://192.168.110.220:9000</value>

  <description>NN的ip和端口号</description>

   </property>

</configuration>

第三个文件：hdfs-site.xml

打开文件

常用配置

<configuration>

<property>

<name>dfs.name.secondary.http-address</name>

<value>192.168.110.220:50090</value>

<description>定义HDFS的名称节点在本地文件系统的位置</description>

<property>

<name>dfs.name.dir</name>

<value>/usr/hdk/hadoopdata/dfs/name</value>

<description>定义HDFS的名称节点在本地文件系统的位置</description>

</property>

<property>

<name>dfs.data.dir</name>

<value>/usr/hdk/hadoopdata/dfs/data</value>

<description>定义HDFS数据节点存储数据块时存储在本地文件系统的位置</description>

</property>

<property>

<name>dfs.replication</name>

<value>1</value>

<description>Block块副本最大数量</description>

</property>

</configuration>

第四个文件mapred-site.xml

首先拷贝

接着打开文件

常用配置

<configuration>

<property>

<name>mapreduce.framework.name</name>

<value>yarn</value>

<description>指定MapReduce运行在yarn上</description>

</property>

</configuration>

第五个文件：yarn-site.xml

常用配置

<configuration>

<property>

<name>yarn.resourcemanager.hostname</name>

<value> 192.168.110.220 </value>

<description>ResourceManager的地址<description>

</property>

<property>

<name>yarn.nodemanager.aux-services</name>

<value>mapreduce_shuffle</value>

<description>NodeManager运行MR任务的方式<description>

</property>

</configuration>

ps：

8030端口：RM提供给ApplicationMaster的访问地址。ApplicationMaster同通过该地址向RM申请资源、释放资源等

8031端口：RM提供NodeManager的地址。NodeManager通过该地址向RM汇报心跳，领取任务等

8032端口：RM 提供客户端访问的地址。客户端通过该地址向RM提交应用程序，杀死应用程序等

8033端口：RM提供管理员的访问地址。管理员通过该地址向RM发送管理命令等

8088端口：RM对web服务提供地址。用户可通过该地址在浏览器中查看集群各类信息

第六个文件：slaves

之后将配置的信息传递到其他两个节点：

先将我们配置的源码打包

sudo tar -zcvf hdk.tar.gz hdk

然后将压缩包和环境配置传递出去

scp * [email protected]?:~/

然后解压

sudo tar -zxvf hdk.tar.gz -C /usr

只有刷新slave1和slave2中的环境变量，尝试hadoop

souce .bash_profile

hadoop

压缩源码

传递

刷新环境变量

格式化NN

启动集群

master的jps进程

slave1的jps进程（同slave2）

访问hdfs

访问yarn

自此，完全分布式配置完成。