1.集群搭建
参考:https://blog.csdn.net/qq_38038143/article/details/83050840
在已搭建的集群中,修改配置文件yarn-site.xml:
与参考文章不同的原因为:执行运算命令时命令卡住即不能进一步执行。
<configuration>
<!-- Site specific YARN configuration properties -->
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.resourcemanager.webapp.address</name>
<value>master:8099</value>
</property>
<property>
<name>yarn.resourcemanager.address</name>
<value>master:8032</value>
</property>
<property>
<name>yarn.resourcemanager.scheduler.address</name>
<value>master:8030</value>
</property>
<property>
<name>yarn.resourcemanager.resource-tracker.address</name>
<value>master:8031</value>
</property>
</configuration>
配置完成后,开启HDFS:
start-all.sh
本次实验使用了1台master,4台slave节点。
2.目录创建
执行命令:
创建HDFS的输入、输出目录:
hdfs dfs -mkdir -p /data/wordcount
hdfs dfs -mkdir -p /output
查看:
3.验证
准备例子文件,将本地文件上传到HDFS:
hdfs dfs -put etc/hadoop/core-site.xml /data/wordcount/
运算:
计算例子文件的单词数:
hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-*.jar wordcount /data/wordcount /output/wordcount
结果查看: