伪分布式运行Mapreduce程序

伪分布式执行wordcount.java：

第一步：先把wordcount.java文件复制到ubuntu里面

伪分布式运行Mapreduce程序

第二步：我们将 Hadoop 的 classhpath 信息添加到 CLASSPATH 变量中，在 ~/.bashrc 中增加如下几行：

伪分布式运行Mapreduce程序

然后执行source ~/.bashrc 使变量生效

第三步：使用javac命令编译.java文件

伪分布式运行Mapreduce程序

就会生成相应的.class文件

伪分布式运行Mapreduce程序

第四步：接着把 .class 文件打包成 jar，才能在 Hadoop 中运行

伪分布式运行Mapreduce程序

就会生成jar包

伪分布式运行Mapreduce程序

第五步：创建几个输入文件

伪分布式运行Mapreduce程序

第六步：启动所有进程

伪分布式运行Mapreduce程序

第七步：把本地文件上传到伪分布式HDFS上

/usr/local/hadoop/bin/hadoop fs -put ./input002 input002

伪分布式运行Mapreduce程序

第八步：HDFS上查看文件input002

伪分布式运行Mapreduce程序

第九步：

运行hadoop jar WordCount.jar org/apache/hadoop/examples/WordCount input002 output002

伪分布式运行Mapreduce程序

看到输出信息

伪分布式运行Mapreduce程序

等待完成就行

成功的标志

伪分布式运行Mapreduce程序

第十步：再次查看HDFS里面的文件，多了output002

伪分布式运行Mapreduce程序

第十一步：查看output002的内容

伪分布式运行Mapreduce程序

第十二步：输出part-r-00000的内容

伪分布式运行Mapreduce程序

运行过程的一些总结

在刚开始弄伪分布式的时候只要到将文件上传到HDFS那一步就会报错了一直上传不上去，后来发现是自己没有安装yarn后来再次安装yarn，执行计算单词的时候都是要启动所有进程的，很多时候就是忘记启动而导致出错。

一直以为wordcount.jar的位置有规定，其实不是的，只要我操作的那些直接在那个jar包所在的文件夹下操作就行了。刚开始实验的时候是使用以前老师给的32位的debain系统操作一直不能成功，后来只能安装回64位的ubuntu，在这个过程中安装jdk也遇到了错误，后来都是通过百度解决了安装的问题。换了一个系统就能正常操作了。