伪分布式执行wordcount.java:

第一步:先把wordcount.java文件复制到ubuntu里面

伪分布式运行Mapreduce程序

第二步:我们将 Hadoop classhpath 信息添加到 CLASSPATH 变量中,在 ~/.bashrc 中增加如下几行:

伪分布式运行Mapreduce程序

然后执行source ~/.bashrc 使变量生效

 

第三步:使用javac命令编译.java文件

伪分布式运行Mapreduce程序

就会生成相应的.class文件

伪分布式运行Mapreduce程序

第四步:接着把 .class 文件打包成 jar,才能在 Hadoop 中运行

伪分布式运行Mapreduce程序

就会生成jar包

伪分布式运行Mapreduce程序

第五步:创建几个输入文件

伪分布式运行Mapreduce程序

伪分布式运行Mapreduce程序

第六步:启动所有进程

伪分布式运行Mapreduce程序

第七步:把本地文件上传到伪分布式HDFS上

/usr/local/hadoop/bin/hadoop fs -put ./input002 input002

伪分布式运行Mapreduce程序

第八步:HDFS上查看文件input002

伪分布式运行Mapreduce程序

第九步:

运行hadoop jar WordCount.jar org/apache/hadoop/examples/WordCount input002 output002

伪分布式运行Mapreduce程序

看到输出信息

 

伪分布式运行Mapreduce程序

等待完成就行

成功的标志

伪分布式运行Mapreduce程序

第十步:再次查看HDFS里面的文件,多了output002

伪分布式运行Mapreduce程序

第十一步:查看output002的内容

伪分布式运行Mapreduce程序

第十二步:输出part-r-00000的内容

伪分布式运行Mapreduce程序

 

运行过程的一些总结

在刚开始弄伪分布式的时候只要到将文件上传到HDFS那一步就会报错了一直上传不上去,后来发现是自己没有安装yarn后来再次安装yarn,执行计算单词的时候都是要启动所有进程的,很多时候就是忘记启动而导致出错。

一直以为wordcount.jar的位置有规定,其实不是的,只要我操作的那些直接在那个jar包所在的文件夹下操作就行了。刚开始实验的时候是使用以前老师给的32位的debain系统操作一直不能成功,后来只能安装回64位的ubuntu,在这个过程中安装jdk也遇到了错误,后来都是通过百度解决了安装的问题。换了一个系统就能正常操作了。

相关文章:

  • 2022-01-16
  • 2021-09-01
  • 2021-06-24
  • 2022-01-01
  • 2021-12-20
  • 2022-01-19
  • 2022-12-23
  • 2021-08-08
猜你喜欢
  • 2021-06-28
  • 2021-04-24
  • 2021-12-27
  • 2021-09-03
  • 2021-04-23
  • 2021-10-28
  • 2022-12-23
相关资源
相似解决方案