【发布时间】:2016-03-03 20:03:20
【问题描述】:
首先:我使用的是新的 Mac Book,运行 El Capitan 10.11.3,我刚刚下载了最新的 Hadoop (2.6.0)。
我正在尝试使用 Cloud9 从维基百科转储中的一堆页面中提取主要文章文本。基本上,他们告诉您如何做到这一点,作为此文档页面上的第二个“快速而肮脏”的示例: http://lintool.github.io/Cloud9/docs/content/wikipedia.html
我下载了所有内容并在终端中输入了相同的命令:
hadoop jar target/cloud9-2.0.2-SNAPSHOT-fatjar.jar edu.umd.cloud9.collection.wikipedia.DumpWikipediaToPlainText \ -input /wiki-sample.xml -wiki_language en -output wiki-sample-output.txt
旁注:我创建了一个示例 .xml,其中包含大量 wiki 转储的前 1500 行左右,然后是 wiki 转储末尾的最后几页。在我尝试真正运行它之前,我只是想让它工作。
无论如何,所以我运行该命令,它似乎正在做某事,然后在命令行上打印出一堆准文档:
usage: edu.umd.cloud9.collection.wikipedia.DumpWikipediaToPlainText
-input <path> XML dump file
-output <path> output path
-wiki_language <en|sv|de|cs|es|zh|ar|tr> two-letter language code
Generic options supported are
-conf <configuration file> specify an application configuration file
-D <property=value> use value for given property
-fs <local|namenode:port> specify a namenode
-jt <local|resourcemanager:port> specify a ResourceManager
-files <comma separated list of files> specify comma separated files to be copied to the map reduce cluster
-libjars <comma separated list of jars> specify comma separated jar files to include in the classpath.
-archives <comma separated list of archives> specify comma separated archives to be unarchived on the compute machines.
The general command line syntax is
bin/hadoop command [genericOptions] [commandOptions]
这些似乎都不是特别有用,最重要的是,它不会使用文章文本创建输出文件。我还尝试创建一个具有正确名称的(空白)输出文件,以查看它是否会填充它,但这也不起作用。
任何关于我可能做错的想法将不胜感激。我是使用 hadoop 的新手,所以我希望我缺少一些简单的东西。 Cloud9 页面指出“截至 2015 年 12 月,该库不再积极开发或维护”,所以我真的希望这里有人可以帮助我。非常感谢。 赛斯
简要附录: 我还尝试返回根目录并在开始时使用完整路径和 bin/hadoop 运行所有内容,但这也是同样的事情。这是我从根目录发出的(不成功的)命令:
bin/hadoop jar /Users/Seth/Documents/Cloud9/target/cloud9-2.0.2-SNAPSHOT-fatjar.jar edu.umd.cloud9.collection.wikipedia.DumpWikipediaToPlainText \ -input /Users/Seth/Documents/Cloud9/wiki-sample.xml -wiki_language en -output /Users/Seth/Documents/Cloud9/wiki-sample-output.txt
【问题讨论】: