使用 Cloud9 和 hadoop 提取维基百科文章文本答案

【问题标题】：extracting wikipedia article text with Cloud9 and hadoop使用 Cloud9 和 hadoop 提取维基百科文章文本
【发布时间】：2016-03-03 20:03:20
【问题描述】：

首先：我使用的是新的 Mac Book，运行 El Capitan 10.11.3，我刚刚下载了最新的 Hadoop (2.6.0)。

我正在尝试使用 Cloud9 从维基百科转储中的一堆页面中提取主要文章文本。基本上，他们告诉您如何做到这一点，作为此文档页面上的第二个“快速而肮脏”的示例： http://lintool.github.io/Cloud9/docs/content/wikipedia.html

我下载了所有内容并在终端中输入了相同的命令：

hadoop jar target/cloud9-2.0.2-SNAPSHOT-fatjar.jar edu.umd.cloud9.collection.wikipedia.DumpWikipediaToPlainText \ -input /wiki-sample.xml -wiki_language en -output wiki-sample-output.txt

旁注：我创建了一个示例 .xml，其中包含大量 wiki 转储的前 1500 行左右，然后是 wiki 转储末尾的最后几页。在我尝试真正运行它之前，我只是想让它工作。

无论如何，所以我运行该命令，它似乎正在做某事，然后在命令行上打印出一堆准文档：

usage: edu.umd.cloud9.collection.wikipedia.DumpWikipediaToPlainText
 -input <path>                              XML dump file
 -output <path>                             output path
 -wiki_language <en|sv|de|cs|es|zh|ar|tr>   two-letter language code
Generic options supported are
-conf <configuration file>     specify an application configuration file
-D <property=value>            use value for given property
-fs <local|namenode:port>      specify a namenode
-jt <local|resourcemanager:port>    specify a ResourceManager
-files <comma separated list of files>    specify comma separated files to be copied to the map reduce cluster
-libjars <comma separated list of jars>    specify comma separated jar files to include in the classpath.
-archives <comma separated list of archives>    specify comma separated    archives to be unarchived on the compute machines.

The general command line syntax is
bin/hadoop command [genericOptions] [commandOptions]

这些似乎都不是特别有用，最重要的是，它不会使用文章文本创建输出文件。我还尝试创建一个具有正确名称的（空白）输出文件，以查看它是否会填充它，但这也不起作用。

任何关于我可能做错的想法将不胜感激。我是使用 hadoop 的新手，所以我希望我缺少一些简单的东西。 Cloud9 页面指出“截至 2015 年 12 月，该库不再积极开发或维护”，所以我真的希望这里有人可以帮助我。非常感谢。赛斯

简要附录：我还尝试返回根目录并在开始时使用完整路径和 bin/hadoop 运行所有内容，但这也是同样的事情。这是我从根目录发出的（不成功的）命令：

bin/hadoop jar /Users/Seth/Documents/Cloud9/target/cloud9-2.0.2-SNAPSHOT-fatjar.jar edu.umd.cloud9.collection.wikipedia.DumpWikipediaToPlainText \ -input /Users/Seth/Documents/Cloud9/wiki-sample.xml -wiki_language en -output /Users/Seth/Documents/Cloud9/wiki-sample-output.txt

【问题讨论】：

标签： hadoop wikipedia

【解决方案1】：

不是您特定问题的答案。

但是，如果您想做的是从维基百科转储中获取一个简单、可用的语料库，我建议您使用：https://github.com/idio/json-wikipedia

并行模式使用你机器中的所有资源，在大约 16G 内存和 8 核的 macbook pro 中，英文维基百科不会超过 30/45 分钟

【讨论】：

感谢您的建议。我最终可能会这样做，但我真的只需要每篇文章的纯文本，而不是所有的链接、参考资料等。如果我使用这个 JSON 解析器（或类似的东西），那么我将不得不经历并对每篇文章进行另一轮提取。我希望能够一口气完成所有这些（这是我对 Cloud9 的吸引力）。有什么想法可以做到这一点吗？
稍加修改，您可以使用：github.com/idio/wiki2vec，它在第一步中从维基百科文本（每行一篇文章的文本）中生成一个语料库。唯一额外的事情是链接主题作为 DBPEDIA/otherArticle 添加到文本中
感谢您的想法。我继续使用 json-wikipedia。它确实需要额外的步骤来解析 JSON，但它仍然很容易处理。