自定义 Hadoop 映射器答案

【问题标题】：Customize Hadoop Mapper自定义 Hadoop 映射器
【发布时间】：2013-07-14 18:15:57
【问题描述】：

我必须开发的更大目的如下：-

a) 仪表板，除了其他功能外，用户还可以上传文档（.pdf、.txt、.doc）。所有这些文件都进入一个特定的目录。

b) 用户还可以查询所有带有特定关键字标记的文档。

现在，我希望使用Hadoop 来执行文档的标记。我的目标是通过使用选定单词的字典来实现这一点。现在.txt（或者也可能是.doc 文件）将是易于加工。但是，据我了解，.pdf 文件无法直接处理。我已经学会了如何使用Apache PDFBox。但是我无法集成这两个，即 Hadoop 和 PDFBox。我想要做的是我的 Map-Reduce 程序，接收 .txt/.pdf/.doc 文件的语料库作为输入，在 Map 开始运行之前，执行 pdf to txt 的转换。

我该怎么做？我在想正确的方向吗？请帮忙。

【问题讨论】：

我不确定 Hadoop 会在哪里发挥作用，但如果您的目标是索引和查询文档语料库，也许您正在寻找 Apache Lucene/Solr?

标签： hadoop mapreduce pdfbox

【解决方案1】：

我假设你有百万或十亿的文档，你想对它们进行分类，不管是pdf, txt, doc and so on...但你的实际问题是如何在Mapper中使用Apache PDFBox，这里是链接如何加载用户图书馆hadoop:LINK

【讨论】：