【发布时间】:2013-07-14 18:15:57
【问题描述】:
我必须开发的更大目的如下:-
a) 仪表板,除了其他功能外,用户还可以上传文档(.pdf、.txt、.doc)。所有这些文件都进入一个特定的目录。
b) 用户还可以查询所有带有特定关键字标记的文档。
现在,我希望使用Hadoop 来执行文档的标记。我的目标是通过使用选定单词的字典来实现这一点。现在.txt(或者也可能是.doc 文件)将是易于加工。但是,据我了解,.pdf 文件无法直接处理。我已经学会了如何使用Apache PDFBox。但是我无法集成这两个,即 Hadoop 和 PDFBox。我想要做的是我的 Map-Reduce 程序,接收 .txt/.pdf/.doc 文件的语料库作为输入,在 Map 开始运行之前,执行 pdf to txt 的转换。
我该怎么做?我在想正确的方向吗?请帮忙。
【问题讨论】:
-
我不确定 Hadoop 会在哪里发挥作用,但如果您的目标是索引和查询文档语料库,也许您正在寻找 Apache Lucene/Solr?