【问题标题】:Customize Hadoop Mapper自定义 Hadoop 映射器
【发布时间】:2013-07-14 18:15:57
【问题描述】:

我必须开发的更大目的如下:-

a) 仪表板,除了其他功能外,用户还可以上传文档(.pdf、.txt、.doc)。所有这些文件都进入一个特定的目录。

b) 用户还可以查询所有带有特定关键字标记的文档。

现在,我希望使用Hadoop 来执行文档的标记。我的目标是通过使用选定单词的字典来实现这一点。现在.txt(或者也可能是.doc 文件)将是易于加工。但是,据我了解,.pdf 文件无法直接处理。我已经学会了如何使用Apache PDFBox。但是我无法集成这两个,即 Hadoop 和 PDFBox。我想要做的是我的 Map-Reduce 程序,接收 .txt/.pdf/.doc 文件的语料库作为输入,在 Map 开始运行之前,执行 pdf to txt 的转换。

我该怎么做?我在想正确的方向吗?请帮忙。

【问题讨论】:

  • 我不确定 Hadoop 会在哪里发挥作用,但如果您的目标是索引和查询文档语料库,也许您正在寻找 Apache Lucene/Solr?

标签: hadoop mapreduce pdfbox


【解决方案1】:

我假设你有百万或十亿的文档,你想对它们进行分类,不管是pdf, txt, doc and so on...但你的实际问题是如何在Mapper中使用Apache PDFBox,这里是链接如何加载用户图书馆hadoop:LINK

【讨论】:

    猜你喜欢
    • 2018-06-20
    • 1970-01-01
    • 2018-07-09
    • 1970-01-01
    • 2013-07-18
    • 1970-01-01
    • 1970-01-01
    • 2017-02-17
    • 2013-09-24
    相关资源
    最近更新 更多