【发布时间】:2012-03-14 17:25:18
【问题描述】:
我必须在 Hadoop 的 Map Reduce 程序中解析 HDFS 中的 PDF 文件。所以我从 HDFS 获取 PDF 文件作为 Input splits 并且它必须被解析并发送到 Mapper 类。为了实现这个 InputFormat 我经历了这个 link 。如何将这些输入拆分解析并转换为文本格式?
【问题讨论】:
-
这个答案可能是您正在寻找的内容的一部分:stackoverflow.com/a/9298965/698839
标签: pdf hadoop mapreduce pdf-parsing