【发布时间】:2013-07-11 10:50:41
【问题描述】:
我正在尝试从 pdf document 中提取表格
我尝试了pdf -> html -> 提取表的路线。我上面提到的pdf转换为html时会产生垃圾,可能是因为字体的原因,文档不是英文的。
使用 x 和 y 坐标提取 pdf 不是一个选项,因为此解决方案需要适用于来自上述 url 的未来 pdf,它将有表格但并不总是在相同的位置。
请帮忙,
提前致谢。
【问题讨论】:
-
PDF 不包含明确的表格数据。它只包含我们倾向于将其解释为表格的行和字符字形。因此,您的任务涉及将我们的人类表格识别功能放入代码中,这是一项艰巨的任务。
-
@mkl 简而言之,如果它不是一个做或死的情况,我最好不要考虑解析这个pdf? :)
-
我曾经使用PDFMiner 做过类似的事情。您基本上可以获取所有对象的流以及它们的 x 和 y 位置,然后将它们从上到下、从左到右(至少对于英语)分组,然后根据单元格的结束位置做出一些明智的猜测你对上下文的了解。这很痛苦,每个 PDF 都不一样。如果您不必解析它,请不要。多久发布一次?
标签: python pdf pdf-parsing