【发布时间】:2011-03-26 08:56:47
【问题描述】:
我有一堆包含表格数据的 PDF 文档,我需要将它们提取为更易读的格式,以存储在电子表格、数据库或其他任何东西中。
世界上是否有任何东西(最好是免费的)能够将表格数据从 PDF 中提取为更易读的格式批量或者原生集成应用程序或通过命令行被动或在代码(.net)中循环进程?
只要表格得到维护,实际上可以是任何格式(doc、html)。
到目前为止,我发现的任何东西要么是一次性的(一次只做一个文档,我有数百个,这不会发生),要么不维护表结构。
任何想法请发表。
【问题讨论】:
-
如果您可以使用源 PDF 的特定示例扩展此问题,这将有所帮助,因为这是准确回答问题所必需的。
-
@Thilo - 你对这个问题给予了赏金,目前尚不清楚@markdigi 是否给予任何关注。您是否有一些示例数据可以指出您想要解决的问题?
-
@andersoj 这与stackoverflow.com/questions/3929793/…有关(我从pdftotext获取文本数据)。