【发布时间】:2010-12-21 06:28:06
【问题描述】:
我需要一种从 PDF 文档中提取书目元数据的机制,以防止人们手动输入或剪切粘贴。
至少,标题和摘要。作者名单和他们的隶属关系会很好。提取参考文献将是惊人的。
理想情况下,这将是一个开源解决方案。
问题在于,并非所有 PDF 都对文本进行编码,而且许多 PDF 确实无法保留文本的逻辑顺序,因此只需执行 pdf2text 即可为您提供第 1 列的第 1 行、第 2 列的第 1 行、第 2 列的第 2 行1等
我知道有很多图书馆。它在我需要解决的文档上识别摘要、标题作者等。这不可能每次都实现,但 80% 会节省大量人力。
【问题讨论】:
-
这个问题是否与任何语言和/或平台有关?
-
通用UNIX平台,越跨平台越好。主要工具 (EPrints) 是 MySQL、Perl、Apache,但如果需要,它可以脱壳。理想情况下,这应该运行得足够快,以提供近乎即时的结果。
-
悬赏是一个可以获取 PDF 文件并向我返回至少包含标题和摘要的数据结构的答案,并且是零成本软件。这会让许多大学图书馆员非常高兴。理想情况下还有日期、会议详细信息(如果有)和参考资料。在 utf-8 中,虽然我过于乐观。
-
即使你能得到所有的文本,你如何识别标题/摘要?什么情况下需要OCR?
-
您能否指出一个指向包含您所想的'书目元数据'的 PDF 的链接?
标签: pdf metadata extraction