【发布时间】:2011-03-25 15:13:00
【问题描述】:
我想整理从 Internet 下载的 pdf 文件。很明显,他们中的许多人名不副实。我想从文件中提取真正的标题。这里有很多是从 Latex 生成的,我认为从编译的 pdf 中我们可以找到 \title{} 关键字或类似的东西。然后我想用它来重命名文件。
我可以使用 pypdf 读取元数据。但大多数 pdf 在其元数据中不包含该标题。我用我所有的收藏都试过了,但没有找到!
两个问题: 1.是否可以读取从latex编译的pdf编译的pdf标题。 2. 我可以使用哪个库(主要是 C/C++、java、python)来获取这些信息。
提前致谢。
【问题讨论】: