【发布时间】:2017-09-28 10:24:07
【问题描述】:
我有用 Latex 编写的科学研究论文的 PDF 文件。 每篇研究论文都有“简介”、“相关工作”等部分,我想分别提取每个部分下的文字。
此 PDF 在第 1 页包含“摘要”和“简介”部分。 对于“摘要”部分,我想检索斜体文本。对于“介绍”,我希望所有这些段落都在其部分中。
如果我有 Latex 源文件,我可以进行一些数据挖掘并根据 \section{} 关键字提取文本
因此我在 Python3 中尝试了一些方法,例如将 pdf 转换为乳胶[link],但建议的软件要么与我的系统不兼容(Ubuntu 16.04),要么是付费软件。我尝试使用 textract,但它没有从 PDF 中提取部分的选项。
有人知道如何从使用 Latex 制作的 PDF 中提取部分吗?
【问题讨论】:
-
从 arXiv 下载乳胶源文件然后用 pandoc 处理它们可能更容易。
标签: python python-3.x pdf latex