使用 Python 从 PDF 文件中挖掘文本答案

【问题标题】：Text Mining from PDF file using Python使用 Python 从 PDF 文件中挖掘文本
【发布时间】：2018-09-01 05:08:00
【问题描述】：

我有一家公司的年度报告（.pdf 格式），我想使用 python 获取资产负债表和其他相关的年度报告。我尝试使用 PyPDF2 lib，但它正在提取高度非结构化的文本。有什么办法吗？？

【问题讨论】：

答案是：“总有办法”，现在，您能否更具体一些，并添加您的数据示例和代码 sn-p 以便我们查看您尝试了什么以及发生了什么错了
s3-ap-southeast-1.amazonaws.com/bsy/iportal/images/… 的数据，我想在随机页面获取资产负债表。

标签： python pypdf2

【解决方案1】：

你应该使用textract

https://github.com/deanmalmgren/textract

它支持多种文件类型的文本提取。

【讨论】：

【解决方案2】：

你的问题不是很清楚。我理解这一点，因为我在提取英国年度报告方面做了很多工作。为了向其他人解释，你所要求的听起来很简单，但实际上这是一场噩梦。年度报告采用 PDF 格式，并且没有一家生产它们的公司遵循任何标准，这使得即使手动分析这些报告也很困难。当您将 PDF 转换为文本时，它们的结构会松散。我有一个 Java 工具，可以读取和检测英国 PDF 年度报告的结构（类似于您在链接中提供的那个）。尽管它们之间存在巨大差异，但我花了 5 年时间才想出一个可以处理多达 95% 的英国年度报告的解决方案。看看：https://github.com/drelhaj/CFIE-FRSE 那里有关于我们如何做到的论文的链接。

【讨论】：