【问题标题】:Text Mining from PDF file using Python使用 Python 从 PDF 文件中挖掘文本
【发布时间】:2018-09-01 05:08:00
【问题描述】:

我有一家公司的年度报告(.pdf 格式),我想使用 python 获取资产负债表和其他相关的年度报告。我尝试使用 PyPDF2 lib,但它正在提取高度非结构化的文本。有什么办法吗??

【问题讨论】:

  • 答案是:“总有办法”,现在,您能否更具体一些,并添加您的数据示例和代码 sn-p 以便我们查看您尝试了什么以及发生了什么错了
  • s3-ap-southeast-1.amazonaws.com/bsy/iportal/images/… 的数据,我想在随机页面获取资产负债表。

标签: python pypdf2


【解决方案1】:

你应该使用textract

https://github.com/deanmalmgren/textract

它支持多种文件类型的文本提取。

【讨论】:

    【解决方案2】:

    你的问题不是很清楚。我理解这一点,因为我在提取英国年度报告方面做了很多工作。为了向其他人解释,你所要求的听起来很简单,但实际上这是一场噩梦。年度报告采用 PDF 格式,并且没有一家生产它们的公司遵循任何标准,这使得即使手动分析这些报告也很困难。当您将 PDF 转换为文本时,它们的结构会松散。我有一个 Java 工具,可以读取和检测英国 PDF 年度报告的结构(类似于您在链接中提供的那个)。尽管它们之间存在巨大差异,但我花了 5 年时间才想出一个可以处理多达 95% 的英国年度报告的解决方案。看看:https://github.com/drelhaj/CFIE-FRSE 那里有关于我们如何做到的论文的链接。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 2015-12-05
      • 1970-01-01
      • 1970-01-01
      • 2014-02-22
      • 2015-07-17
      • 2013-04-29
      • 2012-01-25
      相关资源
      最近更新 更多