【发布时间】:2021-10-18 15:38:41
【问题描述】:
我目前正在使用pdftotext使用以下代码将PDF文件读入python
import pdftotext
bill_full = []
with open('sample.pdf', "rb") as f:
pdf = pdftotext.PDF(f)
bill = ''
for page in pdf:
bill = bill + page
bill_full.append(bill)
前面的代码似乎主要适用于我的完整数据集,但是我似乎遇到了看似随机的错误。前面的代码应用于以下 PDF https://legiscan.com/WI/text/AB649/id/456434/Wisconsin-2009-AB649-Introduced.pdf 导致
2011 − 2012 LEGISLATURE LRB−1478/1 2011 SENATE BILL 27\r\n\r\n\r\n\r\n\r\n March 1, 2011 − Introduced by JOINT COMMITTEE ON FINANCE. Referred to Joint\r\n Committee on Finance.\r\n\r\n\r\n\r\n\r\n1 AN ACT relating to: state finances and appropriations, constituting the\r\n\r\n2 executive budget act of the 2011 legislature.\r\n\r\n\r\n Analysis by the Legislative Reference Bureau\r\n INTRODUCTION\r\n
但是,当应用于其他人(例如https://legiscan.com/WI/text/AB408/id/423828/Wisconsin-2009-AB408-Introduced.pdf)时,我得到以下字符序列:
\x08\x08\x11 \x06 \x08 \x08 \x1c\x18\x1a\x1b"\x1c\x14#$!\x18
这两个 PDF 有什么不同?理想情况下,我想检测“不可读”的 PDF 并将它们从我的分析中删除。
【问题讨论】:
-
我实际上提供了两个无法阅读的 PDF 示例,这是一个可以正常工作的示例:legiscan.com/WI/text/AJR53/id/364543/…
标签: python text-mining pdftotext