【发布时间】:2019-04-18 22:16:32
【问题描述】:
我有一个 pdf,我想用 Python 阅读它。当我使用 acrobat 在我的机器上打开它时,我收到以下消息,当我单击“启用所有功能”时,该文件显示它的实际内容。
当我尝试在 python 中读取它时,如何实现相同的操作,以便 python 读取实际文本而不读取下面的文本
“请稍候...如果此消息最终没有被文档的正确内容替换,您的 PDF 查看器可能无法显示此类文档。您可以升级到最新版本的 Adobe Reader for Windows ®、Mac 或 Linux®,请访问 http://www.adobe.com/go/reader_download。有关 Adobe Reader 的更多帮助,请访问 http://www.adobe.com/go/acrreader。Windows 是 Microsoft Corporation 在美国和/或其他国家/地区的注册商标或商标。Mac 是商标Apple Inc. 的注册商标,在美国和其他国家/地区注册。Linux 是 Linus Torvalds 在美国和其他国家/地区的注册商标。”
我的代码如下
from PIL import Image
import pytesseract
homepath = r'C:\Users\xxxx\\'
files = "bbbb.pdf"
PDFfilename = homepath + files
from pdf2image import convert_from_path
pages = convert_from_path(PDFfilename, 500)
i=1
for page in pages:
page.save(homepath +'out'+str(i)+'.jpg', 'JPEG')
text = pytesseract.image_to_string(Image.open(homepath +'out'+str(i)+'.jpg'))
print(text)
i=i+1
【问题讨论】: