【发布时间】:2019-08-30 12:47:52
【问题描述】:
我发现有一些库可以从 PDF 或 word 中提取图像,例如 docx2txt 和 pdfimages。但是如何获取图像周围的内容(例如图像下方可能有标题)?或者获取每张图片的页码?
PyPDF2 和 minecart 等其他一些工具可以逐页提取图像。但是,我无法成功运行这些代码。
有没有获取图片信息的好方法? (从 docx2txt 或 pdfimages 获得的图像,或另一种提取带有信息的图像的方式)
【问题讨论】:
标签: python shell pdf ms-word image-extraction