【发布时间】:2015-07-10 10:51:03
【问题描述】:
我正在尝试从受读保护的 PDF 中提取图像。
对于普通的 PDF,Poppler library 可以很好地提取图像,而从受读保护的 PDF 中,它也可以很好地提取文本。这些图像是一个不同的故事。它要么不提取所有图像,要么以模糊的灰色或黑色提取所有图像。
在以下 PDF (original PDF here) 上,您可以在下面的缩略图中看到很多图像:
我尝试了Poppler library 中的pdfimages 命令:
$ pdfimages -j ticket.pdf i
以及来自mupdf 的pdftohtml 命令:
$ pdftohtml -nodrm ticket.pdf
但是这两个库只提取了许多图像中的一个。不过,该图像已正确提取。从其他 PDF 中,我得到所有图像,但它们都是灰色或黑色的。
由于读保护应该只是 PDF 文档中的一个标志,而不是对源的实际加扰或加密(最终您的计算机可以在不输入密码的情况下显示图像),因此应该可以以某种方式提取图像单独。我什至可以使用ImageMagick (convert ticket.pdf ticket.jpg) 从整个 PDF 创建缩略图,那为什么不单独图像呢?
有人知道如何从受读保护的 PDF 中提取所有图像吗?欢迎所有提示!
【问题讨论】:
-
如果您不是说它的密码受保护,我不知道您所说的“读保护”是什么意思。如果它的密码受到保护,那么内容肯定是加密的。你不能在不提供密码的情况下设置 PDF 文件的权限,所以我有点困惑。但是,如果您可以提取文本,则没有理由不能提取其他内容。
标签: linux pdf imagemagick mupdf poppler