【发布时间】:2023-03-05 06:14:02
【问题描述】:
我正在研究如何从大 (> 300MB) PDF 文件中提取图像。我正在使用 pdfbox,但由于某些我无法弄清楚的特殊原因,某些页面未正确提取。
我使用 pdfbox 的 PDFToImage 类作为我的代码的基础。
那么,你知道另一个图书馆可以帮助我做到这一点吗?我知道可以使用 iText,但我读到它不能用于商业产品。
我已经安装了 xpdf 和 xpdf-utils 软件包,名为 pdfimages 的实用程序运行良好。但我需要从 Java 解决这个问题,它应该是可移植的。
【问题讨论】:
-
您可以将 xpdf-utils 移植到 Java。
-
iText 在 GPL 下,除非您购买商业许可证。
-
我将尝试使用 = 5 的版本进行了更改。
-
未正确提取的图像有什么问题?
-
在两个由不同嵌入图像组成的特定页面中,每个页面的输出都是错误的..很难描述.....不同的嵌入图像是字母,最后一页有就像字母之间的孔......