【发布时间】:2012-10-30 07:24:52
【问题描述】:
我需要 Java 库来执行以下任务 1) 将 Pdf 页面转换为图像 2) 从 PDF 页面中提取 html 文本并在页面上有位置 3) 从 PDF 页面中提取图像
我已经试过了
- PDFBox - 失败并出现错误 --unsupported/disabled operation: BDC and EMC
- icePDF - 它适用于任务 1) 和 3),但同样需要付费。
- PDFRenderer - 失败
- BFO - 它的付费图书馆,但能够执行任务 1) 和 3)
谁能提出更好的解决方案。
【问题讨论】:
-
试试 iText itextpdf.com
-
我想这是为了将 HTML 转换为 PDF,反之亦然
-
我也会对这样的 Java 库感兴趣。目前我们在 Linux 系统上使用en.wikipedia.org/wiki/Poppler_(software) 来完成类似的任务。
-
@YashpalSingla itext 可以做到这一点,我相信。例如 - 如何从 pdf 中提取文本:itextpdf.com/examples/iia.php?id=275
-
这可能有助于提取图像stackoverflow.com/questions/6851385/…
标签: java open-source pdfbox