免费的开源 Java 库，用于转换 PDF - 图像、PDF - HTML、PDF - 提取图像和文本 [关闭]答案

【问题标题】：Free open-source Java library to convert PDF -Image, PDF - HTML, PDF - extract images and text [closed]免费的开源 Java 库，用于转换 PDF - 图像、PDF - HTML、PDF - 提取图像和文本 [关闭]
【发布时间】：2012-10-30 07:24:52
【问题描述】：

我需要 Java 库来执行以下任务 1) 将 Pdf 页面转换为图像 2) 从 PDF 页面中提取 html 文本并在页面上有位置 3) 从 PDF 页面中提取图像

我已经试过了

PDFBox - 失败并出现错误 --unsupported/disabled operation: BDC and EMC
icePDF - 它适用于任务 1) 和 3)，但同样需要付费。
PDFRenderer - 失败
BFO - 它的付费图书馆，但能够执行任务 1) 和 3)

谁能提出更好的解决方案。

【问题讨论】：

试试 iText itextpdf.com
我想这是为了将 HTML 转换为 PDF，反之亦然
我也会对这样的 Java 库感兴趣。目前我们在 Linux 系统上使用en.wikipedia.org/wiki/Poppler_(software) 来完成类似的任务。
@YashpalSingla itext 可以做到这一点，我相信。例如 - 如何从 pdf 中提取文本：itextpdf.com/examples/iia.php?id=275
这可能有助于提取图像stackoverflow.com/questions/6851385/…

标签： java open-source pdfbox

【解决方案1】：

你试过JOD Converter吗？它是自启动 Open Office Server 的 Java API。

要查看它是否转换为您想要的格式，只需安装 Open Office，打开一个文件，然后尝试“另存为”您需要的格式，看看它是否受支持。

【讨论】：

谢谢@Stewart，我试过 JOD 转换器，但输出没有 html 用处

【解决方案2】：

我已按照以下步骤解决 Ubuntu 环境中的问题

步骤 1) 使用 pdftohtml 库将 pdf 转换为 html

步骤2）在步骤1）中使用Jsoup从html中提取带有样式和位置的文本

步骤 3) 使用 CutyCapt 生成 HTML 快照（如果需要）

我们也可以使用 pdftoppm 命令直接从 pdf 中提取图像

【讨论】：

Singha 都可以用pdfbox来完成
它不是singha singla，无论如何感谢您的评论
@Neeraj 你能给我一个使用 pdfbox 将 pdf 转换为 html 的示例的链接吗？
@Rachit Agarwal: java -jar pdfbox-app-x.y.z.jar ExtractText -html neerajkarimpuzha.wordpress.com/2012/04/04/pdf-to-html-update, pdfbox.apache.org/commandlineutilities/ExtractText.html
谢谢..但我期待从 java 代码中做到这一点。不要通过命令行参数调用它

【解决方案3】：

您可以使用 PDFBox 完成所有这些操作。但是为了获得这个职位，没有 API。下载最新的PDFBox。转到以下链接以找到您的解决方案。

Convert Pdf pages to Image
Extract images from PDF pages
从 PDF 页面中提取 html 文本与页面上的位置略有不同。使用 API，您将无法获取位置信息。但是您可以使用 PDFBox 获取所有位置信息。

请查看this link。在那里你可以看到 getTextPos() 函数。 getTextPos().getXPosition()、getTextPos().getYPosition() 会给你 X 和 Y 坐标。

【讨论】：

我已经尝试过 PDFBox，正如您在我的帖子中看到的那样，但它会导致 BDC 和 EMC 错误，如果您能帮助我解决这个问题，那就太好了
@singla ：请检查以上链接，并尝试一下。我已经用 pdfbox 完成了这些。如果您遇到错误，请告诉我
@Singla : 可以直接使用 api 转换为图像和提取图像。下载pdfbox，请检查链接..