【问题标题】:Free open-source Java library to convert PDF -Image, PDF - HTML, PDF - extract images and text [closed]免费的开源 Java 库,用于转换 PDF - 图像、PDF - HTML、PDF - 提取图像和文本 [关闭]
【发布时间】:2012-10-30 07:24:52
【问题描述】:

我需要 Java 库来执行以下任务 1) 将 Pdf 页面转换为图像 2) 从 PDF 页面中提取 html 文本并在页面上有位置 3) 从 PDF 页面中提取图像

我已经试过了

  1. PDFBox - 失败并出现错误 --unsupported/disabled operation: BDC and EMC
  2. icePDF - 它适用于任务 1) 和 3),但同样需要付费。
  3. PDFRenderer - 失败
  4. BFO - 它的付费图书馆,但能够执行任务 1) 和 3)

谁能提出更好的解决方案。

【问题讨论】:

标签: java open-source pdfbox


【解决方案1】:

你试过JOD Converter吗?它是自启动 Open Office Server 的 Java API。

要查看它是否转换为您想要的格式,只需安装 Open Office,打开一个文件,然后尝试“另存为”您需要的格式,看看它是否受支持。

【讨论】:

  • 谢谢@Stewart,我试过 JOD 转换器,但输出没有 html 用处
【解决方案2】:

我已按照以下步骤解决 Ubuntu 环境中的问题

步骤 1) 使用 pdftohtml 库将 pdf 转换为 html

步骤2)在步骤1)中使用Jsoup从html中提取带有样式和位置的文本

步骤 3) 使用 CutyCapt 生成 HTML 快照(如果需要)

我们也可以使用 pdftoppm 命令直接从 pdf 中提取图像

【讨论】:

【解决方案3】:

您可以使用 PDFBox 完成所有这些操作。但是为了获得这个职位,没有 API。下载最新的PDFBox。转到以下链接以找到您的解决方案。

  1. Convert Pdf pages to Image
  2. Extract images from PDF pages
  3. 从 PDF 页面中提取 html 文本与页面上的位置略有不同。使用 API,您将无法获取位置信息。但是您可以使用 PDFBox 获取所有位置信息。

请查看this link。在那里你可以看到 getTextPos() 函数。 getTextPos().getXPosition()、getTextPos().getYPosition() 会给你 X 和 Y 坐标。

【讨论】:

  • 我已经尝试过 PDFBox,正如您在我的帖子中看到的那样,但它会导致 BDC 和 EMC 错误,如果您能帮助我解决这个问题,那就太好了
  • @singla :请检查以上链接,并尝试一下。我已经用 pdfbox 完成了这些。如果您遇到错误,请告诉我
  • @Singla : 可以直接使用 api 转换为图像和提取图像。下载pdfbox,请检查链接..
猜你喜欢
  • 1970-01-01
  • 2016-07-03
  • 2011-07-25
  • 2011-12-28
  • 2011-08-23
  • 2016-03-20
  • 2011-05-16
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多