【问题标题】:PDF to HTML or similarPDF转HTML或类似
【发布时间】:2011-06-06 13:14:37
【问题描述】:

我正在构建一个应用程序来通过浏览器查看 pdf,而无需移动设备上的插件。我尝试使用 ImageMagick 和 ghostscript 将页面转换为图像,但它们太大并且文本变得不清楚。我看到网站提供将 pdf 转换为 html 的服务并进行了一项下降工作,但我找不到如何完成此操作的示例。任何帮助深表感谢。谢谢!

【问题讨论】:

  • 老问题,但是:您可以联系您提到的在线服务,并询问他们是如何做到的。有些人不会说,但尝试没有坏处。

标签: pdf-conversion pdf-viewer pdfview


【解决方案1】:

编辑:我似乎已经倒读了这个问题。在这种情况下,最好先解析 PDF,然后根据您找到的内容格式化一些 HTML。我相信 javapdf 选项能够做到这一点,但我没有使用过这些,所以我不确定。如果情况变得更糟,并且您找不到反汇编 PDF 的软件,您可以通过阅读 PDF 规范,用 Java 或 PHP 编写自己的反汇编程序。祝你好运!

http://www.adobe.com/devnet/pdf/pdf_reference.html - PDF 规范(Adobe 修改版,因为它们最受欢迎,您可能希望支持它们的扩展)

-- OLD -- 这些网站可能会编写自己的专有软件来解决问题。如果您真的对这项工作感兴趣,我建议您解析 HTML 以获取数据和样式信息,并使用它来格式化某种 PDF 编写器 API。快速谷歌搜索产生以下结果:--END OLD--

http://www.cutepdf.com/Solutions/

http://ruby-pdf.rubyforge.org/pdf-writer/doc/index.html

http://asprise.com/product/javapdf/

【讨论】:

  • 我想你可能误解了这个问题,我的意思是我想在不需要插件的情况下将 pdf 转换为浏览器中的可查看格式。根据我在您提供的链接中收集的内容,他们所描述的只是创建一个 pdf。无论如何,感谢您的关注。
  • 你说得对,我似乎把问题读反了。其中一些软件可能还包含 PDF 阅读功能。在这种情况下,您与我之前所说的相反,阅读 PDF 并使用读者提供的信息格式化一些 HTML。我很确定 javapdf 选项可以解决问题。
【解决方案2】:

如果您正在考虑将 PDF 转换为 HTML 并计划在服务器上运行转换,那么您可以尝试 pdf2html。它是作为 poppler-utils 的一部分打包的程序。我不知道程序是如何完成它的。

【讨论】:

  • 感谢您的提示,我之前曾在另一个项目中使用过它,它确实也很有效,尽管我希望在设备本身上本地完成此操作。
【解决方案3】:

我在谷歌上搜索,发现下面的链接解释了 scridb.com 如何实现转换。 http://coding.scribd.com/2010/06/01/the-perils-of-stacking/

【讨论】:

    猜你喜欢
    • 2020-01-14
    • 1970-01-01
    • 2014-03-21
    • 1970-01-01
    • 2014-12-03
    • 2013-01-10
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多