【问题标题】:Best Java lib for programmatically converting a HTML page to an Image/PDF [closed]用于以编程方式将 HTML 页面转换为图像/PDF 的最佳 Java 库 [关闭]
【发布时间】:2012-04-24 03:26:42
【问题描述】:

我正在寻找最好的 Java 库,我可以将它传入一个 URL 并让它创建一个网页的图像,就像它在浏览器中一样。我尝试了flyingsaucer,但似乎几乎每个网页都破坏了它——它甚至不会呈现 www.google.com 或 yahoo.com——我可以让它呈现的唯一网站是 www.w3c.org!

考虑使用更好的工具,或者可能允许飞碟在 xhtml 中更加宽松是可以接受的?

【问题讨论】:

    标签: java flying-saucer html-to-pdf html-to-jpeg


    【解决方案1】:

    飞碟在许多页面上都失败了,因为它只允许 xhtml(参见手册)。

    但是您可以使用一些 html 库来“清理”您的输入,然后使用 FS。

    网站 -> “清洁工” -> 飞碟

    一些不错的免费库是:

    1. JSoup(个人推荐)
    2. HtmlCleaner
    3. JTidy(有时比需要的更严格)
    4. Jericho HTML

    【讨论】:

      【解决方案2】:

      也许你可以试试itext.jar

      http://itextpdf.com/download.php下载

      【讨论】:

        【解决方案3】:

        关于html抓取:

        使用来自 java 库的 URL。这方面的例子很多。

        关于PDF转换:

        如果你使用 Spring 框架,你可以通过 iText api 使用 AbstractPdfView 类。 this 是我最喜欢的例子。我认为您可以轻松使用它。

        关于图像转换:

        我推荐这个:http://code.google.com/p/java-html2image/

        总计:

        通过 URL 读取 html → 通过 iText 或 java-html2image 转换。我强烈建议你自己做,不要留给某个图书馆。

        【讨论】:

          猜你喜欢
          • 1970-01-01
          • 1970-01-01
          • 1970-01-01
          • 1970-01-01
          • 2020-11-16
          • 1970-01-01
          • 2012-12-30
          • 1970-01-01
          • 1970-01-01
          相关资源
          最近更新 更多