【问题标题】:How to handle/parse ill-formed html into DOM in java?java - 如何在java中处理/解析格式错误的html到DOM?
【发布时间】:2010-11-10 18:32:44
【问题描述】:

我正在使用 NekoHtml。它无法将来自mercurynews.com 等网站的html 解析为DOM。有什么解决办法吗?

【问题讨论】:

    标签: java html dom parsing


    【解决方案1】:

    你考虑过标签汤吗?

    http://home.ccil.org/~cowan/XML/tagsoup/

    【讨论】:

      【解决方案2】:

      除了切换到other parsers?如果站点有一致的错误模式,您可以在传递给解析器之前通过一系列正则表达式对其进行热修复。

      【讨论】:

        【解决方案3】:

        您可以考虑使用 Swing HTML 解析器。

        http://www.rkcole.com/articles/swing/HTMLParser.html

        【讨论】:

          【解决方案4】:

          我使用了来自“Lobo Project”(http://lobobrowser.org/cobra.jsp) 的 Cobra 渲染器来解析不太友好的 HTML,它运行良好。它的 API 也很容易使用。

          希望这会有所帮助。

          【讨论】:

            【解决方案5】:

            在解析之前使用JTidy来整理它,或者最好将它用作解析器

            【讨论】:

            • 我发现 JTidy 很慢,从 2000 年开始就没有维护过。
            【解决方案6】:

            我不知道“网站喜欢”是什么意思,但 MercuryNews.com 和大多数新闻网站都有RSS interface

            【讨论】:

            • RSS 仅在大多数网站上提供简短的 sn-ps。我有兴趣解析 html 格式的完整文章。
            【解决方案7】:

            我已经尝试过 jsoup - http://jsoup.org -.

            它是一个开源 Java 库,用于真实世界的 HTML 解析和 DOM 操作,具有类似 jquery 的方法。

            【讨论】:

              猜你喜欢
              • 2010-10-29
              • 2013-09-07
              • 2013-04-06
              • 2011-08-02
              • 1970-01-01
              • 1970-01-01
              • 2017-09-10
              • 1970-01-01
              • 2013-11-03
              相关资源
              最近更新 更多