java - 如何在java中处理/解析格式错误的html到DOM？答案

【问题标题】：How to handle/parse ill-formed html into DOM in java?java - 如何在java中处理/解析格式错误的html到DOM？
【发布时间】：2010-11-10 18:32:44
【问题描述】：

我正在使用 NekoHtml。它无法将来自mercurynews.com 等网站的html 解析为DOM。有什么解决办法吗？

【问题讨论】：

【解决方案1】：

你考虑过标签汤吗？

【讨论】：

【解决方案2】：

除了切换到other parsers？如果站点有一致的错误模式，您可以在传递给解析器之前通过一系列正则表达式对其进行热修复。

【讨论】：

【解决方案3】：

您可以考虑使用 Swing HTML 解析器。

【讨论】：

【解决方案4】：

我使用了来自“Lobo Project”(http://lobobrowser.org/cobra.jsp) 的 Cobra 渲染器来解析不太友好的 HTML，它运行良好。它的 API 也很容易使用。

希望这会有所帮助。

【讨论】：

【解决方案5】：

在解析之前使用JTidy来整理它，或者最好将它用作解析器

【讨论】：

【解决方案6】：

我不知道“网站喜欢”是什么意思，但 MercuryNews.com 和大多数新闻网站都有RSS interface。

【讨论】：

【解决方案7】：

我已经尝试过 jsoup - http://jsoup.org -.

它是一个开源 Java 库，用于真实世界的 HTML 解析和 DOM 操作，具有类似 jquery 的方法。

【讨论】：