【发布时间】:2010-11-10 18:32:44
【问题描述】:
我正在使用 NekoHtml。它无法将来自mercurynews.com 等网站的html 解析为DOM。有什么解决办法吗?
【问题讨论】:
我正在使用 NekoHtml。它无法将来自mercurynews.com 等网站的html 解析为DOM。有什么解决办法吗?
【问题讨论】:
你考虑过标签汤吗?
【讨论】:
除了切换到other parsers?如果站点有一致的错误模式,您可以在传递给解析器之前通过一系列正则表达式对其进行热修复。
【讨论】:
您可以考虑使用 Swing HTML 解析器。
【讨论】:
我使用了来自“Lobo Project”(http://lobobrowser.org/cobra.jsp) 的 Cobra 渲染器来解析不太友好的 HTML,它运行良好。它的 API 也很容易使用。
希望这会有所帮助。
【讨论】:
在解析之前使用JTidy来整理它,或者最好将它用作解析器
【讨论】:
我不知道“网站喜欢”是什么意思,但 MercuryNews.com 和大多数新闻网站都有RSS interface。
【讨论】:
我已经尝试过 jsoup - http://jsoup.org -.
它是一个开源 Java 库,用于真实世界的 HTML 解析和 DOM 操作,具有类似 jquery 的方法。
【讨论】: