【问题标题】:Looking for java html parser like simple html dom in PHP [closed]在 PHP 中寻找类似简单 html dom 的 java html 解析器 [关闭]
【发布时间】:2011-03-12 04:33:29
【问题描述】:

谢谢

【问题讨论】:

  • 我想我没有正确理解这个问题..但是你在谷歌上搜索过“Java html parser”吗?
  • 是的,我只想要简单的 html dom 中类似的解析器引擎,我不想使用它我只想从代码中了解它是如何工作的。

标签: java php parsing html-parsing simple-html-dom


【解决方案1】:

试试jsoup。据我所知,它是最好的 HTML 解析器。

【讨论】:

  • @Yosef:如果您想了解解析器的工作原理,我的建议是下载源 jar,并在 IDE 的调试器中逐步解析。具体看github.com/jhy/jsoup/blob/master/src/main/java/org/jsoup/parser/…中的 parse() 方法,它是一个递归下降解析器,它查看 HTML 队列中的下一个字符,并根据当前上下文创建子元素,或文本数据,或在何时弹出元素堆栈找到一个关闭标签。由于处理不可靠的输入 HTML,解析的简单性有些复杂。 (我是jsoup的作者)
【解决方案2】:

试试TagSoup,这是一个 SAX 解析器,它接收现实世界中的杂乱 HTML 并在 ContentHandler 上触发 SAX XML 事件。我建议将它与 JDOM 一起使用来构建您可以手动或通过 XPath 遍历的 JDOM 文档。

【讨论】:

    猜你喜欢
    • 2012-01-17
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2013-03-23
    • 2013-04-22
    • 2015-02-14
    • 1970-01-01
    相关资源
    最近更新 更多