【发布时间】:2012-06-11 11:33:52
【问题描述】:
阅读 Jsoup 的文档我不明白 Jsoup 在解析 html 文件之前是否应用了 Tidy。 在这种情况下,可以禁用 tidy?
您是否知道其他没有整理页面源代码的 Java HTML5 解析器?
谢谢。
【问题讨论】:
-
整理是什么意思?
-
对于“Tidyfication”,我的意思是“清理格式错误和有缺陷的 HTML”(就像 JTidy、Html_Tidy 和许多其他“Something-Tidy”库所做的那样)。我需要一个 Java Html5 解析器来解析凌乱的 html....
-
IDK 如果有的话。您是否尝试过使用本机 Java API?它将为您提供所有数据,并带有自己的缩进。我会用一种方法来发布答案
-
我使用了 Java API。非常感谢!我可以将它也用于 css 解析吗?
-
好吧,我还没试过。但我想,你可以在代码中搜索 css 文件路径,并使用原生 API 获取其内容。
标签: java html parsing html-parsing jsoup