【发布时间】:2018-10-13 19:00:51
【问题描述】:
我想完成一个简单的任务,但我正在努力寻找一个简单的解决方案:我在字符串(或文件)中有网页的 HTML,我想生成给定的 XPath元素。
(例如,我想检索 <a> 元素的 XPath)
我尝试了不同的解决方案,但在正确解析 html 时经常遇到问题。是否有像这样的用于 java 的功能性 html 清洁器? https://www.htmlwasher.com/ 这是我目前发现的唯一有效的清洁器,但它是一个在线工具。有了这个,我可以轻松解析 HTML 并访问 XPath。
我目前正在以这种方式使用 jOOX (https://github.com/jOOQ/jOOX) 来生成 XPath:
Document document = $(html).document();
System.out.println($(document).find("a").xpath());
如果使用我提供的在线工具清理 HTML,我可以生成正确的 XPath。 我喜欢我可以与 jOOX 交互的方式,前提是我可以正确地以编程方式解析 html。你知道解析 HTML 的好方法吗? 我已经试过了:
- JSoup
- 标签汤
- HtmlCleaner
测试网站页面是http://www.ansa.it。
编辑:
解析在一些常见的 HTML 解析问题上失败,例如未关闭的标签(例如 </img>)、转义等。
我设法以这种方式“正确”解析了 html:
Document doc = Jsoup.parse(Jsoup.clean(html, Whitelist.relaxed()));
doc.outputSettings().escapeMode(EscapeMode.xhtml)
.syntax(Syntax.xml)
.charset(StandardCharsets.UTF_8);
事实上,<a href="cinema.shtml">Cinema</a> 之类的标签变成了<a>Cinema</a>,所以我无法使用它们的属性(例如 href)来选择它们。我该如何解决这个新问题?
我注意到一些链接仍然有它们的 href,它们是指向其他网站的链接,如 facebook 或 twitter。这有关系吗?
【问题讨论】:
-
不清理时特别失败的原因是什么?
-
我编辑了这个问题! @aglassman顺便说一句,我在一些未封闭的标签上失败了, 不允许和类似的东西。我设法让它清理 html,但发生了一些奇怪的事情:许多 标签丢失了它们的 href 属性!