【发布时间】:2014-10-11 14:19:24
【问题描述】:
我正在开发一个使用 Jsoup api 解析 html 的项目。在另一个模块中,我收到了 Document 类的 htmlDom 对象,并试图获取所有标题元素。我想提取所有 Header 类型的元素 <h1, h2, ..., h6>
我尝试浏览 Jsoup api,其中包含 Elements 类的所有方法,但找不到为我提取标题元素的方法。
如果有任何方法可以简化我当前使用 Jsoup 从 Elements 集合中提取标题元素的代码,请指导我。
Elements elementsObj = htmlDom.getAllElements();
for (Element htmlElement : elementsObj) {
// Match and extract all the headers from other elements
if (htmlElement.nodeName().matches("h[1-6]")) {
headerNodeList.add(htmlElement);
}
【问题讨论】:
-
提供的代码是我目前正在使用的,需要我循环遍历 html dom 集合中的所有元素。