【发布时间】:2013-10-22 05:25:38
【问题描述】:
我正在使用 HtmlUnit 来解析 Java 中的 HTML pae,我想从一个页面中获取所有表,然后为每个表找到 5 个以前的兄弟姐妹。 这就是我在页面中解析表格的方式:
List<HtmlTable> tables = (List<HtmlTable>) page.getByXPath("//table");
if(tables!=null && tables.size()>0) {
for(int k=tables.size()-1; k>=0; k--) {
for (HtmlTableRow row : tables.get(k).getRows()) {
List<HtmlTableCell> tds = row.getCells();
}
}
}
所以如果一个表是这样的:
<p></p>
<p></p>
<div></div>
<table>
.
.
</table>
我需要得到<div> 和两个<p> 元素。
JSoup 似乎有兄弟http://jsoup.org/apidocs/org/jsoup/nodes/Element.html#previousElementSibling%28%29 的方法,在 HtmlUnit 中找不到类似的东西。
【问题讨论】:
标签: java html xpath html-parsing htmlunit