【发布时间】:2014-02-12 06:18:10
【问题描述】:
我在使用HtmlUnit解析html页面时有两个问题(实际上是问题)。我尝试了他们的“入门”以及搜索谷歌但没有帮助。这是我的第一个问题。
1)我想从页面中提取下面bold标签的文字
<b class="productPrice">Five Dollars</b>
2)我想提取以下结构中最后一段中的整个文本(包括进一步的跨度或链接文本,如果存在)
<div class="alertContainer">
<p>Hello</p>
<p>Haven't you registeret yet?</p>
<p>Registrations will close on 3 July 2012.<span>So don't wait</span></p>
</div>
请问单行代码sn-ps我该怎么做?我是HtmlUnit的新手。
编辑:
HtmlUnit有getElementByName()和getElementById(),那么如果我们想用class来选择呢?
这将是我第一个问题的答案。
【问题讨论】:
-
你试过
getElementsByAttribute()和getOneHtmlElementByAttribute()吗? (其中属性名称是“类”)
标签: java web-scraping htmlunit