【发布时间】:2013-02-28 00:08:03
【问题描述】:
我正在解析这个页面片段:
<tr valign="middle">
<td class="inner"><span style=""><span class="" title=""></span> 2 <span class="icon ok" title="Verified"></span> </span><span class="icon cat_tv" title="Video » TV" style="bottom:-2;"></span> <a href="/VALUE.html" style="line-height:1.4em;">VALUE</a> </td>
<td width="1%" align="center" nowrap="nowrap" class="small inner" >VALUE</td>
<td width="1%" align="right" nowrap="nowrap" class="small inner" >VALUE</td>
<td width="1%" align="center" nowrap="nowrap" class="small inner" >VALUE</td>
</tr>
我在变量 tv 中有这个片段:HtmlElement tv = tr.get(i);
我是这样读取标签<a href="/VALUE.html" style="line-height:1.4em;">VALUE</a>的:
HtmlElement a = tv.getElementsByTagName("a").get(0);
object.name.value(a.getTextContent());
url = a.getAttribute("href");
object.url_detail.value(myBase + url);
如何只读取其他<td>....</td> 部分的VALUE 字段?
【问题讨论】:
-
你使用什么框架进行解析?
-
也许使用
tv.getElementsByTagName("td")并循环结果并使用getTextContent()获取文本内容?你试过了吗?
标签: java html xml xml-parsing html-parsing