【发布时间】:2013-07-13 17:06:21
【问题描述】:
我有这个已经从论坛抓取并保存的 html 文件。我想从抓取的数据中提取所有线程标题,问题是它设法输出了一些线程标题,但不是全部,而是跳过了一些线程标题。
我附上了实际 HTML 的示例。注意:“threadbits_forum_2” 2 是运行号
<tbody id="threadbits_forum_2">
<tr>
<td>Thread1</td>
</tr>
<tr>
<td>Thread2</td>
</tr>
<tr>
<td>Thread3</td>
</tr>
<tr>
<td>Thread4</td>
</tr>
.
.
.
.
</tbody>
Java 编码:
Document doc = Jsoup.parse(html);
Elements threadsList = doc.select("tbody[id^=threadbits_forum]").select("tr");
System.out.println(threadsList.toString());
结果:
<tbody id="threadbits_forum_2">
<tr>
<td>Thread2</td>
</tr>
<tr>
<td>Thread4</td>
</tr>
任何解决方法来获取所有线程标题?
感谢您阅读我的帖子。
基思
【问题讨论】: