【发布时间】:2013-06-14 07:32:45
【问题描述】:
我有一个由 JSoup 解析的 html 文档。此表中有几行:
<table>
<tbody>
<tr>...</tr>
<tr>...</tr>
<tr>...</tr>
<tr>...</tr>
<tr>...</tr>
<tr>...</tr>
</tbody>
</table>
有些行是一种标题 - 我使用 Jsoup select(...) 方法找到这些行。所以我有 Elements 对象,其中包含所有作为标题的行。假设它看起来像这样:
<table>
<tbody>
<tr id="tr1">...</tr>
<tr id="tr2">...</tr> // this is header
<tr id="tr3">...</tr>
<tr id="tr4">...</tr>
<tr id="tr5">...</tr> // this is header
<tr id="tr6">...</tr>
</tbody>
</table>
Id 属性仅用于此示例 - 在实际情况下,解析的 html 中没有 id 属性。
我需要的是获取 2 个表(包含每个表的 2 个 Element 对象),每个表头一个,包含给定表头下方但下一个表头上方的所有行。所以我期望:
<table> // Element 1
<tbody>
<tr id="tr3">...</tr>
<tr id="tr4">...</tr>
</tbody>
</table>
<table> // Element 2
<tbody>
<tr id="tr6">...</tr>
</tbody>
</table>
谁能帮我完成这项任务?
【问题讨论】:
-
???你什么意思?我对已解析文档的布局没有影响,我必须对其进行转换...
-
jsoup解析 HTML。它不会操纵结构。