【发布时间】:2021-06-11 13:41:23
【问题描述】:
我正在尝试从网站上抓取一些数据。我想要的数据列在一个表中,但是有多个表并且没有 ID。然后我想到我会在我正在搜索的表格上方找到标题,然后将其用作指标。
这真的很困扰我,所以作为最后的手段,我想问是否有人知道如何用 BeautifulSoup 来找到桌子。 下面提供了 HTML 代码的片段,在此先感谢 :)
我感兴趣的表格是<h2>Mine neaste vagter</h2>正下方的表格
<h2>Min aktuelle vagt</h2>
<div>
<a href='/shifts/detail/595212/'>Flere detaljer</a>
<p>Vagt starter: <b>11/06 2021 - 07:00</b></p>
<p>Vagt slutter: <b>11/06 2021 - 11:00</b></p>
<h2>Masker</h2>
<table class='list'>
<tr><th>Type</th><th>Fra</th><th> </th><th>Til</th></tr>
<tr>
<td>Fri egen regningD</td>
<td>07:00</td>
<td> - </td>
<td>11:00</td>
</tr>
</table>
</div>
<hr>
<h2>Mine neaste vagter</h2>
<table class='list'>
<tr>
<th class="alignleft">Dato</th>
<th class="alignleft">Rolle</th>
<th class="alignleft">Tidsrum</th>
<th></th>
<th class="alignleft">Bytte</th>
<th class="alignleft" colspan='2'></th>
</tr>
<tr class="rowA separator">
<td>
<h3>12/6</h3>
</td>
<td>Kundeservice</td>
<td>18:00 → 21:30 (3.5 t)</td>
<td style="max-width: 20em;"></td>
<td>
<a href="/shifts/ajax/popup/595390/" class="swap shiftpop">
Byt denne vagt
</a>
</td>
<td><a href="/shifts/detail/595390/">Detaljer</td>
<td>
</td>
</tr>
【问题讨论】:
-
如果可能的话,您能否分享 URL,或者您可以
find_allh2标签并从最后一个h2标签使用find_next提取表数据
标签: python python-3.x web-scraping beautifulsoup