【发布时间】:2016-08-29 17:50:45
【问题描述】:
我需要从 HTML 页面中提取表格中结构化的数据。数据结构都是这样的:
<td class="def">
<div><b>First Name:</b></div>
</td>
<td class="def">Jhon
</td>
<td class="def">
<div><b>Last Name:</b></div>
</td>
<td class="def">Smith
</td>
我需要单独提取数据。例如
print first_name
>> Jhon
print last_name
>> Smith
一个简单的soup.find('td', {'class':'def'}) 将不起作用,因为它会匹配所有内容(名字:、Jhon、姓氏:、史密斯)。
知道如何查找特定数据吗? here 发布了同样的问题,但给出的解决方案根本不起作用......
【问题讨论】:
-
查看该链接上的第二个答案
标签: html regex beautifulsoup