【发布时间】:2017-07-11 14:25:26
【问题描述】:
这里对 BS4 比较陌生
我有以下 HTML(为简洁起见,URL 被截断):
<tbody>
<tr>
<th >Part1</th>
<td>
<a href="http://somewebpage.com">87</a>
</td>
<td>
<a href="http://somewebpage.com">7</a>
</td>
<th>Part2</th>
<td>
<a href="http://somewebpage.com"">68</a>
</td>........
使用以下内容:
`soup=BeautifulSoup(page['content'], "html.parser")
table = soup.find("table")
table_data = [[cell.text for cell in row("td")]
for row in table("tr")]
pprint(table_data) `
table_data 如下所示:
[[],
[u'87', u'7'],
[u'68'],
如何让“Part1”和“Part2”出现在同一个列表中??
很抱歉给您带来麻烦 ;-)
预期输出:
[[],
[u'Part1',u'87', u'7'],
[u'Part2', u'68'],
【问题讨论】:
-
请在您的问题上使用edit 链接添加预期输出
-
使用这个:
row(["td", "th"]) -
谢谢,但是我正在寻找以下输出(如果我第一次添加会有所帮助,抱歉)
-
@MattA 请分享完整的表结构。或至少几个表格行。
<tr>
标签: python beautifulsoup