【发布时间】:2014-05-07 07:49:39
【问题描述】:
我必须从一个复杂的 HTML 文档中读取,其中一个表没有 ID,并且每个表都有未定义数量的 tr 标签。我想在最后一个 <tr> 标签的 td 中打印文本。在解析树时,我找不到任何打印最后一个孩子的东西。
我要打印 4,4.1,4.2
<table border=0 bgcolor=#000000 cellspacing=1 width="100%"
<tr bgcolor="#FFFFFF">
<td>1</td>
<td>1.1</td>
<td>1.2</td>
</tr>
<tr bgcolor="#FFFFFF">
<td>2</td>
<td>2.1</td>
<td>2.2</td>
</tr>
<tr bgcolor="#FFFFFF">
<td>3</td>
<td>3.1</td>
<td>3.2</td>
</tr>
<tr bgcolor="#FFFFFF">
<td>4</td>
<td>4.1</td>
<td>4.2</td>
</tr>
这是我目前所拥有的:
from bs4 import BeautifulSoup
import urllib
sock = urllib.urlopen("someurl")
htmlread = sock.read()
soup = BeautifulSoup(htmlread)
tabledata = soup.find("table", {"border":"0", "bgcolor":"#000000", "cellspacing":"1", "width":"100%"})
other = tabledata.findAll("tr", {"bgcolor":"#FFFFFF"})
print other
【问题讨论】:
标签: python beautifulsoup html-table html-parsing