【发布时间】:2011-05-07 11:04:35
【问题描述】:
我有一个带有表格的 html 文件(它很大,所以只给出了示例代码)。我想检索表中的值。我尝试了 python 中的 HTMLParser 库。
我开始像下面这样编码。然后我发现属性“类”与系统定义的关键字相同。所以它给了我错误。
class MyHTMLParser(HTMLParser):
def handle_starttag(self, tag, attrs):
if tag == 'tr':
for class in attrs:
if class == 'Table_row'
p = MyHTMLParser()
p.feed(ht)
表格的 HTML 代码
<table class="Table_rows" cellspacing="0" rules="all" border="1" id="MyDataGrid" style="width:700px;border-collapse:collapse;">
<tr class="Table_Heading">
<td>STATION CODE</td><td>STATION NAME</td><td>SCHEDULED ARRIVAL</td><td>SCHEDULED DEPARTURE</td><td>ACTUAL/ EXPECTED ARRIVAL</td><td>ACTUAL/ EXPECTED DEPARTURE</td>
</tr><tr class="Table_row">
<td>TVC </td><td style="width:160px;">ORIGON</td><td>Starting Station </td><td>05:00, 07 May 2011</td><td>Starting Station</td><td>05:00, 07 May 2011</td>
</tr><tr class="alternat_table_row">
<td>TVP </td><td>NEY YORK</td><td>05:04, 07 May 2011</td><td>05:05, 07 May 2011</td><td>05:04, 07 May 2011</td><td>05:05, 07 May 2011</td>
</tr>
</table>
更新
如何获取标签之间的数据?
【问题讨论】:
-
我写了一个小而简单的 HTML 表格解析器,不需要任何外部模块:github.com/schmijos/html-table-parser-python3/blob/master/…
标签: python html parsing html-parsing