【发布时间】:2015-02-24 05:21:26
【问题描述】:
我有一个看起来像这样的 html 页面
<tr>
<td align=left>
<a href="history/2c0b65635b3ac68a4d53b89521216d26.html">
<img src="/images/page.gif" border="0" title="полная информация о документе" width=20 height=20>
</a>
<a href="history/2c0b65635b3ac68a4d53b89521216d26_0.html" title="C.">Th</a>
</td>
</tr>
<tr align=right>
<td align=left>
<a href="marketing/3c0a65635b2bc68b5c43b88421306c37.html">
<img src="/images/page.gif" border="0" title="полная информация о документе" width=20 height=20>
</a>
<a href="marketing/3c0a65635b2bc68b5c43b88421306c37_0.html" title="b">aa</a>
</td>
</tr>
我需要获取文本
历史/2c0b65635b3ac68a4d53b89521216d26.html 营销/3c0a65635b2bc68b5c43b88421306c37.html
我用python写了一个使用正则表达式的脚本
import re
a = re.compile("[0-9 a-z]{0,15}/[0-9 a-f]{32}.html")
print(a.match(s))
其中s 的值是上面的html 页面。然而,当我使用这个脚本时,我得到了"None"。我哪里做错了?
【问题讨论】:
-
尝试使用 BeautifulSoup 代替正则表达式。
标签: python html regex html-parsing