【发布时间】:2013-07-19 21:40:13
【问题描述】:
这是我的代码:
a='<title>aaa</title><title>aaa2</title><title>aaa3</title>'
import re
re.findall(r'<(title)>(.*)<(/title)>', a)
结果是:
[('title', 'aaa</title><title>aaa2</title><title>aaa3', '/title')]
如果我曾经设计过一个爬虫来获取网站的标题,我最终可能会得到类似这样的东西,而不是网站的标题。
我的问题是,如何将findall 限制为单个<title></title>?
【问题讨论】:
-
你可以使用 BeautifulSoup 代替 Regex 来解析 HTML
标签: python regex python-2.7 findall