【发布时间】:2010-11-22 13:53:10
【问题描述】:
我想要一个正则表达式来从 HTML 页面中提取标题。目前我有这个:
title = re.search('<title>.*</title>', html, re.IGNORECASE).group()
if title:
title = title.replace('<title>', '').replace('</title>', '')
是否有正则表达式可以只提取
【问题讨论】:
-
哇,我不敢相信所有调用解析整个 HTML 页面的响应只是为了提取一个简单的标题。多么矫枉过正!
-
问题标题说明了一切 - 给出的示例 happens 是 HTML,但一般问题是......一般。
标签: python html regex html-content-extraction