【发布时间】:2011-02-06 11:31:57
【问题描述】:
在尝试提取 html 页面的标题时,我总是使用以下正则表达式:
(?<=<title.*>)([\s\S]*)(?=</title>)
这将提取文档中标签之间的所有内容并忽略标签本身。但是,当尝试在 Python 中使用此正则表达式时,会引发以下异常:
Traceback (most recent call last):
File "test.py", line 21, in <module>
pattern = re.compile('(?<=<title.*>)([\s\S]*)(?=</title>)')
File "C:\Python31\lib\re.py", line 205, in compile
return _compile(pattern, flags)
File "C:\Python31\lib\re.py", line 273, in _compile
p = sre_compile.compile(pattern, flags) File
"C:\Python31\lib\sre_compile.py", line 495, in compile
code = _code(p, flags) File "C:\Python31\lib\sre_compile.py", line 480, in _code
_compile(code, p.data, flags) File "C:\Python31\lib\sre_compile.py", line 115, in _compile
raise error("look-behind requires fixed-width pattern")
sre_constants.error: look-behind requires fixed-width pattern
我使用的代码是:
pattern = re.compile('(?<=<title.*>)([\s\S]*)(?=</title>)')
m = pattern.search(f)
如果我做一些最小的调整,它会起作用:
pattern = re.compile('(?<=<title>)([\s\S]*)(?=</title>)')
m = pattern.search(f)
但是,这不会考虑由于某种原因具有属性或类似属性的潜在 html 标题。
有人知道解决此问题的好方法吗?任何提示都表示赞赏。
【问题讨论】:
-
是否有某些原因必须是零宽度断言?你可以只使用一个非捕获组吗?
-
虽然你不应该使用正则表达式来处理 HTML。为什么你完全使用环视而不是像
<title.*>([\s\S]*)</title>这样的东西来参加第一组的比赛?