halfsmart

python 匹配网页标签

在爬虫的时候需要匹配某一类型的标签,如果网页不是很复杂的话,可以使用下面的方法

import re

ret = re.search("<(?P<tag_name>\w+)>\w+</(?P=tag_name)>","<h1>hello</h1>")
#还可以在分组中利用?<name>的形式给分组起名字
#获取的匹配结果可以直接用group(\'名字\')拿到对应的值
print(ret.group(\'tag_name\'))  #结果 :h1
print(ret.group())  #结果 :<h1>hello</h1>

分类:

技术点:

相关文章: