huay
import requests,re
url=\'https://movie.douban.com/top250\'
urlcontent=requests.get(url).text
#正则
\'\'\'
实现步骤:
1,先逐个匹配字段
2.对各个字段正则进行拼接
3,实现整体抓取
id:.*?(\d+)</em.*?
title:\'title.*?>(.*?)<\'
rat:.*?average.*?(\d+.\d).*?
comment_num:.*?(\d+)人.*
\'\'\'
com=re.compile(\'.*?(\d+)</em.*?title.*?>(.*?)<.*?average.*?(\d+.\d).*?(\d+)人\',re.S)
ret=com.finditer(urlcontent)
for i in ret:
    print({\'id\':i.group(1),\'title\':i.group(2),\'rat\':i.group(3),\'comment_num\':i.group(4)})

 

分类:

技术点:

相关文章: