# !/usr/bin/env python
# -*- coding:utf-8 -*-
import requests
import re
for i in range(1, 5):
print("pageNumber:%d" % i)
response = requests.get(
"https://www.qiushibaike.com/text/page/" + str(i) + "/",
verify=False) # Url拼接,range(1, 5),即选择前4页
# print(response.text) # 调试用代码
content = re.findall(r'<div class="content">\n<span>(.*?)</span>', response.text, re.S)
for j in range(0, len(content)):
print("jokerNumber:%d\n%s\n" % (j, content[j].strip("\n").replace("<br/>", "")))
先编写print(response.text),然后写出正则表达式
. 匹配除换行符 \n 之外的任何单字符
re.S 即为 . 并且包括换行符在内的任意字符(. 不包括换行符)
注意有个 <span 前面有个 \n
运行结果: