【发布时间】:2021-08-27 18:07:56
【问题描述】:
我正在尝试抓取特定网站的子页面。我正在使用请求和 bs4。我将页面存储在用于循环的列表中。这些脚本适用于其他网站,所以我认为我的页面本身存在一些问题。我无法使用浏览器访问该页面,或者只能在有限的时间内(几秒钟)访问。我已经尝试了我所有的浏览器(Chrome、Firefox、Edge、Explorer)删除了所有 cookie 和其他浏览数据等...) 我正在使用标题:
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.76 Safari/537.36',
"Upgrade-Insecure-Requests": "1", "DNT": "1",
"Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8", "Accept-Language": "en-US,en;q=0.5",
"Accept-Encoding": "gzip, deflate"}
这是请求页面的代码:
cz_link= requests.get(cz_page,timeout=10, verify=False,headers=headers)
其中“cz_page”是列表中包含我要解析的页面的项目。
加载 5 或 6 个页面后,下一个页面将无法加载。
我试过“https://downforeveryoneorjustme.com/”来检查页面是否正常,结果是“只有我自己。”
无论我无法在浏览器中加载网站,是否有任何方法可以通过 python 请求访问页面?
我的下一个尝试是在启用 VPN 的情况下运行脚本,但我很好奇是否有其他解决方案,当我需要运行此脚本时,我无法一直使用 VPN。
谢谢!
【问题讨论】:
-
我也尝试了不同的 DNS 设置。
-
如果您还没有喜欢
from time import sleep,然后在循环期间或循环结束时不喜欢sleep(5),请尝试在循环之间延迟。
标签: html web-scraping beautifulsoup python-requests