【发布时间】:2021-10-15 07:41:15
【问题描述】:
从过去几天开始,我试图抓取一个网站,但无法这样做。由于其 cloudflare 安全性“正在检查您的浏览器”。
我在 python 中使用 selenium 尝试过,请求但无法实现网站的主要内容。
有什么方法/方法可以让我们抓取使用 cloudflare 安全的网站吗?
请告诉我。谢谢 这是我要抓取的link
【问题讨论】:
-
在你的 selenium 脚本中,等待脚本大约 20 秒,直到 cloudflare 警告消失并出现内容。
-
嗨@Pavindu,谢谢你提出一种我试过的方法,但我无法实现需要抓取的内容页面,这是link你能检查一下吗,让我看看知道吗?
-
您能否输入您尝试过的代码?当我在浏览器中访问该站点时,我没有得到 cloudflare 页面。
-
另外,您在抓取网站内容时是否发送用户代理标头?如果您的请求中没有用户代理标头,则可能会激活此类安全检查。您可以使用 python 包为您的请求自动生成用户代理标头。
-
但是当我们使用 Selenium 线或 Selenium 时,我们不会发送任何用户代理,对吗? ,在使用请求时我们发送它!是的,我确实发送了用户代理和使用请求模块时所需的所有参数。
标签: python selenium selenium-webdriver beautifulsoup cloudflare