【问题标题】:Can we get IP banned even using Selenium?即使使用 Selenium,我们也可以禁止 IP 吗?
【发布时间】:2020-04-02 08:11:34
【问题描述】:

我正在使用Pythonscrape 页面。到目前为止,我没有任何问题。我为此目的使用Selenium,但我也确实听说人们在某些网站上被禁止IP。我没有面对那个。那些人使用beautifulsouplxmlrequests 库...

Selenium 感觉就像用户使用的是浏览器而不是机器人,但它是否也可以在某些网站IP 被禁止? 我还使用标题 user_agent 作为:

user_agent = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_3) AppleWebKit/537.36 (KHTML, like Gecko) ' \
                 'Chrome/80.0.3987.132 Safari/537.36'

【问题讨论】:

  • 是的。通常被禁止与您在一定时间内提出多少请求有关,与您使用什么媒介与网站交互无关。我收到了临时到全面的 IP 禁令。
  • 是的,你可以被封禁。其他抓取工具会动态更改其用户代理并使用不同的 IP 地址。在不严重限制网站功能的情况下,通常无法将抓取工具与普通用户区分开来。很多爬虫做网站渲染。更先进的抓取工具会雇用人员来解决验证码。这是你的爬虫有多先进、网站维护者愿意花费多少努力来对抗爬虫以及你想要限制诚实用户在网站上的用户体验的严重程度之间的平衡。
  • 如果您正在抓取,可能是因为您没有通过 API 获得该数据。如果它没有通过 API 提供给您,您可能不应该以自动方式访问它。即使网站的使用条款中没有明确说明(通常是这样),您也不应该期望抓取是一种稳定的数据收集方法。

标签: python python-3.x selenium web-scraping


【解决方案1】:

是的,这取决于您发送到网站的请求,通常虽然数据抓取网站可以让您使用用户代理被禁止,但如果没有设置,有些网站不会让您进入 如果您不想被禁止使用代理 IP。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2017-02-19
    • 2022-12-13
    • 1970-01-01
    • 2020-07-02
    • 1970-01-01
    • 2021-09-03
    • 2019-12-10
    • 1970-01-01
    相关资源
    最近更新 更多