【发布时间】:2020-04-02 08:11:34
【问题描述】:
我正在使用Python 到scrape 页面。到目前为止,我没有任何问题。我为此目的使用Selenium,但我也确实听说人们在某些网站上被禁止IP。我没有面对那个。那些人使用beautifulsoup、lxml 和requests 库...
Selenium 感觉就像用户使用的是浏览器而不是机器人,但它是否也可以在某些网站IP 被禁止? 我还使用标题 user_agent 作为:
user_agent = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_3) AppleWebKit/537.36 (KHTML, like Gecko) ' \
'Chrome/80.0.3987.132 Safari/537.36'
【问题讨论】:
-
是的。通常被禁止与您在一定时间内提出多少请求有关,与您使用什么媒介与网站交互无关。我收到了临时到全面的 IP 禁令。
-
是的,你可以被封禁。其他抓取工具会动态更改其用户代理并使用不同的 IP 地址。在不严重限制网站功能的情况下,通常无法将抓取工具与普通用户区分开来。很多爬虫做网站渲染。更先进的抓取工具会雇用人员来解决验证码。这是你的爬虫有多先进、网站维护者愿意花费多少努力来对抗爬虫以及你想要限制诚实用户在网站上的用户体验的严重程度之间的平衡。
-
如果您正在抓取,可能是因为您没有通过 API 获得该数据。如果它没有通过 API 提供给您,您可能不应该以自动方式访问它。即使网站的使用条款中没有明确说明(通常是这样),您也不应该期望抓取是一种稳定的数据收集方法。
标签: python python-3.x selenium web-scraping