【发布时间】:2020-07-28 13:34:07
【问题描述】:
我是网络抓取和构建爬虫的新手,我开始在杂货网站上练习。
我已经尝试从网站抓取数据很长一段时间了,但无法通过超过三页,对于前三页,网站让我访问数据,但之后我没有得到任何响应甚至几秒钟我也停止在浏览器上得到响应。该网站使用 API 来获取所有数据,所以我什至不能使用 BeautifulSoup,我想使用 selenium,但也没有运气。 我正在使用 python 的 requests 库来获取要解析的数据和 json。该网站需要 post 方法来访问所有产品,因此我也发送 cookie、标题和参数,并在下一页也使用相同的 cookie 等。
如果有人遇到同样的情况并可能找到解决方法,我正在寻找一些一般性的回应。
谢谢。
【问题讨论】:
-
使用用户代理
-
在 Stack Overflow 上,我们回答有关编程的具体问题。要求一般建议的问题通常被认为太不清楚或太宽泛。
-
@JoshuaVarghese 我尝试过使用多个 user-agent 但仍然存在同样的问题
-
给我们链接
-
链接是:kroger.com/pl/fresh-fruits-vegetables/06我想从所有页面获取数据,我只成功了前几个
标签: python web-scraping python-requests web-crawler data-science