【发布时间】:2020-04-05 15:53:39
【问题描述】:
我正在进行一个数据科学项目,我需要从网站上抓取一些数据。 不幸的是,到目前为止我尝试过的所有方法都因被网页检测到而失败:
- 使用随机代理或伪造谷歌机器人的请求
- 带有我的网络浏览器标头的请求
- 硒
- 爬虫 API
- 在后续抓取之间使用较长的等待时间
来自目标网页的机器人是: 用户代理:Mediapartners-Google 不允许: 用户代理: * 禁止:/搜索 禁止:/automoto/search 禁止:/property/search 禁止:/static_html/promo/esales/phones/ 禁止:/my/services 用户代理:Twitterbot 禁止:
我试图以某种方式设置 puppeteer,但我无法弄清楚..
我觉得奇怪的是,没有一种方法可以模拟手动代码检查,因此无法在不被识别为机器人的情况下提取信息!
你有什么建议吗?获取这些数据对于交付项目是绝对必要的。我不需要上述网络自动化工具提供的速度。
【问题讨论】:
-
这听起来像那个网站的管理员不想你刮它。这可能在他们的 EULA 或类似内容中。尊重他们的意愿。
标签: python web-scraping dataset data-science