【问题标题】:Solving reCAPTCHA with scrapy用 scrapy 解决 reCAPTCHA
【发布时间】:2019-07-27 20:36:28
【问题描述】:

我正在使用 scrapy 抓取一些网页。但在某些时候,谷歌 reCAPTCHA 会挡道。

如果浏览器(在这种情况下为scrapy)没有运行的 javascript,Google reCAPTCHA 甚至不会加载。它只是要求您启用您的 javascript 来查看和解决 reCAPTCHA。

所以,我认为,如果我能找到一种方法在它发生时向用户显示这个 reCAPTCHA,用户可以手动解决这个问题,scrapy 会继续爬行,但我无法用真正的 javascript 中断这个过程.此时我可以使用什么?是否可以将硒与刮痧混合?

【问题讨论】:

标签: python selenium scrapy recaptcha


【解决方案1】:

听起来你想要构建一些-自动的东西。 Scrapy 对此并不好,正如你所说,它无法处理 javascript。

我建议尝试硒。它启动一个完整的 chrome 浏览器并且是可编写脚本的。见https://selenium-python.readthedocs.io/

您可以停止脚本和某些事件(例如 reCAPTCHA),然后让用户接管。

【讨论】:

  • 对我来说没有用。是的,你是对的。我想要一些半自动的东西,但例如,这项服务将通过网站为客户运行。 Selenium 会使事情变得更慢,即使我与客户端 Web 服务器和 selenium 建立连接。所以,我必须使用像scrapy这样的东西。
  • 理想情况下,浏览器 (selenium/puppeteer/playwright/...) 仅在找到验证码时使用,类似于 jdownloader 验证码弹出窗口。和/或使用像 deathbycaptcha 这样的验证码求解器。但我还没有找到一个实现。相关:How to control the flow of requests in scrapy when handling Google recaptcha v2 with deathbycaptcha service?
猜你喜欢
  • 1970-01-01
  • 2021-10-13
  • 2016-12-03
  • 2019-08-10
  • 2021-06-04
  • 2020-07-21
  • 1970-01-01
  • 2023-03-27
  • 1970-01-01
相关资源
最近更新 更多