Java web-scraper 看到验证码答案

【问题标题】：Java web-scraper sees captchaJava web-scraper 看到验证码
【发布时间】：2013-05-22 07:47:18
【问题描述】：

我用 JSoup 为 Java 中的 Google Scholar 制作了一个网络爬虫。刮板在 Scholar 中搜索 DOI 并找到本文的引文。研究需要这些数据。

但是，刮板仅适用于第一个请求。 .. 之后，爬虫会在 Scholar 网站上遇到验证码。

但是，当我在浏览器 (Chrome) 中打开网站时，Google Scholar 会正常打开。

这怎么可能？所有请求都来自同一个 IP 地址！到目前为止，我已经尝试了以下选项：

当我分析 Chrome 向 Scholar 发出的请求时，我发现 cookie 与某些会话 ID 一起使用。可能这就是 Chrome 请求未被阻止的原因。是否可以将此 cookie 用于通过 JSoup 发出的请求？

谢谢！

【问题讨论】：

【解决方案1】：

我想到了三件事：

您没有在请求之间保存 cookie。您的第一个请求应该保存 cookie 并将其传递给服务器以进行下一个请求（设置 Referer 标头也不会受到伤害）。有一个例子here。
如果 Google 很狡猾，他们会发现您的第一个请求没有在页面上加载任何 css/js/images。这肯定表明您是机器人。
加载后，Javascript 会在页面中执行某些操作。

我认为第一个是最有可能的选择。您应该尝试将您在 Chrome 请求中看到的尽可能多的标头复制到您的 java 代码中。

【讨论】：