【问题标题】:403 Forbidden with Java but not web browser?403禁止使用Java但不是Web浏览器?
【发布时间】:2012-11-20 04:15:37
【问题描述】:

我正在编写一个小型 Java 程序来获取给定 Google 搜索词的结果量。出于某种原因,在 Java 中我得到了 403 Forbidden,但我在 Web 浏览器中得到了正确的结果。代码:

import java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStreamReader;
import java.net.URL;


public class DataGetter {

    public static void main(String[] args) throws IOException {
        getResultAmount("test");
    }

    private static int getResultAmount(String query) throws IOException {
        BufferedReader r = new BufferedReader(new InputStreamReader(new URL("https://www.google.com/search?q=" + query).openConnection()
                .getInputStream()));
        String line;
        String src = "";
        while ((line = r.readLine()) != null) {
            src += line;
        }
        System.out.println(src);
        return 1;
    }

}

还有错误:

Exception in thread "main" java.io.IOException: Server returned HTTP response code: 403 for URL: https://www.google.com/search?q=test
    at sun.net.www.protocol.http.HttpURLConnection.getInputStream(Unknown Source)
    at sun.net.www.protocol.https.HttpsURLConnectionImpl.getInputStream(Unknown Source)
    at DataGetter.getResultAmount(DataGetter.java:15)
    at DataGetter.main(DataGetter.java:10)

为什么要这样做?

【问题讨论】:

  • @Perception 嗯...什么是 SSL 端点? (对不起,我对这种东西一无所知)
  • SSL(安全套接字层)是一种确保客户端和服务器之间来回传递的数据安全的方法。 SSL 端点是常规 URL,但使用 https 而不是 http。使用 SSL 比常规 http 更复杂,因为需要在客户端和服务器之间进行握手。在你的情况下这是不必要的,因为你可以使用谷歌的“普通”http端点(http;//www.google.com/search)
  • @Perception 如果我使用普通的 http:// 也会发生同样的事情
  • 将您正在使用的查询也添加到问题中。

标签: java http-status-code-403


【解决方案1】:

您只需要设置用户代理标头即可使其工作:

URLConnection connection = new URL("https://www.google.com/search?q=" + query).openConnection();
connection.setRequestProperty("User-Agent", "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.95 Safari/537.11");
connection.connect();

BufferedReader r  = new BufferedReader(new InputStreamReader(connection.getInputStream(), Charset.forName("UTF-8")));

StringBuilder sb = new StringBuilder();
String line;
while ((line = r.readLine()) != null) {
    sb.append(line);
}
System.out.println(sb.toString());

从您的异常堆栈跟踪中可以看出,SSL 已为您透明地处理。

虽然获取结果量并不是那么简单,但在此之后,您必须通过获取 cookie 并解析重定向令牌链接来假装自己是浏览器。

String cookie = connection.getHeaderField( "Set-Cookie").split(";")[0];
Pattern pattern = Pattern.compile("content=\\\"0;url=(.*?)\\\"");
Matcher m = pattern.matcher(response);
if( m.find() ) {
    String url = m.group(1);
    connection = new URL(url).openConnection();
    connection.setRequestProperty("User-Agent", "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.95 Safari/537.11");
    connection.setRequestProperty("Cookie", cookie );
    connection.connect();
    r  = new BufferedReader(new InputStreamReader(connection.getInputStream(), Charset.forName("UTF-8")));
    sb = new StringBuilder();
    while ((line = r.readLine()) != null) {
        sb.append(line);
    }
    response = sb.toString();
    pattern = Pattern.compile("<div id=\"resultStats\">About ([0-9,]+) results</div>");
    m = pattern.matcher(response);
    if( m.find() ) {
        long amount = Long.parseLong(m.group(1).replaceAll(",", ""));
        return amount;
    }

}

运行the full code 结果得到2930000000L

【讨论】:

  • 哥们,我欠你一桶啤酒,这真是完美解决我的问题!谷歌可以使用这种方法限制/限制你的结果吗?
  • @gudthing 节流是基于 ip 的,所以它不是关于方法,而是你是否改变你的 ip :-)
  • 我明白了!一个简单的路由器重启(用于 WAN 更改)将解决问题:)。再次感谢!!
  • connection.connect();将抛出异常“已经连接”
  • @Esailija 变量response 应该包含什么?
【解决方案2】:

对我来说,它通过添加标题来工作: “接受”:“*/*”

【讨论】:

  • 这对我有用,但我不确定它为什么有效。你能解释一下吗?
【解决方案3】:

您可能没有设置正确的标题。在浏览器中使用LiveHttpHeaders(或等效项)查看浏览器发送的标头,然后在您的代码中模拟它们。

【讨论】:

  • 我试过"https://www.google.com/search?q=" + query + "&amp;rlz=1C1RNNN_enUS371&amp;aq=f&amp;oq=" + query + "&amp;sugexp=chrome,mod=6&amp;sourceid=chrome&amp;ie=UTF-8",还是不行
  • @PicklishDoorknob 您添加了查询字符串参数,您没有更改标题。您可以在URLConnection 对象上使用.setRequestProperty() 设置标题
  • 这是一篇关于添加请求标头的 SO 文章:stackoverflow.com/questions/480153/…
【解决方案4】:

这是因为该网站使用 SSL。尝试使用 Jersey HTTP 客户端。您可能还需要了解一些有关 HTTPS 和证书的知识,但我认为 Jersey 可以设置为忽略与实际安全性相关的大部分细节。

【讨论】:

  • 不,它不是,它只是通过模拟@KevinDay 在他的回答中所说的浏览器http头来工作。
  • @Ben Brunk - 这里有一个很好的教训 - 在核心,所有的编程都是由一层又一层的额外抽象构建的。了解底层非常有用。使用像您描述的更高级别的客户端可能会起作用 - 但只是因为它正在进行低级别的调用,如果您选择的话,您自己可以进行。我永远不会忘记坐下来使用 telnet 客户端与 Web 服务器交互并手工制作 HTTP 请求对我来说是多么有启发性。干杯!
  • 实际上,我仍然不确定为什么该代码有效,因为您通常必须将站点的公共证书添加到本地 Java 密钥库才能像这样使用 SSL,即使使用 URLConnection 也是如此,所以有些东西不会'不要添加有关该 URL 的信息。另外,是什么让你认为我从未使用 telnet 连接到网站?我这样做是为了谋生,我经常忘记这个网站上有很多人是学生或业余程序员。我只是试着变得快乐。
  • 如果站点使用的证书具有到 CA 的信任链,该 CA 包含在它的 cacerts 信任库(位于 jdk\jre\lib\security)中,那么显式添加站点证书不是需要。
猜你喜欢
  • 1970-01-01
  • 2010-12-13
  • 1970-01-01
  • 1970-01-01
  • 2022-11-21
  • 1970-01-01
  • 2014-08-03
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多