【问题标题】:.getResponse Code Throwing IOException on a Valid URL.getResponse 代码在有效 URL 上引发 IOException
【发布时间】:2014-04-16 03:15:20
【问题描述】:

我正在构建一个网络爬虫,并且有一种方法可以检查是否存在错误链接。在某一时刻,我试图获取 HTTP 响应代码以确定它是否有效。尽管给它一个有效的 URL(在浏览器中打开它就好了)它仍然返回它是无效的。代码如下:

public static boolean isBrokenLink(URL baseURL, String theHREF) {
        boolean isBroken = false;
        if (baseURL == null) {
            try {
                baseURL = new URL("HTTP", "cs.uwec.edu/~stevende/cs145testpages/", theHREF);
                System.out.println(baseURL);
            } catch (MalformedURLException e) {
                isBroken = true;
                //e.printStackTrace();
            }
        }
        try {
            URLConnection con = baseURL.openConnection();
            HttpURLConnection httpProtocol = (HttpURLConnection) con;
            System.out.println(httpProtocol.getResponseCode());
            if (httpProtocol.getResponseCode() != 200 && httpProtocol.getResponseCode() == -1) {
                isBroken = true;
            }
        } catch (IOException e) {
            isBroken = true;
            e.printStackTrace();
        }

        return isBroken;
    }   
            }

here 是我传递给它的 URL。 isBroken 是返回的布尔值。我将 baseURL 作为 null 并将 HREF 作为相对链接 (page2.htm)。从字符串创建 URL 后,我将其打印出来。谢谢你的帮助! 这是错误:

java.net.UnknownHostException: cs.uwec.edu/~stevende/cs145testpages/
    at java.net.AbstractPlainSocketImpl.connect(AbstractPlainSocketImpl.java:178)
    at java.net.SocksSocketImpl.connect(SocksSocketImpl.java:392)
    at java.net.Socket.connect(Socket.java:579)
    at java.net.Socket.connect(Socket.java:528)
    at sun.net.NetworkClient.doConnect(NetworkClient.java:180)
    at sun.net.www.http.HttpClient.openServer(HttpClient.java:432)
    at sun.net.www.http.HttpClient.openServer(HttpClient.java:527)
    at sun.net.www.http.HttpClient.<init>(HttpClient.java:211)
    at sun.net.www.http.HttpClient.New(HttpClient.java:308)
    at sun.net.www.http.HttpClient.New(HttpClient.java:326)
    at sun.net.www.protocol.http.HttpURLConnection.getNewHttpClient(HttpURLConnection.java:996)
    at sun.net.www.protocol.http.HttpURLConnection.plainConnect(HttpURLConnection.java:932)
    at sun.net.www.protocol.http.HttpURLConnection.connect(HttpURLConnection.java:850)
    at sun.net.www.protocol.http.HttpURLConnection.getInputStream(HttpURLConnection.java:1300)
    at java.net.HttpURLConnection.getResponseCode(HttpURLConnection.java:468)
    at edu.uwec.cs.carpenne.webcrawler.Webcrawler.isBrokenLink(Webcrawler.java:106)
    at edu.uwec.cs.carpenne.webcrawler.Webcrawler.main(Webcrawler.java:181)

【问题讨论】:

  • 可能想要发布 IOException 堆栈跟踪。
  • 让我们看看你是如何创建你的baseURL的。

标签: java http methods web-crawler httpresponse


【解决方案1】:

异常告诉我们,它使用主机名和本地部分作为(未知)主机。这看起来像您错误地构建了 URL。也许您忘记使用http:// 前缀或使用了错误的getter?你可以通过调用baseURL.getHost()baseURL.getPath()baseURL.getProtocol()来调试它,看看它是否返回cs.uwec.edu/~steve...http

我刚刚注意到你用new URL("HTTP", "cs.uwec.edu/~stevende/cs145testpages/", theHREF) 添加了baseURL 这是错误的,你需要使用new URL("http", "cs.uwec.edu", 80, "/~stevende/cs145testpages/#"+theHREF)。但是,您通常可以跳过锚点/引用,因为它不会传输到服务器。

您也可以使用单参数构造函数new URL("http://cs.uwec.edu//~stevende/cs145testpages/")

【讨论】:

  • 您的解决方案奏效了!我仍然很困惑为什么我的错了。我遵循了我在 API 中找到的内容。
  • URL的构造方式有多种,需要注意参数的命名方式。如果第二个字符串参数被命名为“host”,你只能传入一个主机名。原因是在内部,一个 URL 不是一个字符串,而是多个字段(其中一个是主机名)。最简单的方法是使用new URL("http://host/path"),因为它会尝试解析字符串并将其分开。只有这个版本会拆分段(通常是正确的)。如果变量中有不同的组件,最好直接指定它们以避免解析。
猜你喜欢
  • 1970-01-01
  • 2019-01-30
  • 1970-01-01
  • 2014-01-16
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多