【发布时间】:2011-03-12 04:32:43
【问题描述】:
我正在创建一个(行为良好的)网络蜘蛛,我注意到一些服务器导致 Apache HttpClient 给我一个 SocketException - 特别是:
java.net.SocketException: Connection reset
导致这种情况的代码是:
// Execute the request
HttpResponse response;
try {
response = httpclient.execute(httpget); //httpclient is of type HttpClient
} catch (NullPointerException e) {
return;//deep down in apache http sometimes throws a null pointer...
}
对于大多数服务器来说,这很好。但是对于其他人,它会立即抛出一个 SocketException。
导致立即 SocketException 的站点示例:http://www.bhphotovideo.com/
效果很好(大多数网站也是如此):http://www.google.com/
现在,如您所见,www.bhphotovideo.com 可以在网络浏览器中正常加载。当我不使用 Apache 的 HTTP 客户端时,它也可以正常加载。 (这样的代码:)
HttpURLConnection c = (HttpURLConnection)url.openConnection();
BufferedInputStream in = new BufferedInputStream(c.getInputStream());
Reader r = new InputStreamReader(in);
int i;
while ((i = r.read()) != -1) {
source.append((char) i);
}
那么,我为什么不直接使用这段代码呢?我需要使用 Apache 的 HTTP 客户端中的一些关键功能。
有谁知道是什么原因导致某些服务器导致此异常?
研究至今:
问题出现在我的本地 Mac 开发机器和 AWS EC2 实例上,因此它不是本地防火墙。
似乎错误不是由远程机器引起的,因为异常没有说“by peer”
此堆栈溢出似乎与 java.net.SocketException: Connection reset 相关,但答案并未说明为什么仅从 Apache HTTP 客户端而不是其他方法会发生这种情况。
额外问题:我正在使用这个系统进行大量的爬行。除了 Apache HTTP 客户端之外,通常还有更好的 Java 类吗?我发现了许多问题(例如我必须在上面的代码中捕获的 NullPointerException)。似乎 HTTPClient 对服务器通信非常挑剔——对于一个不能在服务器不运行时中断的爬虫来说,比我想要的更挑剔。
谢谢大家!
解决方案
老实说,我没有完美的解决方案,但它确实有效,所以对我来说已经足够了。
正如下面的 oleg 所指出的,Bixo 创建了一个爬虫,可以自定义 HttpClient 以对服务器更加宽容。为了“解决”这个问题而不是修复它,我在这里使用了 Bixo 提供的 SimpleHttpFetcher: (链接已删除 - 所以认为我是垃圾邮件发送者,所以你必须自己用谷歌搜索)
SimpleHttpFetcher fetch = new SimpleHttpFetcher(new UserAgent("botname","contact@yourcompany.com","ENTER URL"));
try {
FetchedResult result = fetch.fetch("ENTER URL");
System.out.println(new String(result.getContent()));
} catch (BaseFetchException e) {
e.printStackTrace();
}
这个解决方案的缺点是 Bixo 有很多依赖项——所以这对每个人来说可能不是一个好的解决方法。但是,您始终可以通过他们对 DefaultHttpClient 的使用来了解他们如何实例化它以使其工作。我决定使用整个课程,因为它为我处理了一些事情,例如自动重定向跟踪(并报告最终目标网址)很有帮助。
感谢大家的帮助。
编辑:TinyBixo
大家好。所以,我喜欢 Bixo 的工作方式,但不喜欢它有这么多依赖项(包括所有 Hadoop)。因此,我创建了一个大大简化的 Bixo,没有所有依赖项。如果您遇到上述问题,我建议您使用它(如果您想更新它,请随时提出拉取请求!)
【问题讨论】:
-
你是如何实例化 HttpClient 的?
-
如果它只是偶尔发生,可能是您需要在完成后关闭响应以确保返回所有资源。这可能会泄漏连接并最终导致像您遇到的问题。
标签: java apache sockets web-crawler httpclient