【发布时间】:2014-03-18 11:56:23
【问题描述】:
我正在尝试从评论页面抓取用户对 imdb 电影的评分: (我数据库中的电影数量约为 600,000)。我使用jsoup解析页面如下:(对不起,我没有在这里写完整的代码,因为它太长了)
try {
//connecting to mysql db
ResultSet res = st
.executeQuery("SELECT id, title, production_year " +
"FROM title " +
"WHERE kind_id =1 " +
"LIMIT 0 , 100000");
while (res.next()){
.......
.......
String baseUrl = "http://www.imdb.com/search/title?release_date=" +
""+year+","+year+"&title="+movieName+"" +
"&title_type=feature,short,documentary,unknown";
Document doc = Jsoup.connect(baseUrl)
.userAgent("Mozilla")
.timeout(0).get();
.....
.....
//insert ratings into database
...
我测试了前 100 部,然后是前 500 部以及我数据库中的前 2000 部电影,它运行良好。但问题是,当我测试 100,000 部电影时,我得到了这个错误:
org.jsoup.HttpStatusException: HTTP error fetching URL. Status=500, URL=http://www.imdb.com/search/title?release_date=1899,1899&title='Columbia'%20Close%20to%20the%20Wind&title_type=feature,short,documentary,unknown
at org.jsoup.helper.HttpConnection$Response.execute(HttpConnection.java:449)
at org.jsoup.helper.HttpConnection$Response.execute(HttpConnection.java:424)
at org.jsoup.helper.HttpConnection.execute(HttpConnection.java:178)
at org.jsoup.helper.HttpConnection.get(HttpConnection.java:167)
at imdb.main(imdb.java:47)
我搜索了很多这个错误,我发现它是一个服务器端错误,错误号为 5xx。
然后我决定设置一个条件,当连接失败时,它会再尝试 2 次,然后如果仍然无法连接,则不会停止并转到下一个 url。因为我是java新手,所以我尝试搜索类似的问题并在stackoverflow中阅读这些答案:
Exceptions while I am extracting data from a Web site
Jsoup error handling when couldn't connect to website
Handling connection errors and JSoup
但是,当我按照他们的建议尝试使用“Connection.Response”时,它告诉我“Connection.Response 无法解析为一种类型”。
如果有人可以帮助我,我将不胜感激,因为我只是一个新手,我知道这可能很简单,但我不知道如何解决它。
好吧,我可以通过添加“ignoreHttpError(true)”来修复 http 错误状态 500,如下所示:
org.jsoup.Connection con = Jsoup.connect(baseUrl).userAgent("Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/535.21 (KHTML, like Gecko) Chrome/19.0.1042.0 Safari/535.21");
con.timeout(180000).ignoreHttpErrors(true).followRedirects(true);
Response resp = con.execute();
Document doc = null;
if (resp.statusCode() == 200) {
doc = con.get();
......
希望它可以帮助那些有同样错误的人。
但是,在爬取了 22907 部电影的评论页面(大约 12 小时)后,我又遇到了一个错误:
“读取超时”。
感谢任何解决此错误的建议。
【问题讨论】:
-
org.jsoup.Connection.Response呢? -
我试过了,但我收到了这个错误:在 java.net.AbstractPlainSocketImpl.doConnect(AbstractPlainSocketImpl.java:339) 的 java.net.PlainSocketImpl.socketConnect(Native Method) 处被拒绝连接
-
我试过了,它得到了输出:
Connection.Response con = Jsoup .connect( "http://www.imdb.com/search/title?release_date=1899,1899&title='Columbia'%20Close%20to%20the%20Wind&title_type=feature,short,documentary,unknown") .userAgent( "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/535.21 (KHTML, like Gecko) Chrome/19.0.1042.0 Safari/535.21") .timeout(10000).execute(); System.out.println(con.body()); -
@PopoFibo:对不起,错误是:HTTP error fetching URL。状态=403,URL=imdb.com/search/… 在 org.jsoup.helper.HttpConnection$Response.execute(HttpConnection.java:449) 在 org.jsoup.helper.HttpConnection$Response.execute(HttpConnection.java:424) 在 org. jsoup.helper.HttpConnection.execute(HttpConnection.java:178) at org.jsoup.helper.HttpConnection.get(HttpConnection.java:167)
-
403 表示禁止,某些站点不允许机器人,因此您必须在获取响应时使用
.useragent()。尝试复制我上面评论中的代码,看看您是否在控制台中看到任何类似 javascript 或 html 的代码,这意味着连接成功
标签: java web-crawler jsoup http-error