【发布时间】:2013-02-28 09:49:02
【问题描述】:
嗯,我被要求监视大约 10-20 个站点,以了解它们的任何变化。
我一直在尝试获取这些站点的标题信息并使用此方法检查它们的上次更新时间。
url = new URL( "http://www.wikipedia.org/" );
HttpURLConnection httpConnection = (HttpURLConnection)url.openConnection();
System.out.println( "Connection established" );
httpConnection.setRequestMethod( "HEAD" );
httpConnection.connect();
long lastModified = httpConnection.getLastModified();
if( lastModified != 0 ) {
System.out.println( new Date( lastModified ) );
} else {
System.out.println( "Last-Modified not returned" );
}
httpConnection.disconnect();`
但是这种方法的问题是一些网站(很多)没有放完整的标题信息。我也想知道这是向服务器发出头部请求的正确方法还是我错过了什么???
还有其他方法可以监控站点吗?
我一直在将整个站点转换为 md5 值,然后监控站点,但是这种方法太敏感了,即使是最小的也会通知我变化。
【问题讨论】:
标签: java web-crawler