【问题标题】:Java - How To Check An URL Is Really Exist Which Has It't Own Error Page?Java - 如何检查一个没有错误页面的 URL 是否真的存在?
【发布时间】:2014-05-22 06:41:45
【问题描述】:

那里

我正在检查一系列 URL,例如 http://www.example.com/XX/content/1~100000.html 是否存在。但是该网站没有自己的404句柄页面。每个 url 都返回 200,即使它根本不存在。我在命令行中尝试了 curl。如下图所示: http://xxxx">

我也使用 HttpURLConnection.setFollowRedirects(false);但它没有用。

还有办法解决这个问题吗?提前致谢!

【问题讨论】:

    标签: java http http-status-code-404


    【解决方案1】:

    这些通常称为Soft 404s。检测它们的唯一方法是检查内容,因为页眉不表示任何错误。

    如果您想构建一些通用的东西,那么也许您可以尝试获取一个您确定不存在的页面作为您的参考,然后将您抓取的任何其他页面与该页面进行比较以确定它是否是错误的页面与否(您可能需要使用某种不敏感的比较算法,因为页面内容可能会在不存在的不同页面之间略有变化)。不过,如果您要抓取随机网站,则很容易出错。

    【讨论】:

      【解决方案2】:

      您可以尝试查看页面内容来识别错误页面。可能有一些文字表明这是错误页面。

      【讨论】:

      • 但这只是最后的手段。
      • @Java1 抱歉...我还不能发表评论。
      • @GregorKoukkoullis 我猜很快就会有一天。
      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 2019-08-11
      • 2015-11-13
      • 2017-07-03
      • 2012-04-07
      • 1970-01-01
      • 1970-01-01
      • 2011-04-05
      相关资源
      最近更新 更多