【发布时间】:2010-10-08 11:34:26
【问题描述】:
我的项目需要我验证大量的 Web URL。这些 URL 是由我无法控制的非常不可靠的过程捕获的。所有 URL 都已经过正则表达式验证,并且已知格式正确。我也知道他们都有有效的 TLD
我希望能够快速过滤这些 URL,以确定其中哪些是不正确的。在这一点上,我不在乎页面上有什么内容 - 我只想尽快知道哪些页面无法访问(例如,产生 404 错误)。
鉴于其中有很多我不想下载整个页面,只是HTTP头然后从头的内容中很好地猜测该页面是否可能存在。
可以吗?
【问题讨论】:
-
请注意,这类问题不需要是社区 wiki。 CW 用于更多讨论的问题。如果您的理想答案是代码,就像这里的情况一样,您不必将其设为 wiki。