估计 URL 的年龄答案

【问题标题】：Estimating the age of a URL估计 URL 的年龄
【发布时间】：2014-02-23 12:29:12
【问题描述】：

我有一组要估计其年龄的 URL。让我这样表述这个问题：

如何估计查询 URL 会成功的最早时间点（比如说 GET 请求的 HTTP 状态代码 200）？

我目前正在考虑的解决方案可能是 Google（或其他一些爬虫）有一些（公开可用的）方法来提供他们第一次访问该 URL 时的时间戳（最好是 API）。

我知道如何获取 Google 缓存版本的年龄，例如：webcache.googleusercontent.com/search?q=cache:stackoverflow.com。但是，因为缓存的版本更新比较频繁，所以这不是很有用。

【问题讨论】：

这对网络分析很有用。
什么意思？ “网络分析”对我来说并不是一个真正有意义的短语。您是否正在尝试完成一项特定任务？ IMO，这样的日期/年龄并不是很有意义。这是某种“互联网使用期限”衡量标准吗？
唯一的 URL 索引日期对搜索引擎有意义。恕我直言，第一次 URL 查询的日期根本没有意义。我想你不会找到这样的信息。
@Oleg：你不觉得吗？ Google 会存储他们首次抓取网页的时间戳？
@MattBall：是的，这是你可以做的一件事。但是，我的意图是简单地在页面的 content 上放置一个日期。如果您可以假设内容（或内容的特征）自首次发布以来没有更改，这将起作用。实际上，最好只要求页面的第一个缓存版本，但我认为仅提供日期的可能性就比整个页面更高。

【解决方案1】：

不可能以可靠的方式。（好吧，除非您拥有您感兴趣的服务器的所有访问日志文件。）

Internet Archive 的 Wayback Machine 显示了它首次抓取网页的情况。当然，他们的机器人第一次找到并抓取页面可能需要一些时间，因此大多数被索引的页面可能要旧得多。

另请注意：一旦爬虫被阻止（例如，通过 robots.txt），历史记录/副本将被删除 (from the FAQ)：

如果某个网址已根据直接所有者的请求从归档中排除，则该排除具有追溯性和永久性。

【讨论】：