【发布时间】:2014-02-23 12:29:12
【问题描述】:
我有一组要估计其年龄的 URL。让我这样表述这个问题:
如何估计查询 URL 会成功的最早时间点(比如说 GET 请求的 HTTP 状态代码 200)?
我目前正在考虑的解决方案可能是 Google(或其他一些爬虫)有一些(公开可用的)方法来提供他们第一次访问该 URL 时的时间戳(最好是 API)。
我知道如何获取 Google 缓存版本的年龄,例如:webcache.googleusercontent.com/search?q=cache:stackoverflow.com。但是,因为缓存的版本更新比较频繁,所以这不是很有用。
【问题讨论】:
-
这对网络分析很有用。
-
什么意思? “网络分析”对我来说并不是一个真正有意义的短语。您是否正在尝试完成一项特定任务? IMO,这样的日期/年龄并不是很有意义。这是某种“互联网使用期限”衡量标准吗?
-
唯一的 URL 索引日期对搜索引擎有意义。恕我直言,第一次 URL 查询的日期根本没有意义。我想你不会找到这样的信息。
-
@Oleg:你不觉得吗? Google 会存储他们首次抓取网页的时间戳?
-
@MattBall:是的,这是你可以做的一件事。但是,我的意图是简单地在页面的 content 上放置一个日期。如果您可以假设内容(或内容的特征)自首次发布以来没有更改,这将起作用。实际上,最好只要求页面的第一个缓存版本,但我认为仅提供日期的可能性就比整个页面更高。
标签: url caching web time web-crawler