【问题标题】:Estimating the age of a URL估计 URL 的年龄
【发布时间】:2014-02-23 12:29:12
【问题描述】:

我有一组要估计其年龄的 URL。让我这样表述这个问题:

如何估计查询 URL 会成功的最早时间点(比如说 GET 请求的 HTTP 状态代码 200)?

我目前正在考虑的解决方案可能是 Google(或其他一些爬虫)有一些(公开可用的)方法来提供他们第一次访问该 URL 时的时间戳(最好是 API)。

我知道如何获取 Google 缓存版本的年龄,例如:webcache.googleusercontent.com/search?q=cache:stackoverflow.com。但是,因为缓存的版本更新比较频繁,所以这不是很有用。

【问题讨论】:

  • 这对网络分析很有用。
  • 什么意思? “网络分析”对我来说并不是一个真正有意义的短语。您是否正在尝试完成一项特定任务? IMO,这样的日期/年龄并不是很有意义。这是某种“互联网使用期限”衡量标准吗?
  • 唯一的 URL 索引日期对搜索引擎有意义。恕我直言,第一次 URL 查询的日期根本没有意义。我想你不会找到这样的信息。
  • @Oleg:你不觉得吗? Google 会存储他们首次抓取网页的时间戳?
  • @MattBall:是的,这是你可以做的一件事。但是,我的意图是简单地在页面的 content 上放置一个日期。如果您可以假设内容(或内容的特征)自首次发布以来没有更改,这将起作用。实际上,最好只要求页面的第一个缓存版本,但我认为仅提供日期的可能性就比整个页面更高。

标签: url caching web time web-crawler


【解决方案1】:

不可能以可靠的方式。 (好吧,除非您拥有您感兴趣的服务器的所有访问日志文件。)

Internet Archive 的 Wayback Machine 显示了它首次抓取网页的情况。当然,他们的机器人第一次找到并抓取页面可能需要一些时间,因此大多数被索引的页面可能要旧得多。

另请注意:一旦爬虫被阻止(例如,通过 robots.txt),历史记录/副本将被删除 (from the FAQ):

如果某个网址已根据直接所有者的请求从归档中排除,则该排除具有追溯性和永久性。

【讨论】:

    猜你喜欢
    • 2012-09-22
    • 1970-01-01
    • 1970-01-01
    • 2012-03-26
    • 1970-01-01
    • 2020-12-28
    • 2016-03-20
    • 2011-04-16
    • 1970-01-01
    相关资源
    最近更新 更多