【问题标题】:Using cached web data from Internet (Google Cache, Wayback Machine etc.)使用来自 Internet 的缓存 Web 数据(Google Cache、Wayback Machine 等)
【发布时间】:2012-11-19 17:12:52
【问题描述】:

我想用谷歌缓存来访问其他网站的网页,即使不去。

如果我触发这样的查询http://webcache.googleusercontent.com/search?q=cache:<URL without SCHEME>,我们可以获得数据。

我发现/假设以下事情(问题 0。如果其中任何一个错误,请更正):

  1. Google 可能有也可能没有缓存信息,具体取决于网站的政策。
  2. 如果必须运行任何 javascript,Google 无论如何都会访问该网站。
  3. Google 只存储文本的前 101 KB。

问题 1. 我知道 Google 缓存只显示最近抓取的页面,但知道这些数据可能存在多长时间?

问题 2. 如果我打算去 Google 缓存来获取我对该网站的所有点击量(假设该网站已缓存并且我对小旧页面没问题),会有什么问题吗?

问题 3. Wayback Machine 提供数据,但在抓取和显示数据之间存在巨大延迟。是否有任何目录可以让我们获取最近存档的数据(例如 Wayback 机器和 Google 缓存)?

【问题讨论】:

    标签: caching webarchive


    【解决方案1】:

    我知道 Google 缓存只显示最近抓取的页面,但知道这些数据可能存在多长时间?

    在 URL 中使用 cache: 运算符

    如果我打算去谷歌缓存来查看我对该网站所做的所有点击(假设该网站已缓存并且我对小旧页面没问题),会有什么问题吗?

    所有者可以从缓存中请求removal of content

    有没有目录可以获取最近存档的数据?

    在 URL 中使用 tbs=qdr: 查询参数

    【讨论】:

      【解决方案2】:

      对于问题 3,虽然过去所有的 Wayback Machine 网络捕获都是 6 个月前的情况,但在 2012 年已经变得不真实,现在在 2016 年变得非常不真实。我们有大量的新鲜内容。

      【讨论】:

        猜你喜欢
        • 2022-12-20
        • 2014-06-02
        • 1970-01-01
        • 2015-11-30
        • 2014-06-25
        • 2020-06-12
        • 2013-03-20
        • 1970-01-01
        • 2016-05-17
        相关资源
        最近更新 更多