【发布时间】:2012-11-19 17:12:52
【问题描述】:
我想用谷歌缓存来访问其他网站的网页,即使不去。
如果我触发这样的查询http://webcache.googleusercontent.com/search?q=cache:<URL without SCHEME>,我们可以获得数据。
我发现/假设以下事情(问题 0。如果其中任何一个错误,请更正):
- Google 可能有也可能没有缓存信息,具体取决于网站的政策。
- 如果必须运行任何 javascript,Google 无论如何都会访问该网站。
- Google 只存储文本的前 101 KB。
问题 1. 我知道 Google 缓存只显示最近抓取的页面,但知道这些数据可能存在多长时间?
问题 2. 如果我打算去 Google 缓存来获取我对该网站的所有点击量(假设该网站已缓存并且我对小旧页面没问题),会有什么问题吗?
问题 3. Wayback Machine 提供数据,但在抓取和显示数据之间存在巨大延迟。是否有任何目录可以让我们获取最近存档的数据(例如 Wayback 机器和 Google 缓存)?
【问题讨论】:
标签: caching webarchive