【发布时间】:2016-08-25 10:37:34
【问题描述】:
我有一个每天抓取页面的脚本,我只想在内容发生变化时抓取它,这样脚本运行速度会更快,并且会使用更少的流量。
我的想法是首先获取标题并比较内容长度,以便如果它不同,我们会获取整个文档,但这并不太精确,因为网站可能具有动态部分,使得内容长度每次都不同。
还有其他方法吗,比如使用某种 DNS 或其他方式?
【问题讨论】:
-
网络服务器是否返回 Etag ? (en.wikipedia.org/wiki/HTTP_ETag)
-
不幸的是不是,但很好的电话
标签: php caching curl web-scraping