【发布时间】:2017-04-25 16:24:17
【问题描述】:
我正在创建一个脚本来抓取网站中的大量 html 文件,但我希望它可重用且速度更快。因此,在下载完所有 html 文件后,当我再次重新运行它时,它应该只检查 html 文件内容是否不同,如果不同,它将下载 html,否则它将忽略它。
这可能吗?
我试过用:
wget --no-clobber
但--no-clobber 只检查文件是否存在。
【问题讨论】:
我正在创建一个脚本来抓取网站中的大量 html 文件,但我希望它可重用且速度更快。因此,在下载完所有 html 文件后,当我再次重新运行它时,它应该只检查 html 文件内容是否不同,如果不同,它将下载 html,否则它将忽略它。
这可能吗?
我试过用:
wget --no-clobber
但--no-clobber 只检查文件是否存在。
【问题讨论】:
使用 curl (curl --head) 向 URL 发出 HEAD 请求。如果服务器返回 Last-Modified 标头(即Last-Modified: Tue, 15 Nov 1994 12:45:26 GMT)作为响应,则将其与文件的最后更新日期进行比较以进一步决定。如果该标头不在响应中,则您必须下载它。
【讨论】: