【问题标题】:wget/curl how to overwrite HTML file if file content has changed?wget/curl 如果文件内容已更改,如何覆盖 HTML 文件?
【发布时间】:2017-04-25 16:24:17
【问题描述】:

我正在创建一个脚本来抓取网站中的大量 html 文件,但我希望它可重用且速度更快。因此,在下载完所有 html 文件后,当我再次重新运行它时,它应该只检查 html 文件内容是否不同,如果不同,它将下载 html,否则它将忽略它。

这可能吗?

我试过用:

wget --no-clobber

--no-clobber 只检查文件是否存在。

【问题讨论】:

    标签: html curl wget


    【解决方案1】:

    使用 curl (curl --head) 向 URL 发出 HEAD 请求。如果服务器返回 Last-Modified 标头(即Last-Modified: Tue, 15 Nov 1994 12:45:26 GMT)作为响应,则将其与文件的最后更新日期进行比较以进一步决定。如果该标头不在响应中,则您必须下载它。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2012-11-26
      • 2010-12-26
      • 2017-10-29
      • 1970-01-01
      • 2010-09-20
      • 2018-10-20
      • 2019-07-31
      • 1970-01-01
      相关资源
      最近更新 更多