【发布时间】:2022-02-19 17:01:01
【问题描述】:
我正在尝试使用 wget 镜像本地存档站点。一切都运行良好(auth 标头等),除了该站点的编写方式是在某个 URL 上调用 GET 方法会删除资源,例如访问
http://site.domain.com/users/Delete/{uid}
删除 id=uid 的用户。我希望wget 关注网站上的所有链接,除了包含"/Delete/" 模式的链接。
根据GNU wget manual,您可以使用wget --reject-regex 过滤URL。我正在使用wget 1.15 版,它没有在libpcre 支持下编译,所以我尝试像这样使用标准POSIX ERE(在其他尝试中):
wget --reject-regex='.*Delete.*' -P /path_to_mirror_dir/ -k -p -m -E -c -rH -Dsite.domain.com https://site.domain.com/Home/(see explainshell)
根据答案 here 和 here。但是,URL 仍然被跟踪,因此资源被删除。
是否可以使用reject-regex 过滤被关注的 URL?
附:我简要查看了httrack,但当我看不到如何显式发送 HTTP 标头时没有进一步调查。另外,我想了解这个wget 选项。
【问题讨论】: