【发布时间】:2020-09-02 15:16:34
【问题描述】:
我正在尝试使用 wget 优雅而有礼貌地从网站下载所有 pdf。 pdf 位于起始 URL 下的各个子目录中。似乎 -A pdf 选项与 -r 选项冲突。但我不是 wget 专家!这个命令:
wget -nd -np -r site/path
忠实地遍历整个站点,下载路径下游的所有内容(不礼貌!)。这个命令:
wget -nd -np -r -A pdf site/path
没有下载任何东西立即完成。在调试模式下运行相同的命令:
wget -nd -np -r -A pdf -d site/path
显示调试消息忽略了子目录:
决定是否将“https://site/path/subdir1”排入队列。 https://site/path/subdir1 (subdir1) 与 acc/rej 规则不匹配。决定不加载它。
我认为这意味着子目录不满足“pdf”过滤器并被排除在外。有没有办法让 wget 递归到子目录(随机深度)并且只下载 pdf(到单个本地目录)?还是 wget 需要下载所有内容,然后我需要手动过滤 pdf 文件?
更新:感谢大家的想法。解决方案是使用两步方法,包括修改版本:http://mindspill.net/computing/linux-notes/generate-list-of-urls-using-wget/
【问题讨论】:
标签: linux screen-scraping wget