【发布时间】:2020-08-19 10:42:16
【问题描述】:
我正在尝试使用 shell 脚本来抓取网站以获取所有页面的列表。我找到了 shell 脚本“由 Elmar Hanlhofer https://www.plop.at 编写”,它运行良好。但是,我需要排除目录并且文档对我不起作用。
# Example, exclude files from /print and /slide:
# files=$(find | grep -i html | grep -v "$SITE/print" | grep -v "$SITE/slide")
我需要排除位于 /support(和所有子目录)的论坛安装,因此我将代码修改为:
files=$(find | grep -i html | grep -v "$SITE/support")
但它仍在扫描 /support/directory/directory/ 等。如何修改 grep 命令以排除 /support AND ALL CHILD DIRECTORIES?
我对 linux / unix 命令非常陌生,所以我可能无法正确表达这一点。谢谢。
【问题讨论】:
-
请发布脚本的链接。
find | grep -i html | grep -v "$SITE/support"与 wget 无关。您需要将--exclude-directories=support之类的内容传递给 wget 命令。 -
这里是脚本的链接 -> plop.at/en/xml-sitemap.html 我按照第 117 行的内联文档进行操作。
标签: linux macos shell unix terminal