【发布时间】:2019-09-04 08:44:42
【问题描述】:
我正在尝试编写一个 shell 脚本来从 url 列表中识别损坏的 url。
这里是 input_url.csv 示例:
https://www.google.com/
https://www.nbc.com
https://www.google.com.hksjkhkh/
https://www.google.co.jp/
https://www.google.ca/
这是我所拥有的:
wget --spider -nd -nv -H --max-redirect 0 -o run.log -i input_url.csv
这给了我 '2019-09-03 19:48:37 URL: https://www.nbc.com 200 OK' 对于有效的 URL,而对于损坏的 URL,它给了我 '0 个重定向超出。'
我希望我只想将那些损坏的链接保存到我的输出文件中。
样本期望输出:
https://www.google.com.hksjkhkh/
【问题讨论】:
-
而且我的 input_url 文件很大,所以我应该有一个可以高效运行的脚本。
-
您能否发布输入文件的示例部分(如 5 行)和输出的示例部分(如 5 行)。为每个链接并行运行
wget不是更好吗? -
当然,让我发布一个例子。
-
发布了一个示例 url 文件。以及如何并行运行
wget? @KamilCuk