【发布时间】:2012-12-05 10:44:39
【问题描述】:
我正在尝试下载以下站点http://computerone.altervista.org的一些页面,只是为了测试......
我的目标是只下载符合以下模式“*JavaScript*”和“*index*”的页面。
实际上,如果我尝试以下选项
wget \
-A "*Javascript*, *index*" \
--exclude-domains http://computerone.altervista.org/rss-articles/ \
-e robots=off \
--mirror -E -k -p -np -nc --convert-links \
--wait=5 -c \
http://computerone.altervista.org
它可以正常工作,因为它也会尝试下载http://computerone.altervista.org/rss-articles/。
我的问题是:
- 为什么它会尝试下载
http://computerone.altervista.org/rss-articles/页面? - 我应该如何避免它?我试过
--exclude-domains http://computerone.altervista.org/rss-articles/选项,但它会尝试下载它
附:
查看我得到的源页面:
<link rel="alternate" type="application/rss+xml" title="RSS 2.0" href="rss-articles/" />
【问题讨论】: