【问题标题】:wget downloads only one index.html file instead of other some 500 html fileswget 只下载一个 index.html 文件而不是其他大约 500 个 html 文件
【发布时间】:2013-03-04 06:31:30
【问题描述】:

使用 Wget 我通常只收到一个 -- index.html 文件。我输入以下字符串:

wget -e robots=off -r http://www.korpora.org/kant/aa03

它只返回一个 index.html 文件,唉。

目录aa03表示康德的书,第3卷,里面应该有大约560个文件(页)左右。这些页面可以在线阅读,但不会被下载。有什么补救办法吗?!谢了

【问题讨论】:

    标签: wget


    【解决方案1】:

    点击该链接将我们带到:

    http://korpora.zim.uni-duisburg-essen.de/kant/aa03/

    wget 不会跟踪指向用户未指定域的链接。由于 korpora.zim.uni-duisburg-essen.de 不等于 korpora.org,wget 不会跟随索引页面上的链接。

    要解决此问题,请使用 --span-hosts 或 -H。 -rH 是一个非常危险的组合——结合起来,你可能会不小心爬取整个互联网——所以你会希望它的范围非常集中。此命令将执行您打算执行的操作:

    wget -e robots=off -rH -l inf -np -D korpora.org,korpora.zim.uni-duisburg-essen.de http://korpora.org/kant/aa03/index.html

    (-np 或 --no-parent 会将爬网限制为 aa03/。-D 会将其限制为仅这两个域。-l inf 将无限深地爬网,受 -D 和 -np 的限制)。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2019-02-13
      • 1970-01-01
      • 1970-01-01
      • 2019-01-30
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多