【问题标题】:Wget Mirror HTML only仅 Wget 镜像 HTML
【发布时间】:2013-09-02 05:01:44
【问题描述】:

我有一个小型网站,我尝试将其镜像到我的本地计算机,只有 html 文件,没有图像,图像附加文件...pdf,..等。

我以前从未镜像过网站,我认为在做任何灾难性的事情之前提出问题是个好主意。

这是我要运行的命令,想知道是否应该添加其他任何内容。

wget --mirror <url> 

谢谢!

【问题讨论】:

    标签: wget scrape mirror


    【解决方案1】:

    -R-A 选项用于拒绝接受特定文件类型。

    还要考虑用于下载整个网站的带宽。您可能还想添加--random-wait 选项。

    如果您想跳过所有图像和 pdf,您的命令将类似于:

    wget --mirror --random-wait -R gif,jpg,pdf <url>
    

    注意:镜像网站可能会违反政策,因此建议您先检查一下。

    来源:

    【讨论】:

      【解决方案2】:

      还有 wget 补丁添加了 mimetypes 过滤选项...

      【讨论】:

        猜你喜欢
        • 1970-01-01
        • 1970-01-01
        • 2011-11-21
        • 1970-01-01
        • 1970-01-01
        • 2015-07-11
        • 2016-11-26
        • 2016-08-30
        • 1970-01-01
        相关资源
        最近更新 更多