【发布时间】:2011-09-02 23:46:17
【问题描述】:
我无法让 wget 镜像网站的一部分(根目录下的文件夹路径) - 它似乎只能在网站主页上工作。
我尝试了很多选项 - 这是一个示例
wget -rkp -l3 -np http://somewebsite/subpath/down/here/
虽然我只想镜像该 URL 下方的内容链接 - 我还需要下载不在该路径中的所有页面资产。
主页 (/) 似乎可以正常工作,但我无法将它用于任何子文件夹。
【问题讨论】:
我无法让 wget 镜像网站的一部分(根目录下的文件夹路径) - 它似乎只能在网站主页上工作。
我尝试了很多选项 - 这是一个示例
wget -rkp -l3 -np http://somewebsite/subpath/down/here/
虽然我只想镜像该 URL 下方的内容链接 - 我还需要下载不在该路径中的所有页面资产。
主页 (/) 似乎可以正常工作,但我无法将它用于任何子文件夹。
【问题讨论】:
我通常使用:
wget -m -np -p $url
【讨论】:
-p 下载显示页面所需的所有内容很有用。对于显示页面所需的那些元素,这是否会覆盖 -np?
-m = 镜像,-np = 没有父级(递归时不要检索层次结构中更高的文件),-p = 页面必备项或所有必需项以适当地显示网页。
我使用 pavuk 来完成镜像,因为从一开始它似乎就更好地实现了这个目的。你可以使用这样的东西:
/usr/bin/pavuk -enable_js -fnrules F '*.php?*' '%o.php' -tr_str_str '?' '_questionmark_' \
-norobots -dont_limit_inlines -dont_leave_dir \
http://www.example.com/some_directory/ >OUT 2>ERR
【讨论】:
使用--mirror (-m) 和--no-parent (-np) 选项,以及一些很酷的选项,如本例所示:
wget --mirror --page-requisites --adjust-extension --no-parent --convert-links
--directory-prefix=sousers http://stackoverflow.com/users
【讨论】:
查看archivebox.io,它是一个开源、自托管的工具,可创建本地、静态、可浏览的网站 HTML 克隆(它保存 HTML、JS、媒体文件、PDF、屏幕截图、静态资产等) .
默认情况下,它只会归档您指定的 URL,但我们很快会添加一个 --depth=n 标志,让您可以递归地归档来自给定 URL 的链接。
【讨论】: