【发布时间】:2011-09-11 16:43:06
【问题描述】:
我想使用 wget 下载网页http://www.codeproject.com/KB/tips/ModelViewController.aspx,所以我只使用了非常基本的命令:
wget http://www.codeproject.com/KB/tips/ModelViewController.aspx
我收到的是一个带有.aspx 扩展名的文件,它无法在常规浏览器中正确显示。
如何下载该网页?
【问题讨论】:
我想使用 wget 下载网页http://www.codeproject.com/KB/tips/ModelViewController.aspx,所以我只使用了非常基本的命令:
wget http://www.codeproject.com/KB/tips/ModelViewController.aspx
我收到的是一个带有.aspx 扩展名的文件,它无法在常规浏览器中正确显示。
如何下载该网页?
【问题讨论】:
该文件实际上会正确显示,您可以将其重命名为 .html 文件,您将能够确认这一点。网络服务器使用的服务器端技术不影响 wget
编辑:我在此下方的cmets是错误的,感谢评论者指出,已将其删除以供将来的读者使用
【讨论】:
wget 可以很容易地做到这一点(-p --convert-links,这个功能已经存在多年了)。另请注意,wget 可以为您重命名 (-E)。参见手册:gnu.org/software/wget/manual/wget.html#Advanced-Usage
-E -p --convert-links(顺便说一句,该手册中有更多好东西)
感谢wget manual page(关于“wget options”的网络搜索的第一个结果,顺便说一句):
wget -E http://whatever.url.example.com/x/y/z/foo.aspx
如果您还希望下载所有相关媒体(CSS、图像等),请使用-p,可能还使用--convert-links(重写页面以供离线查看):
wget -Ep --convert-links http://whatever.url.example.com/x/y/z/foo.aspx
【讨论】:
$ wget \
--recursive \
--no-clobber \
--page-requisites \
--html-extension \
--convert-links \
--restrict-file-names=windows \
--domains example.org \
--no-parent \
www.example.org/tutorials/html/
从此页面:http://www.linuxjournal.com/content/downloading-entire-web-site-wget
【讨论】: