【发布时间】:2009-06-02 18:47:55
【问题描述】:
你可能知道IE有这个可以保存网页的东西,它会自动下载html文件以及html文件使用的所有image/css/js文件。
现在有一个问题 - html 文件中的链接没有更改。 因此,如果我下载 example.com 的 html 页面,它有一个 ,我用 IE 下载的页面将有一个指向 C:\Documents and Settings...的链接...(文件夹的路径html 文件在其中)。
是否有一个 python 库可以为我下载一个 html 页面,以及它的所有内容(images/js/css)? 如果是,是否有图书馆也可以为我更改链接?
谢谢!!
【问题讨论】:
-
只是一个想法..您可以在 HTML 文件中进行简单的查找和替换。
-
您确定在 HTML 文件中显示的是 吗?或者,它是否说 并且您的浏览器插入了“file://”业务,因为该页面是本地的。
标签: javascript python html css screen-scraping