【发布时间】:2013-05-09 19:17:10
【问题描述】:
我正在尝试抓取网页。
我想通过提供其 URL 来下载网页,并将其保存以供离线阅读其所有图像。我无法用 wget 做到这一点,因为它创建了许多目录。
这可以用 wget 吗?是否有类似 FireFox 中的“另存为”选项的东西,它创建一个目录并将所有需要的资源放入一个 HTML 页面中?
是否可以这样做 Nokogiri 或机械化?
【问题讨论】:
-
这个 SO 线程可能会帮助您入门:stackoverflow.com/questions/4217223/…
-
谢谢,但没有说明如何下载图片。即使没有互联网连接,我也想下载带有图片的页面以供阅读。
-
当然可以使用 Nokogiri 和其他几个 gem,比如 Open::URI 或 Net::HTTP,但是你必须编写代码告诉他们要做什么,因为他们不自己做。更大的技巧是重写 HTML 页面以从您的磁盘而不是远程站点加载所有资源。
-
entrenchant.blogspot.com/2012/02/… 有用于此目的的代码。
标签: ruby nokogiri mechanize wget