如何下载本网站所有图片：huaban.com [关闭]答案

【问题标题】：How to download all pics in this website: huaban.com [closed]如何下载本网站所有图片：huaban.com [关闭]
【发布时间】：2012-08-28 05:41:48
【问题描述】：

我想使用脚本来获取该网站中的所有这些图片。我用 chrome 开发者工具查看了他主页的源代码。这些图片网址就像

src="http://img.hb.aicdn.com/3e32a8b101e515b9e7dbe8f5a2e47afff5ec6bcf4e4a-OTvsuu_fw192

但如果我使用wget 或curl 下载此页面，甚至在浏览器中“保存铺路”，则该 html 文件中没有此类链接。我不知道如何获得所有这些链接。另一个问题是如果我们向下滚动页面，图像会连续出现。不知道有没有办法获取整个页面。

【问题讨论】：

“那个 html 文件中没有这样的链接”？究竟是什么意思？
如果从 wget 返回的 html 没有获得链接并且它们在您滚动时不断出现，我猜想它们是使用 javascript 动态加载的。因此，在解析 html 或从浏览器复制“生成”源代码之前，您需要一个可以运行 javascript 的库。
表示下载的html中没有img url。
作为第一步，我认为您应该查看您实际下载的生成的 HTML 显示的内容。一些网站在没有 JavaScript 的情况下提供不同的页面，或者采用其他方案来防止其内容的热链接。查看返回的 HTML 是相同的基本页面还是某种错误消息会很有启发意义。

标签： python html web-applications libcurl webclient-download

【解决方案1】：

您能否将 URL 发布到您要下载所有图片的最终页面？

或者您的意思是来自http://huaban.com/ 登陆页面的所有图片？

使用以下代码，您可以将图像网址“保存”到文件系统上的文件中：

image_path = 'http://img.hb.aicdn.com/3e32a8b101e515b9e7dbe8f5a2e47afff5ec6bcf4e4a-OTvsuu_fw192'
with open(r'<path_to_file>.jpg', 'wb') as image:
    image.write(urllib2.urlopen(image_path).read())

但是要检索图像“源”路径...我担心它们会由 javascript 组件生成，所以你没有太多选择。

也许一种解决方案是使用 无头浏览器 或 JavaScript 引擎桥（如 Python-Spidermonkey）来获取最终的（js 构建的）html 内容。

-科林-

【讨论】：

是的，我知道你的意思。我要做的是获取此主页中的所有图片链接，例如http://huaban.com/pins/17989365/，然后使用此链接获取http://huaban.com/pins/17989365/zoom/之类的链接，最后下载此页面中的大图。谢谢。
当我更新了我的帖子时，我担心您必须使用无头浏览器或 JavaScript 引擎桥（如 Python-Spidermonkey）来请求和解析最终（包括标记）html内容。但是设置一个 spidermonkey 环境既不容易也不容易，因为该库的安装包含 C 编译部分。您是否熟悉源代码中的 setup python 库，包括 c 编译？
好的，我会试试的。有点棘手。