【问题标题】:How to download all pics in this website: huaban.com [closed]如何下载本网站所有图片:huaban.com [关闭]
【发布时间】:2012-08-28 05:41:48
【问题描述】:

我想使用脚本来获取该网站中的所有这些图片。我用 chrome 开发者工具查看了他主页的源代码。这些图片网址就像

src="http://img.hb.aicdn.com/3e32a8b101e515b9e7dbe8f5a2e47afff5ec6bcf4e4a-OTvsuu_fw192

但如果我使用wgetcurl 下载此页面,甚至在浏览器中“保存铺路”,则该 html 文件中没有此类链接。我不知道如何获得所有这些链接。另一个问题是如果我们向下滚动页面,图像会连续出现。不知道有没有办法获取整个页面。

【问题讨论】:

  • “那个 html 文件中没有这样的链接”?究竟是什么意思?
  • 如果从 wget 返回的 html 没有获得链接并且它们在您滚动时不断出现,我猜想它们是使用 javascript 动态加载的。因此,在解析 html 或从浏览器复制“生成”源代码之前,您需要一个可以运行 javascript 的库。
  • 表示下载的html中没有img url。
  • 作为第一步,我认为您应该查看您实际下载的生成的 HTML 显示的内容。一些网站在没有 JavaScript 的情况下提供不同的页面,或者采用其他方案来防止其内容的热链接。查看返回的 HTML 是相同的基本页面还是某种错误消息会很有启发意义。

标签: python html web-applications libcurl webclient-download


【解决方案1】:

您能否将 URL 发布到您要下载所有图片的最终页面?

或者您的意思是来自http://huaban.com/ 登陆页面的所有图片

使用以下代码,您可以将图像网址“保存”到文件系统上的文件中:

image_path = 'http://img.hb.aicdn.com/3e32a8b101e515b9e7dbe8f5a2e47afff5ec6bcf4e4a-OTvsuu_fw192'
with open(r'<path_to_file>.jpg', 'wb') as image:
    image.write(urllib2.urlopen(image_path).read())

但是要检索图像“源”路径...我担心它们会由 javascript 组件生成,所以你没有太多选择。

也许一种解决方案是使用 无头浏览器 或 JavaScript 引擎桥(如 Python-Spidermonkey)来获取最终的(js 构建的)html 内容。

-科林-

【讨论】:

  • 是的,我知道你的意思。我要做的是获取此主页中的所有图片链接,例如http://huaban.com/pins/17989365/,然后使用此链接获取http://huaban.com/pins/17989365/zoom/之类的链接,最后下载此页面中的大图。谢谢。
  • 当我更新了我的帖子时,我担心您必须使用无头浏览器或 JavaScript 引擎桥(如 Python-Spidermonkey)来请求和解析最终(包括 标记)html内容。但是设置一个 spidermonkey 环境既不容易也不容易,因为该库的安装包含 C 编译部分。您是否熟悉源代码中的 setup python 库,包括 c 编译?
  • 好的,我会试试的。有点棘手。
猜你喜欢
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2013-12-05
  • 1970-01-01
  • 2013-12-04
相关资源
最近更新 更多