【发布时间】:2012-08-28 05:41:48
【问题描述】:
我想使用脚本来获取该网站中的所有这些图片。我用 chrome 开发者工具查看了他主页的源代码。这些图片网址就像
src="http://img.hb.aicdn.com/3e32a8b101e515b9e7dbe8f5a2e47afff5ec6bcf4e4a-OTvsuu_fw192
但如果我使用wget 或curl 下载此页面,甚至在浏览器中“保存铺路”,则该 html 文件中没有此类链接。我不知道如何获得所有这些链接。另一个问题是如果我们向下滚动页面,图像会连续出现。不知道有没有办法获取整个页面。
【问题讨论】:
-
“那个 html 文件中没有这样的链接”?究竟是什么意思?
-
如果从 wget 返回的 html 没有获得链接并且它们在您滚动时不断出现,我猜想它们是使用 javascript 动态加载的。因此,在解析 html 或从浏览器复制“生成”源代码之前,您需要一个可以运行 javascript 的库。
-
表示下载的html中没有img url。
-
作为第一步,我认为您应该查看您实际下载的生成的 HTML 显示的内容。一些网站在没有 JavaScript 的情况下提供不同的页面,或者采用其他方案来防止其内容的热链接。查看返回的 HTML 是相同的基本页面还是某种错误消息会很有启发意义。
标签: python html web-applications libcurl webclient-download