【发布时间】:2017-08-10 15:27:21
【问题描述】:
我正在尝试通过浏览带有电影名称的 csv 文件并下载电影封面图片并将其存储在本地来从 IMDB 检索电影图像。而不是下载整个网页,然后选择所需的部分(图像元素)。
有没有办法只找到浏览器发送的“获取”请求以检索图像?
我能够获取 URL,但似乎没有一种模式可以迭代循环并不断下载图像。
这是玩具总动员 1 的获取请求:
这是玩具总动员 3 的获取请求:
我能够删除“@”之后的所有字符并仍然获得图像,因为它们是图像的大小选项。
【问题讨论】:
-
你不能只获取图像标签,遍历它们,提取 url,然后从你收集的 url 中下载所有图像吗?
-
在那种情况下,我最初会下载整个网页对吗?
-
是的,是 html 部分,而不是浏览器通常会执行的其他文件(js、css、图像等)。
-
当浏览器加载 IMDB 页面时,它会为它获取 html 和所有链接的内容,即 html 本身链接的 javascript、css、图像和其他媒体文件。如果您使用的是 python-requests,那么这是一个无头浏览器。它不获取链接的内容,而只获取实际的 html。
标签: python web-scraping beautifulsoup python-requests imdb