【发布时间】:2016-07-18 16:11:52
【问题描述】:
作为练习,我决定编写一个 python 脚本来获取指定用户的所有图像。我对 Scrapy 有点熟悉,这就是我选择它作为抓取工具的原因。目前该脚本只能从第一页下载图像(最多 12 个)。
据我所知,instagram 页面是由 javascript 生成的。 Scrapy 的response.body(类似于从 Chrome 中查看的源代码)不像 Chrome 的 Inspector 那样显示 html 结构。在 Chrome 中,在 12 张图片之后,在底部有一个带有下一页链接的按钮。
例如,instagram.com/instagram。第 2 页的链接是 instagram.com/instagram/?max_id=1292385931151632610。在第 2 页有一个指向第 3 页的链接,带有max_id=1287301939457754444。
如何在 Scrapy 中获取该号码,以便将我的蜘蛛发送到那里? response.body 甚至不包含该数字。还有其他方法可以到达下一页吗?
我知道 Instagram API 会提供一些好处,但我认为无需所有这些令牌也可以做到。
【问题讨论】:
-
爬instagram不是很聪明:)它甚至可能是非法的