如何使用 scrapy 抓取 Instagram 查询？答案

【问题标题】：how to scrape instagram querys using scrapy?如何使用 scrapy 抓取 Instagram 查询？
【发布时间】：2018-05-05 23:10:37
【问题描述】：

我现在正在尝试抓取 instagram 帖子查询（“https://www.instagram.com/graphql/query/query_id=17888483320059182&id=USER_ID&first=50”）的纯文本，但只得到 403 和 301 响应。有谁知道我怎样才能绕过这些响应或抓取数据？

【问题讨论】：

【解决方案1】：

Instagram 阻止使用 default Scrapy User-Agent 的请求。

您可以更改 Scrapy 的用户代理，使其使用看起来像真正的浏览器的用户代理。但是你仍然会在抓取 Instagram 时遇到问题，正如 this discussion 中所述：请求限制等。

我提醒您scraping Instagram is against their TOS，因此如果检测到抓取，他们最终会阻止您的帐户和/或 IP。

【讨论】：

【解决方案2】：

由于它的工作方式，使用 Scrapy 很难让它工作。如果你真的想从 Instaram 抓取数据，我建议你使用 onegram，这是一个类似 Instagram Python API 的机器人，由 requests 提供支持。

【讨论】：