【问题标题】:how to scrape instagram querys using scrapy?如何使用 scrapy 抓取 Instagram 查询?
【发布时间】:2018-05-05 23:10:37
【问题描述】:

我现在正在尝试抓取 instagram 帖子查询(“https://www.instagram.com/graphql/query/query_id=17888483320059182&id=USER_ID&first=50”)的纯文本,但只得到 403 和 301 响应。 有谁知道我怎样才能绕过这些响应或抓取数据?

【问题讨论】:

  • 除了请求该 URL,您还需要添加网站期望的所有标头。这包括用户代理和一些特殊的身份验证标头。

标签: python web-scraping scrapy instagram


【解决方案1】:

Instagram 阻止使用 default Scrapy User-Agent 的请求。

您可以更改 Scrapy 的用户代理,使其使用看起来像真正的浏览器的用户代理。但是你仍然会在抓取 Instagram 时遇到问题,正如 this discussion 中所述:请求限制等。

我提醒您scraping Instagram is against their TOS,因此如果检测到抓取,他们最终会阻止您的帐户和/或 IP。

【讨论】:

    【解决方案2】:

    由于它的工作方式,使用 Scrapy 很难让它工作。如果你真的想从 Instaram 抓取数据,我建议你使用 onegram,这是一个类似 Instagram Python API 的机器人,由 requests 提供支持。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2013-08-10
      • 2016-07-06
      • 1970-01-01
      • 2022-07-14
      • 1970-01-01
      • 2021-02-12
      • 2018-11-21
      • 1970-01-01
      相关资源
      最近更新 更多