【问题标题】:Parse top followed pages解析顶部关注的页面
【发布时间】:2018-04-05 04:19:25
【问题描述】:

我专注于使用 Python 进行解析,目前从事社会学研究。在我的研究中,我需要解析任何最流行的社交网络中最受关注的页面。我已经通过他们的 API 和其他方法来搜索这些内容,并发现他们中的大多数(Facebook、Twitter、Instagram)不允许通过关注者数量或其他信息进行搜索。

有人遇到过这个问题吗?你是怎么克服的?有什么方法可以解析我需要的内容(不仅在上述社交网络中,不包括 YouTube)?


UPD:出于研究目的,我需要数千个。

【问题讨论】:

标签: facebook parsing twitter instagram social-networking


【解决方案1】:

设法找到 twitter 的答案。不是很优雅,但这正是我所需要的。

如果您需要超过 1k 的某些博主(例如拥有 100 万或更多关注者的博主),您可以使用以下算法:

  1. 拿一位著名的博主(例如@LeoDiCaprio)解析页面` 他关注的 id 具有您需要的关注者数量(在我们的例子中 >1m)。
  2. 将这些页面添加到列表中,然后为每个 `em 做同样的事情。

我想你已经明白了。 在大多数情况下,热门页面主要跟随最受欢迎的页面,这就是为什么它会成功=) 由于 twitters 的 API 每 15 分钟只为您提供 15 个请求,具体取决于您需要的页面数,这项工作需要一些时间(对我来说,获得 1k 个页面需要 1 小时)

【讨论】:

    猜你喜欢
    • 2019-09-08
    • 2016-10-01
    • 2015-08-31
    • 2014-09-05
    • 2012-07-01
    • 2013-09-17
    • 1970-01-01
    • 1970-01-01
    • 2012-10-04
    相关资源
    最近更新 更多