【问题标题】:How to use Wikipedia API to get page statistics for all pages in a Category?如何使用 Wikipedia API 获取类别中所有页面的页面统计信息?
【发布时间】:2016-11-15 20:45:12
【问题描述】:

我正在寻找维基百科类别中最受欢迎的页面(例如,graph algorithms 在去年的页面浏览量最高?)。然而,维基百科 API 的最新信息似乎很少,尤其是在获取统计数据方面。

例如,How to use Wikipedia API to get the page view statistics of a particular page in Wikipedia? 上的 StackOverflow 帖子包含似乎不再有效的答案。

我已经挖了一点,但除了一个非常好的网站外,我找不到任何可用的 API,我可以通过一一输入页面标题来手动执行此操作(最多最多十页) ):https://tools.wmflabs.org/pageviews/。将不胜感激任何帮助。谢谢!

【问题讨论】:

  • 好吧,我使用 tools.wmflabs.org 页面进行了半自动化的工作:关注 this link 以查看 Wikipedia 上的前 10 个图形算法页面!

标签: mediawiki wikipedia wikipedia-api mediawiki-api


【解决方案1】:

您可以使用这样的 MediaWiki API 调用来获取类别中的标题:https://en.wikipedia.org/w/api.php?action=query&list=categorymembers&cmtitle=Category:Physics 然后您可以使用它来获取每个页面的页面查看统计信息:https://wikimedia.org/api/rest_v1/#!/Pageviews_data/get_metrics_pageviews_per_article_project_access_agent_article_granularity_start_end (注意速率限制)

例如去年,文章“物理”(物理类别的一部分):https://wikimedia.org/api/rest_v1/metrics/pageviews/per-article/en.wikipedia.org/all-access/all-agents/Physics/daily/20151104/20161104

如果您正在处理大型类别,最好从https://dumps.wikimedia.org/other/pageviews/2016/2016-11/ 开始下载统计信息,以避免进行如此多的 REST API 调用。

【讨论】:

    【解决方案2】:

    TreeViews 是专门为此而设计的工具。如果您的类别包含数千页,那么获取好的数据将很困难,在这种情况下,您最好按照 Krenair 的建议自己进行计算。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2011-04-26
      • 1970-01-01
      相关资源
      最近更新 更多