【问题标题】:Extract statistical information from Wikipedia article从维基百科文章中提取统计信息
【发布时间】:2012-12-07 11:48:15
【问题描述】:

我目前正在使用适用于 python 的 SPARQLWrapper 从 DBpedia 文章中提取数据,但我似乎无法找到如何提取给定文章的观察者数量(和其他统计信息)。

有没有简单的方法来实现这一点?我不介意它是通过 DBpedia 还是直接通过 wikipedia(例如使用 wget)。

感谢您的建议。

【问题讨论】:

  • 如果您正在考虑使用维基百科,请查看MediaWiki API;它可能比屏幕抓取更容易使用。
  • 您在寻找哪些“其他统计信息”?
  • @mc10 一般来说,是的,但具体来说,那里没有观察者的数量。

标签: python sparql wikipedia information-retrieval dbpedia


【解决方案1】:

禁止获取每篇任意文章的观看者数量,因为如果每个人都可以找到未观看的页面,则会被视为安全漏洞。例如,只有特权用户才能访问Special:Unwatched Pages。有一个toolserver tool(可以访问数据库)显示观察者的数量,但仅限于具有超过 30 个观察者的页面for the same reasons - 至少未经身份验证。

MediaWiki query API主要公开content and status information有关文章,但您也可以查询和评估public logsrevision histories以获取有关(公共)用户操作的统计数据。有关 Wikimedia 网站的更多统计信息,您可以查看 Meta:Statistics,其中列出了各种数据源(主要是 http://stats.wikimedia.org/)和它们的可视化。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2020-07-27
    • 2012-01-09
    • 1970-01-01
    • 2016-02-25
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2011-05-26
    相关资源
    最近更新 更多