【问题标题】:How to analyse Wikipedia article's data base with R?如何用 R 分析维基百科文章数据库?
【发布时间】:2011-02-06 13:57:28
【问题描述】:

这是一个“大”的问题,我不知道如何开始,所以我希望你们中的一些人能给我一个方向。如果这不是一个“好”的问题,我会以道歉关闭线程。

我想通过维基百科的数据库(比如说英文的),做统计。例如,我对维基百科在每个时间点(假设在过去 2 年)有多少活跃编辑(应该定义)感兴趣。

我不知道如何建立这样的数据库,如何访问它,如何知道它有哪些类型的数据等等。所以我的问题是:

  1. 为此我需要什么工具(除了基本的 R)?我的电脑上的MySQL? RODBC 数据库连接?
  2. 您如何开始规划这样一个项目?

【问题讨论】:

  • 维基百科“数据库”是否作为数据库转储提供?
  • 您好,看来是这样……

标签: sql mysql r database wikipedia


【解决方案1】:

您需要从这里开始: http://en.wikipedia.org/wiki/Wikipedia:Database_download

它将带您到这里: http://download.wikimedia.org/enwiki/20100312/

你可能想要的文件是:

# 2010-03-17 04:33:50 done Log events to all pages.
    * This contains the log of actions performed on pages.
    * pages-logging.xml.gz 1.0 GB

http://download.wikimedia.org/enwiki/20100312/enwiki-20100312-pages-logging.xml.gz

然后将 xml 导入 MySQL。每天、每周、每年等生成用户的直方图不需要 R。您将能够使用单个 MySQL 查询来做到这一点。比如:

select DAYOFYEAR(wiki_edit_timestamp), count(*)
from page_logs
group by DAYOFYEAR(wiki_edit_timestamp)
order by DAYOFYEAR(wiki_edit_timestamp);

等等

(我不确定他们的实际架构是什么,但应该是这样的。)

毫无疑问,您会遇到问题,但您也会学到很多东西。祝你好运!

【讨论】:

  • 感谢罗杰抢先一步!所以现在我接下来的步骤是如何设置 MySQL,然后如何导入它。谢谢 :)
【解决方案2】:

你可以

【讨论】:

    【解决方案3】:

    试试WikiXRay (Python/R) 和zotero

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 2012-01-31
      • 1970-01-01
      • 1970-01-01
      • 2012-09-07
      • 2018-03-22
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多