【问题标题】:Wikipedia pageviews analysis维基百科浏览量分析
【发布时间】:2018-07-06 20:24:36
【问题描述】:

我受到了 wikipedia pageviews 分析的挑战。对我来说,这是第一个拥有如此大量数据的项目,我有点迷茫。当我从链接下载文件并解压缩时,我可以看到它有一个类似表格的结构,其中的行如下所示:

1   |  2                             |3|4

en.m The_Beatles_in_the_United_States 2 0

我很难找出每一列中究竟可以找到什么。我的猜测:

语言版本和附加信息(.m = 移动设备?)

文章名称

我对最后两列的最大担忧。最后一个只有“0”值,我不知道它代表什么。我会假设第三个会显示观看次数,但我不确定。

如果有人能帮助我了解在每一列中究竟可以找到什么或推荐一些关于这个主题的阅读材料,我将不胜感激。谢谢!

【问题讨论】:

  • 您真的需要每个页面的浏览量数据吗?如果您需要较小规模的数据,有更简单的方法来获取数据。
  • 是的,我需要所有这些。我想分析一般趋势,例如表现最佳的人、网站流量等。

标签: analysis wikipedia pageviews


【解决方案1】:

在花了更多时间之后,我终于找到了解决方案。我发布这个以防将来有人遇到同样的问题。维基百科解释了可以在数据库中找到的内容。这些解释很难找到,但您可以访问主题 herehere

基于此,您可以看到行具有以下结构:

  • 域代码
  • page_title
  • count_views
  • total_response_size(不再维护)

对每一列的一些解释:

第 1 列:

请求的域名,缩写。 (...) Domain_code 现在可以 也是移动和零域名的缩写,其中 case .m 或 .zero 作为域名的第二部分插入(仅 就像完整的域名一样)。例如。 'en.m.v' 代表 “en.m.wikiversity.org”。

第 2 栏:

对于页面级文件,它包含未规范化部分的标题 在 /wiki/ 之后 - 在请求 URL 中(例如:Main_Page Berlin)。为了 项目级文件,它是 - .

第 3 栏:

该页面在相应小时内的浏览次数。

第 4 栏:

在 各自的小时。如果我理解正确,响应大小是 因精度低而停产。这就是为什么只有0。这 pagecounts 和 projectcounts 文件还包括总响应字节 大小在它们各自的聚合级别,但这是从 pageviews 和 projectviews 文件,因为它不是很准确。

希望有人觉得它有用。

【讨论】:

  • 嗨 Piotr,我在 Wikimedia 基金会的分析团队工作,我很好奇我们可以做些什么来更容易地找到这些文档。也许讨论这个任务的最佳地点是:phabricator.wikimedia.org/T201653
  • 当然,我会尽力参与讨论。我的第一印象是,我通常希望至少有指向数据可用站点上文档的链接。事实并非如此,所以我什至不确定文档是否存在。我的意思是那里有一些解释,但它们的结尾相当模糊。此外,文档页面在 Google 中的排名不是很高。
  • 我明白了。我认为谷歌很难,因为内容非常普遍(很多人有浏览量工具和定义)。我能给出的最好建议是,如果您搜索 WMF 的分析资料,并在其前面加上“wikitech”,这是我们所有文档所在的位置。至于接近数据的文档,事实证明自述文件存在技术问题,我们现在已修复,这有帮助吗? dumps.wikimedia.org/other/pageviews/readme.html
  • 我检查了链接,一切对我来说都非常清楚。令人惊讶的是,您决定努力修复它。代表维基百科数据用户感谢您! :)
  • 这些小事很重要,也很容易,大事更难优先处理。但是,如果您有我们可以帮助解决的小烦恼,请随时与我们联系。感谢您的想法和帮助。
【解决方案2】:

行格式:

  • wiki 代码 (subproject.project)
  • 文章标题
  • 每月总计(数据缺失时进行插值)
  • 每小时计数

(来自pagecounts-ez,这是相同的数据集,只是过滤较少。)

但显然有问题;它需要域名的前两部分作为 wiki 代码,这不适用于移动域(格式为 <language>.m.<project>.org)。

【讨论】:

  • 感谢您的帮助,但事实证明实际的行格式是这样的:domain_code;页面标题;计数视图;总响应大小。你可以在下面看到我的解释。感谢您的意见!
猜你喜欢
  • 2011-04-22
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2016-07-21
  • 1970-01-01
  • 1970-01-01
  • 2015-05-08
  • 2016-03-27
相关资源
最近更新 更多