【发布时间】:2018-07-06 20:24:36
【问题描述】:
我受到了 wikipedia pageviews 分析的挑战。对我来说,这是第一个拥有如此大量数据的项目,我有点迷茫。当我从链接下载文件并解压缩时,我可以看到它有一个类似表格的结构,其中的行如下所示:
1 | 2 |3|4
en.m The_Beatles_in_the_United_States 2 0
我很难找出每一列中究竟可以找到什么。我的猜测:
语言版本和附加信息(.m = 移动设备?)
文章名称
我对最后两列的最大担忧。最后一个只有“0”值,我不知道它代表什么。我会假设第三个会显示观看次数,但我不确定。
如果有人能帮助我了解在每一列中究竟可以找到什么或推荐一些关于这个主题的阅读材料,我将不胜感激。谢谢!
【问题讨论】:
-
您真的需要每个页面的浏览量数据吗?如果您需要较小规模的数据,有更简单的方法来获取数据。
-
是的,我需要所有这些。我想分析一般趋势,例如表现最佳的人、网站流量等。
标签: analysis wikipedia pageviews