【发布时间】:2011-10-09 17:49:29
【问题描述】:
我是一个强大的 excel 数据透视表用户,他强迫自己学习 R。我确切地知道如何在 excel 中进行此分析,但无法找出在 R 中编码的正确方法。
我正在尝试按 2 个不同的变量对用户数据进行分组,同时将变量分组到范围(或箱)中,然后汇总其他变量。
数据如下所示:
userid visits posts revenue
1 25 0 25
2 2 2 0
3 86 7 8
4 128 24 94
5 30 5 18
… … … …
280000 80 10 100
280001 42 4 25
280002 31 8 17
这是我试图让输出看起来像的样子:
VisitRange PostRange # of Users Total Revenue Average Revenue
0 0 X Y Z
1-10 0 X Y Z
11-20 0 X Y Z
21-30 0 X Y Z
31-40 0 X Y Z
41-50 0 X Y Z
> 50 0 X Y Z
0 1-10 X Y Z
1-10 1-10 X Y Z
11-20 1-10 X Y Z
21-30 1-10 X Y Z
31-40 1-10 X Y Z
41-50 1-10 X Y Z
> 50 1-10 X Y Z
想要按访问次数和帖子分组,直到达到一定级别,然后将高于 50 的任何内容分组为“> 51”
我已经将 tapply 和 ddply 视为实现此目的的方法,但我认为它们不会按我预期的方式工作,但我可能错了。
最后,我知道我可以在 SQL 中使用 if/then 语句来识别访问范围和帖子范围(例如 - 如果访问在 1 到 10 之间,则为“1-10”),然后只是按访问范围和帖子范围分组,但我的目标是开始强迫自己使用 R。也许 R 不是这里的正确工具,但我认为它是……
所有帮助将不胜感激。提前致谢。
【问题讨论】:
-
欢迎来到 SO。愿您早日摆脱对 Excel 的依赖。 (它对我有用!现在我只能在胁迫下使用 Excel……)
-
谢谢。我从多年的使用中非常了解 excel,但我也读过 R 只会在分析方面吸烟。这是真的,对吧?
标签: excel r pivot-table plyr