【发布时间】:2015-10-12 11:51:42
【问题描述】:
我们在 R 中有 2 个数据集 good 和 bad。它包含 users 和 games。
Games 包含 10 种不同的游戏类型1,2,...,10。数据集good 包含玩了很长时间的用户,bad 包含了玩了很短时间然后停止玩的用户。
head(good)
user game
1 4
2 3
3 4
1 1
15 4
1 2
和
head(bad)
user game
10 4
22 3
37 4
37 1
38 4
46 2
我找到了用户在他/她停止玩之前玩过的最新游戏。 因此,对于固定游戏的一组,我们有“最后一场比赛”的时间/它已经玩过的总时间。 这给了我们一个退出率。如果退出率高,则意味着它可能是最近玩的游戏,如果退出率低,则意味着游戏可能不是最后玩的游戏。
在 R 中,我们可以看到群组 good 的退出率
exitrate_good
game exitrate
1 0.133333
2 0.127772
3 0.090332
...
9 0.317307
10 0.190854
其他组bad也类似
exitrate_bad
game exitrate
1 0.186522
2 0.045888
3 0.192556
...
9 0.365899
10 0.119331
例如,在这里我们可以看到游戏 9 在good 和bad 中的退出率都很高。
我的问题是:应该如何找到不受欢迎并导致玩家停止玩的游戏?
用户上次玩过的游戏可能会导致用户停止玩游戏。我应该如何比较两组的退出率?
-------(扩展)
让我们看看good 组。
在 R 中输入last_game_good,我们得到这个输出
latest_game_played not_latest_game_played
734 3917
645 3507
...
765 2100
112 535
所以第一行简单地说734+3917 玩过这个游戏,这是734 案例中玩的最新游戏。
在这里我们还可以看到游戏 id 9(倒数第二行)与not_latest_game_played 相比具有非常高的latest_game_played。为此,我使用pairwise.prop.test 并得到所有成对相关性,有些 p 值较低,有些 p 值高于 0.05。如果我为其他组运行相同的操作,例如bad 组,我如何使用这些信息以及如何比较它?
【问题讨论】:
-
您的第一个问题是(更多)一般性问题,它实际上并不需要 2 个不同的数据集(好/坏),而是一个数据集(用户)。第二个在您的情况下更合理,因为您想分别调查好/坏用户。所以,正如您所说,第 9 场游戏退出率很高(您可以将其描述为不受欢迎(?)),但对于不良用户来说更糟。您可能需要对好/坏用户中的游戏进行成对比较。此外,在使用“因果关系”术语解释结果时要小心。通常这是一件大事,因为模式与相关性有关,但并不总是与因果关系有关。
-
此外,对于百分比比较,您需要成功次数、失败次数(或总数),否则您将尝试在统计上比较两个数字(实际百分比),这是不可能的。检查这个:stat.ethz.ch/R-manual/R-patched/library/stats/html/…
-
我已经更新了这个问题。我已经制作了一个包含成功次数和总数的表格,但我仍然不确定如何使用它来比较组。
-
希望我的回答(您可以做的事情之一)对您有所帮助。请记住,正如我在帖子中所说,您可以使用此数据集调查许多不同的事物。准确地记住您想要调查/发现的内容,然后构建数据集(或您的实验)是一种更好、更安全的做法,否则您会感到沮丧并迷失在现有的选项中。
-
感谢您的回复。我的目标是找到“导致”用户停止玩游戏的游戏。 (我想删除这些游戏,以便用户可以继续玩而不是停止玩)。或许我应该为此目的使用一些 exp 设计。
标签: r statistics