比较两组的退出率答案

【问题标题】：To compare exit-rates for two groups比较两组的退出率
【发布时间】：2015-10-12 11:51:42
【问题描述】：

我们在 R 中有 2 个数据集 good 和 bad。它包含 users 和 games。 Games 包含 10 种不同的游戏类型1,2,...,10。数据集good 包含玩了很长时间的用户，bad 包含了玩了很短时间然后停止玩的用户。

head(good)
user   game
1      4
2      3
3      4
1      1
15     4
1      2

和

head(bad)
user   game
10      4
22      3
37      4
37      1
38      4
46      2

我找到了用户在他/她停止玩之前玩过的最新游戏。因此，对于固定游戏的一组，我们有“最后一场比赛”的时间/它已经玩过的总时间。这给了我们一个退出率。如果退出率高，则意味着它可能是最近玩的游戏，如果退出率低，则意味着游戏可能不是最后玩的游戏。

在 R 中，我们可以看到群组 good 的退出率

exitrate_good
game  exitrate
1     0.133333
2     0.127772
3     0.090332
...
9     0.317307
10    0.190854

其他组bad也类似

exitrate_bad
game  exitrate
1     0.186522
2     0.045888
3     0.192556
...
9     0.365899
10    0.119331

例如，在这里我们可以看到游戏 9 在good 和bad 中的退出率都很高。

我的问题是：应该如何找到不受欢迎并导致玩家停止玩的游戏？

用户上次玩过的游戏可能会导致用户停止玩游戏。我应该如何比较两组的退出率？

-------（扩展）

让我们看看good 组。在 R 中输入last_game_good，我们得到这个输出

latest_game_played   not_latest_game_played
734                  3917
645                  3507
...
765                  2100
112                  535

所以第一行简单地说734+3917 玩过这个游戏，这是734 案例中玩的最新游戏。

在这里我们还可以看到游戏 id 9（倒数第二行）与not_latest_game_played 相比具有非常高的latest_game_played。为此，我使用pairwise.prop.test 并得到所有成对相关性，有些 p 值较低，有些 p 值高于 0.05。如果我为其他组运行相同的操作，例如bad 组，我如何使用这些信息以及如何比较它？

【问题讨论】：

您的第一个问题是（更多）一般性问题，它实际上并不需要 2 个不同的数据集（好/坏），而是一个数据集（用户）。第二个在您的情况下更合理，因为您想分别调查好/坏用户。所以，正如您所说，第 9 场游戏退出率很高（您可以将其描述为不受欢迎（？）），但对于不良用户来说更糟。您可能需要对好/坏用户中的游戏进行成对比较。此外，在使用“因果关系”术语解释结果时要小心。通常这是一件大事，因为模式与相关性有关，但并不总是与因果关系有关。
此外，对于百分比比较，您需要成功次数、失败次数（或总数），否则您将尝试在统计上比较两个数字（实际百分比），这是不可能的。检查这个：stat.ethz.ch/R-manual/R-patched/library/stats/html/…
我已经更新了这个问题。我已经制作了一个包含成功次数和总数的表格，但我仍然不确定如何使用它来比较组。
希望我的回答（您可以做的事情之一）对您有所帮助。请记住，正如我在帖子中所说，您可以使用此数据集调查许多不同的事物。准确地记住您想要调查/发现的内容，然后构建数据集（或您的实验）是一种更好、更安全的做法，否则您会感到沮丧并迷失在现有的选项中。
感谢您的回复。我的目标是找到“导致”用户停止玩游戏的游戏。（我想删除这些游戏，以便用户可以继续玩而不是停止玩）。或许我应该为此目的使用一些 exp 设计。

标签： r statistics

【解决方案1】：

因此，您可以做的一件事是比较各组游戏之间的差异。例如。在好组中，与游戏 Y 相比，游戏 X 的退出率是否更高？坏群怎么办？是同一个图案吗？也许完全不同的模式？

您可以做的另一件事是将游戏与不同组中的游戏进行比较。例如。好组中的游戏 X 是否比坏组中的游戏 X 的退出率更高？

第三件事是预先指定并修复对您不利的退出率，并将所有组中的所有游戏与之进行比较。例如。我知道 40% 的退出率对我不利。任何组中是否有退出率高于 40% 的游戏？

我将专注于第一种情况。

我这样创建数据集

dt = read.table(text=
"latest_game_played   not_latest_game_played
734                  3917
645                  3507
765                  2100
112                  535", header=T)

# create game id
dt$game_id = c(1,2,9,10)

# create total numbers
dt$totals = dt$latest_game_played + dt$not_latest_game_played

dt

#   latest_game_played not_latest_game_played game_id totals
# 1                734                   3917       1   4651
# 2                645                   3507       2   4152
# 3                765                   2100       9   2865
# 4                112                    535      10    647

然后我计算百分比并检查是否至少存在一个统计显着差异

# check percentages
prop.test(dt$latest_game_played, dt$totals)

# 4-sample test for equality of proportions without continuity correction
# 
# data:  dt$latest_game_played out of dt$totals
# X-squared = 176.51, df = 3, p-value < 2.2e-16
# alternative hypothesis: two.sided
# sample estimates:
#    prop 1    prop 2    prop 3    prop 4 
# 0.1578155 0.1553468 0.2670157 0.1731066

请注意，您也可以将这些百分比保存在您自己创建的新列中。您看到的 p 值小于0.05，因此至少有一款游戏的退出率高于另一款游戏。或者，换句话说，检查成对差异/比较是合理的。（尚）不知道哪种差异具有统计学意义，或者是否存在更多差异。下一步是去找出答案。

# check pairwise comparisons
pairwise.prop.test(dt$latest_game_played, dt$totals)

# Pairwise comparisons using Pairwise comparison of proportions 
# 
# data:  dt$latest_game_played out of dt$totals 
# 
#      1       2       3      
# 2 0.82    -       -      
# 3 < 2e-16 < 2e-16 -      
# 4 0.82    0.82    3.2e-06
# 
# P value adjustment method: holm

这是一个成对 p 值的表格。您可以看到第 9 场比赛（道具 3）在统计上显着高于所有其他百分比。其他游戏退出率没有区别。

你可以为你的其他组做一个类似的过程，看看你是否找到相同的东西/模式

【讨论】：

在我的情况下，我也在我的小组中进行了 pairwise.prop.test，我发现第 9 场比赛的所有 p 值都低于 0.05。这一定意味着第 9 场比赛对 prop.test 的 p 值低有影响？其他成对的 p 值对于其他游戏对来说更零星，所以在我删除了第 9 场比赛的地方制作一个新表格然后将新集与旧集进行比较是有意义的？
在坏组中发现相同的模式意味着游戏 9 无论用户是好还是坏都有高/坏的退出率。这就是您从分析中获得的洞察力。你现在可以做的是开始一个实验，让一些用户玩所有游戏，一些用户玩除第 9 场之外的所有游戏。然后比较平均退出率，看看现实生活中会发生什么。如果您只是从已有的数据中删除第 9 场比赛，那只是实际情况的理论近似值。您不知道移除第 9 场游戏后，所有其他游戏是否会具有相同的退出率。这只是一个假设。
假设我有 10 款游戏中的 3 款 p 值非常低。下一步应该如何进一步分析？到目前为止，这 3 款游戏的 p 值较低，只是说这 3 款游戏的两组存在差异。
因此，您设法找到了 3 场比赛，其中两组（每场比赛内）的统计比较具有统计显着性。您可以查看哪个组在每场比赛中表现更好（到目前为止，您只是将该差异归类为统计符号。）然后您可以计算观察到的比较功效（显示您对这确实是统计符号的信心。区别）。