【发布时间】:2020-04-23 07:38:15
【问题描述】:
所以,这是箱线图:
如何解释?下面这么密集是不是因为数据多?是否可以从数据中解释某些内容?
[更新] 我添加了一个新图像,在其中我对没有获奖的电影进行了子集化,并将情节与总体平均值进行了比较,看起来非获奖电影的箱线图的异常值较少? [UPDATE2] 在这里我添加了两个箱线图,用于表示每年的平均值(用于平均收视率)
所以,我不确定它们是否应该看起来像那样,或者我在计算中做错了什么。我只是按年份应用了一个函数组,然后是函数平均值。但我不确定在数字已经平均的情况下,平均值是否是最好的函数。只是想确定一下。
这里是 t 检验:
在这里我按照一位用户的建议(我对建议的解释)做了不同的 t 检验结果。
XX <- replicate(n = 10000, expr = mean(sample(
x = imdb_winners$averageRating, size = 30, replace = TRUE)))
YY <- replicate(n = 10000, expr = mean(sample(
x = imdb_not_winners$averageRating, size = 30, replace = TRUE)))
t.test(XX, YY)
这里的 t 值非常大,所以我们假设获奖的参与者会影响结果。我只是想确保我的代码看起来是否合法,以及什么是这些数据的最佳可视化,可以使数据看起来不同。感谢您的建议!
【问题讨论】:
-
也许尝试绘制直方图。这可能会提供更多的清晰度。
-
欢迎来到 StackOverflow!您绘制的数据的上下文可能会对我们有所帮助。正如@Dave2e 建议的那样,以另一种方式绘制数据可能会有所帮助(也就是说,如果你有数据)。
-
我会将这些箱线图描述为“视觉上无法区分”,并将其解释为“与视觉检查箱线图没有明显差异”。
-
你想从箱线图中得到什么信息?你不能在没有目标的情况下进行比较.....
-
正如@StupidWolf 所说,除了通过比较箱线图进行定性判断之外,您无法获得更多信息。如果您要查看所有电影的集合是否与您的指标(评分从 1-10?)方面未获奖的电影的子集有显着差异,您应该使用类似未配对的两部电影-样本t检验。
标签: r