当有大量值时如何解释给定的箱线图答案

【问题标题】：How to interpret the given boxplot, when there are large amount of values当有大量值时如何解释给定的箱线图
【发布时间】：2020-04-23 07:38:15
【问题描述】：

所以，这是箱线图：

如何解释？下面这么密集是不是因为数据多？是否可以从数据中解释某些内容？

[更新] 我添加了一个新图像，在其中我对没有获奖的电影进行了子集化，并将情节与总体平均值进行了比较，看起来非获奖电影的箱线图的异常值较少？ [UPDATE2] 在这里我添加了两个箱线图，用于表示每年的平均值（用于平均收视率）

所以，我不确定它们是否应该看起来像那样，或者我在计算中做错了什么。我只是按年份应用了一个函数组，然后是函数平均值。但我不确定在数字已经平均的情况下，平均值是否是最好的函数。只是想确定一下。

这里是 t 检验：

在这里我按照一位用户的建议（我对建议的解释）做了不同的 t 检验结果。

还有我的代码：

XX <-  replicate(n = 10000, expr = mean(sample(
  x = imdb_winners$averageRating, size = 30, replace = TRUE)))
YY <- replicate(n = 10000, expr = mean(sample(
  x = imdb_not_winners$averageRating, size = 30, replace = TRUE)))

t.test(XX, YY)

这里的 t 值非常大，所以我们假设获奖的参与者会影响结果。我只是想确保我的代码看起来是否合法，以及什么是这些数据的最佳可视化，可以使数据看起来不同。感谢您的建议！

【问题讨论】：

也许尝试绘制直方图。这可能会提供更多的清晰度。
欢迎来到 StackOverflow！您绘制的数据的上下文可能会对我们有所帮助。正如@Dave2e 建议的那样，以另一种方式绘制数据可能会有所帮助（也就是说，如果你有数据）。
我会将这些箱线图描述为“视觉上无法区分”，并将其解释为“与视觉检查箱线图没有明显差异”。
你想从箱线图中得到什么信息？你不能在没有目标的情况下进行比较.....
正如@StupidWolf 所说，除了通过比较箱线图进行定性判断之外，您无法获得更多信息。如果您要查看所有电影的集合是否与您的指标（评分从 1-10？）方面未获奖的电影的子集有显着差异，您应该使用类似未配对的两部电影-样本t检验。

标签： r

【解决方案1】：

箱线图用于直观地显示数据的分布。该框显示四分位距 (IQR)，或涵盖 25 个百分位 (Q1) 到 75 个百分位 (Q3) 的值范围。晶须显示最小值 (Q1 - 1.5 * IQR) 和最大值 (Q3 + 1.5 * IQR)。

任何超出这些胡须的点都是异常值。从您的箱线图中可以看出，存在大量异常值，但是，由于您的数据集非常大，分布并不会因它们的存在而严重偏斜（您的胡须和盒子相当对称）。

您的箱线图只是了解数据分布的一个步骤。您可以绘制直方图、QQ 图，并计算其他一些汇总统计数据以进一步了解它。

【讨论】：

【解决方案2】：

看起来您有大量异常值。数据结构如何？数据是否有子组？您是否对数据（如经济数据）进行了对数转换。要解释箱线图，这实际上取决于您拥有什么。解释输出最重要的部分是了解您的数据。

就我在图片中看到的情况而言，我会提到大量异常值，并可能根据数据所代表的内容推测原因。我还要提到，最小值和最大值之间存在相当大的差异，但在第 25 和第 75 个四分位数之间，差值要小得多。这再次表明，在任何类型的回归分析中都应该注意很多异常值。使用 gggplot 将其放在直方图（具有核密度）上以重新了解正在发生的事情可能会有所帮助 - 它可能有助于做出进一步的推论。

【讨论】：

是来自imdb数据库的数据，对应用户对电影的评分。我更新了帖子。
对数通常很好考虑，但在这种情况下，如果数据在区间 [0, 10] 并且是 left 倾斜的，我不认为它是好主意。
@GregorThomas 但是你觉得这两个箱线图怎么样？是真的，代表没有奖项的电影的离群值更少吗？短线是什么意思？
我评论了你关于我的解释的问题。至于“短线是什么意思”，如果您不知道所有部分是什么，我建议您阅读Wikipedia page on boxplots 和帮助页面?boxplot。这些短线被称为“晶须”。默认情况下，它们是 1.5 * IQR 上下 25 和 75 百分位数，如 lincolnck 的回答中所述。
@GregorThomas 我刚刚用不同的箱线图更新了我的帖子，其中一个看起来不合法，我担心这是因为我试图将平均函数应用于已经平均的条目（imdb评级） .