【问题标题】:How to interpret the given boxplot, when there are large amount of values当有大量值时如何解释给定的箱线图
【发布时间】:2020-04-23 07:38:15
【问题描述】:

所以,这是箱线图:

如何解释?下面这么密集是不是因为数据多?是否可以从数据中解释某些内容?

[更新] 我添加了一个新图像,在其中我对没有获奖的电影进行了子集化,并将情节与总体平均值进行了比较,看起来非获奖电影的箱线图的异常值较少? [UPDATE2] 在这里我添加了两个箱线图,用于表示每年的平均值(用于平均收视率)

所以,我不确定它们是否应该看起来像那样,或者我在计算中做错了什么。我只是按年份应用了一个函数组,然后是函数平均值。但我不确定在数字已经平均的情况下,平均值是否是最好的函数。只是想确定一下。

这里是 t 检验:

在这里我按照一位用户的建议(我对建议的解释)做了不同的 t 检验结果。

还有我的代码:

XX <-  replicate(n = 10000, expr = mean(sample(
  x = imdb_winners$averageRating, size = 30, replace = TRUE)))
YY <- replicate(n = 10000, expr = mean(sample(
  x = imdb_not_winners$averageRating, size = 30, replace = TRUE)))

t.test(XX, YY)

这里的 t 值非常大,所以我们假设获奖的参与者会影响结果。我只是想确保我的代码看起来是否合法,以及什么是这些数据的最佳可视化,可以使数据看起来不同。感谢您的建议!

【问题讨论】:

  • 也许尝试绘制直方图。这可能会提供更多的清晰度。
  • 欢迎来到 StackOverflow!您绘制的数据的上下文可能会对我们有所帮助。正如@Dave2e 建议的那样,以另一种方式绘制数据可能会有所帮助(也就是说,如果你有数据)。
  • 我会将这些箱线图描述为“视觉上无法区分”,并将其解释为“与视觉检查箱线图没有明显差异”。
  • 你想从箱线图中得到什么信息?你不能在没有目标的情况下进行比较.....
  • 正如@StupidWolf 所说,除了通过比较箱线图进行定性判断之外,您无法获得更多信息。如果您要查看所有电影的集合是否与您的指标(评分从 1-10?)方面未获奖的电影的子集有显着差异,您应该使用类似未配对的两部电影-样本t检验。

标签: r


【解决方案1】:

箱线图用于直观地显示数据的分布。该框显示四分位距 (IQR),或涵盖 25 个百分位 (Q1) 到 75 个百分位 (Q3) 的值范围。晶须显示最小值 (Q1 - 1.5 * IQR) 和最大值 (Q3 + 1.5 * IQR)。

任何超出这些胡须的点都是异常值。从您的箱线图中可以看出,存在大量异常值,但是,由于您的数据集非常大,分布并不会因它们的存在而严重偏斜(您的胡须和盒子相当对称)。

您的箱线图只是了解数据分布的一个步骤。您可以绘制直方图、QQ 图,并计算其他一些汇总统计数据以进一步了解它。

【讨论】:

    【解决方案2】:

    看起来您有大量异常值。数据结构如何?数据是否有子组?您是否对数据(如经济数据)进行了对数转换。要解释箱线图,这实际上取决于您拥有什么。解释输出最重要的部分是了解您的数据。

    就我在图片中看到的情况而言,我会提到大量异常值,并可能根据数据所代表的内容推测原因。我还要提到,最小值和最大值之间存在相当大的差异,但在第 25 和第 75 个四分位数之间,差值要小得多。这再次表明,在任何类型的回归分析中都应该注意很多异常值。使用 gggplot 将其放在直方图(具有核密度)上以重新了解正在发生的事情可能会有所帮助 - 它可能有助于做出进一步的推论。

    【讨论】:

    • 是来自imdb数据库的数据,对应用户对电影的评分。我更新了帖子。
    • 对数通常很好考虑,但在这种情况下,如果数据在区间 [0, 10] 并且是 left 倾斜的,我不认为它是好主意。
    • @GregorThomas 但是你觉得这两个箱线图怎么样?是真的,代表没有奖项的电影的离群值更少吗?短线是什么意思?
    • 我评论了你关于我的解释的问题。至于“短线是什么意思”,如果您不知道所有部分是什么,我建议您阅读Wikipedia page on boxplots 和帮助页面?boxplot。这些短线被称为“晶须”。默认情况下,它们是 1.5 * IQR 上下 25 和 75 百分位数,如 lincolnck 的回答中所述。
    • @GregorThomas 我刚刚用不同的箱线图更新了我的帖子,其中一个看起来不合法,我担心这是因为我试图将平均函数应用于已经平均的条目(imdb评级) .
    猜你喜欢
    • 2022-01-06
    • 2021-01-12
    • 1970-01-01
    • 1970-01-01
    • 2017-08-17
    • 2013-02-17
    • 2021-10-30
    • 2019-02-23
    • 1970-01-01
    相关资源
    最近更新 更多