【问题标题】:Interpreting binned scatterplot (R) and calculating variance of the mean解释分箱散点图 (R) 并计算均值的方差
【发布时间】:2020-07-11 22:00:17
【问题描述】:

我正在尝试根据样本绘制模拟结果。因此,我有很多数据点 - 所以我选择了分箱散点图。其中一篇论文建议绘制分箱图,以便通过计算彩色点的方差来计算一阶效应。 我的情节是这样的:

我从这里使用了这个情节的代码: making binned scatter plots for two variables in ggplot2 in R

但是,我不太清楚如何解释情节。我知道彩色点是 bin 的平均值,但它实际上告诉我们关于数据的什么信息以及如何进一步计算这些黄色点的方差?

我们能否从该图中暗示变量显示(弱)线性关系,即使某些黄点并未真正跟随趋势?

提前谢谢你!

【问题讨论】:

  • 这似乎不是适合 Stack Overflow 的特定编程问题。如果您对各种统计方法的解释有一般性问题,那么您应该通过Cross Validated 询问此类问题。你更有可能在那里得到更好的答案。
  • 当然。从现在开始会这样做。谢谢!

标签: r ggplot2 scatter-plot bin variance


【解决方案1】:

我们可以通过cut()函数对数据进行分箱,如下所示,

mybin <- cut(df$x,20,include.lowest=TRUE,right = FALSE)
df$Bins <- mybin

然后计算分箱数据的均值,

library(tidyverse)

out<- df %>% group_by(Bins) %>% summarise(x=mean(x),y=mean(y)) %>% as.data.frame()

为了将我们的结果与ggplot2stat_summary_bin() 函数进行比较,我们可以将它们绘制在一起,

(ggplot(df, aes(x=x,y=y)) +
  geom_point(alpha = 0.4) +
  stat_summary_bin(fun='mean', bins=20,
                   color='orange', size=2, geom='point') +
     geom_point(data = out,color="green"))

# green dots are the points we calculated. They are perfectly matching.

现在,要计算方差,我们可以简单地使用 var() 函数遵循相同的过程。所以,

 df %>% group_by(Bins) %>% summarise(Varx=var(x),Vary=var(y)) %>% as.data.frame()

给出分箱数据的方差。请注意,由于 x 轴是分箱的,因此 x 的方差几乎为零。所以,这里重要的其实是y轴的方差。

  • 分箱数据的方差让我们模拟了数据的heteroscedasticity

  • 分箱均值的路径也显示了数据的模式。所以你的数据有一个积极的趋势。 (无需看到完美的平滑线)。但是由于您建议的方法不同,它变得更弱了。

数据:

set.seed(42)
x <- runif(1000)
y <- x^2 + x + 4 * rnorm(1000)
df <- data.frame(x=x, y=y)

注意:数据和部分ggplot2代码取自OP引用的question

【讨论】:

  • 非常感谢您花时间解释这一点。对此,我真的非常感激。我确实对此有进一步的问题(如果您允许的话)。我们计算的值是否必须与我们从 stat_summary_bin() 获得的值相匹配? - 关于解释:假设我们计算的黄点是给定 X 的 Y 的预期均值并且方差之和将是给定 x 的预期均值的总方差是否正确。此外,在我的例子中,x 的方差并没有变成零。算不算正常?再次非常感谢您!
  • 1)应该是,但不是必须的,因为我不知道stat_summary_bin()函数的具体计算方式。 2) 是的,E(Y|X) 分别是每个组的平均值。(但请注意,分箱实际上是假设每个箱的 x 值或多或少相同)。 3)关于方差,我不确定,但你可以简单地通过总结和比较来证明。 4) x 轴没有零方差是正常的,因为 x 轴介于 0 和 150 之间。我的示例介于 0 和 1 之间。如果增加 bin 大小,您会得到更接近 0 的值。 bin 大小完全由你决定。
  • 你好,我以为我理解了方差部分,但显然我没有,想问你我怎样才能通过总结它们来证明它是一个总方差? (对不起,如果我的问题没有意义)
  • 您问“方差之和将是给定 x 的预期均值的总方差?”。我想说你有方差和数据集。因此,您可以通过总结来证明或反驳您的主张。 (你说的是“方差之和”。这就是为什么我用“总结”来指代它)
猜你喜欢
  • 1970-01-01
  • 1970-01-01
  • 2019-05-05
  • 2018-12-27
  • 2018-02-01
  • 2015-05-13
  • 1970-01-01
  • 1970-01-01
  • 2021-08-21
相关资源
最近更新 更多