【发布时间】:2013-10-08 21:08:45
【问题描述】:
以下代码使用 Hmisc、ddply 和 ggplot 生成带有标准误差线的条形图:
means_se <- ddply(mtcars,.(cyl),
function(df) smean.sdl(df$qsec,mult=sqrt(length(df$qsec))^-1))
colnames(means_se) <- c("cyl","mean","lower","upper")
ggplot(means_se,aes(cyl,mean,ymax=upper,ymin=lower,group=1)) +
geom_bar(stat="identity") +
geom_errorbar()
但是,使用诸如 mean_sdl 之类的辅助函数来实现上述功能似乎要好得多。例如,以下代码会生成一个带有 95% CI 误差线的图:
ggplot(mtcars, aes(cyl, qsec)) +
stat_summary(fun.y = mean, geom = "bar") +
stat_summary(fun.data = mean_sdl, geom = "errorbar")
我的问题是如何将 stat_summary 实现用于标准误差线。问题是要计算 SE,您需要每个条件的观察次数,并且必须在 mean_sdl 的乘数中访问。
如何在 ggplot 中访问这些信息?有没有一个简洁的非hacky解决方案?
【问题讨论】:
-
抱歉,当您写“您需要每个条件的观察次数并且必须在 mean_sdl 的乘数中访问”时,我不太明白您的意思。来自
?smean.sdl:“mult是用于获取样本均值的覆盖区间的标准差的乘数。默认值为 mult=2 以使用正负 2 个标准差”。我假设您已经看过stat_summary上的所有示例 here 和错误栏,它们似乎是“自动”运行的。 -
标准误差是 SD 除以 sqrt(n)。正如您在我的第一个代码中看到的那样,sn-p 这样做是为了得到标准错误。但是,在 ggplot 中,您无法访问数据框的每一折的 N,因为这种“汇总”是在内部完成的。在 ddply 中,它很容易“手动”访问折叠以查询它们的长度 (n)。您将如何在 stat_summary 中执行此操作?
-
为了清楚起见,这个参数必须看起来像这样:stat_summary(fun.data = mean_sdl, mult = sqrt(length(df$qsec))^-1), geom = "errorbar" )。问题是我无法访问 mtcars 的每个子集的 df$qsec 来获取长度