【问题标题】:lme4 calculate confidence intervals of covarianceslme4计算协方差的置信区间
【发布时间】:2016-05-13 11:11:01
【问题描述】:

请参阅 Ben Bolker 2016 年 5 月 16 日的回答以获取适当的解决方案。 OP 下​​面。


我正在用 lme4 拟合几个多级模型。我想报告随机效应的方差和协方差,并使这个过程自动化。

我知道我可以使用as.data.frame(VarCorr(mymodel)) 获得方差,并且我知道我可以使用confint(mymodel) 获得置信区间。显然,我可以合并/合并这两个表,并通过简单地将confint() 的输出平方在适当的行和列处,将置信区间置于方差周围,但如果不是,我无法找到一种令人信服的方法来计算协方差手工。

confint的结果是:

conf <- NULL
a <- c(6.2,-0.4,2.2,1.5,-0.4,-0.5,2.8,-0.9,1.3,3.9)
b <- c(6.8,-0.2,2.5,2.5,0.1,0.2,4.8,-0.7,2.3,5)
conf <- data.frame(a,b,row.names = c("sd_(Intercept)|ID","cor_Time.(Intercept)|ID","sd_Time|ID","sd_(Intercept)|Group","cor_Time.(Intercept)|Group","cor_I(Time^2).(Intercept)|Group","sd_Time|Group","cor_I(Time^2).Time|Group","sd_I(Time^2)|Group","sigma"))
colnames(conf) <- c("2.5%","97.5%")
conf

如何自动执行各种乘法以获得协方差,例如

cov.time.intercept <- conf[1,2]*conf[1,1]*conf[1,3]

?

我尝试拆分标准差和相关性,创建“ID”、“时间”、“I(Time^2)”和“(Intercept)”变量,然后按两列匹配,但我没有得到任何结果。问题在于,每次模型更改时,您可能会有不同数量的方差和协方差,以及不同的三角矩阵。

感谢您的帮助,

k.

【问题讨论】:

  • 您能更清楚地说明您要做什么吗?你想要方差和协方差的置信区间吗?还是您想要方差和协方差本身的方差和协方差?正如@Thierry 下面建议的那样,我认为您需要在尝试找到正确的计算框架之前解决/澄清一些问题。
  • 嗨,Ben,感谢您的回复,如果不清楚,我们深表歉意。实际上,我想将置信区间表示为方差和协方差,而不是像 lme4::confint() 的默认值那样的标准差和相关性。
  • 请注意,在方差-协方差尺度上获得随机效应的置信区间确实不是一件容易的事;我正在对包进行一些修改,以帮助解决这个问题。
  • 嗨,Ben,我不明白,这不只是取标准化结果并乘以 SD 的问题吗?最美好的祝愿
  • 如果您想要配置置信区间(仍在研究中),则不是。

标签: r covariance lme4 confidence-interval


【解决方案1】:

您的计算似乎给出了似是而非的答案,但它没有意义(对我而言;我已准备好被纠正/启发......)。假设cov = corr*var1*var2。假设ci(.) 是数量的(下限或上限)置信限。 ci(cov) = ci(corr)*ci(var1)*ci(var2) 绝不是真的( 有趣的是你得到了合理的答案;我认为这很可能发生在数量几乎不相关的情况下......)如果你有差异每个组件及其之间的协方差(我不是指随机效应方差和协方差本身,而是它们的采样方差/协方差),您可以使用近似传播它们delta 方法,但这些方法很难获得(参见here)。

据我所知,执行此操作的“正确”方法是在方差 - 协方差尺度而不是标准偏差 - 相关尺度上进行似然分布计算。这在以前是不可能的,但现在(在 Github 上有开发版本)。

安装最新版本:

library(remotes) ## for install_github (or library(devtools))
install_github("lme4/lme4")

预赛:

chap12 <- foreign::read.dta(file = "ch12.dta")
library(lme4)
snijders <- lmer(prox_pup ~ 1 + prox_sel + (1 + occ|teacher),
                 data = chap12)

as.data.frame(VarCorr(snijders))
##        grp        var1 var2        vcov      sdcor
## 1  teacher (Intercept) <NA>  0.15617962  0.3951957
## 2  teacher         occ <NA>  0.01205317  0.1097869
## 3  teacher (Intercept)  occ -0.03883458 -0.8950676
## 4 Residual        <NA> <NA>  0.04979762  0.2231538

在比较结果时我们必须小心一点,因为profile.merMod,我们很快就会使用它,会自动(并且默默地!)将拟合从默认 REML 转换为最大似然拟合(因为基于 REML 的配置文件可能是统计上的冒险);但是,这看起来并没有太大的不同。

s2 <- refitML(snijders)
as.data.frame(VarCorr(s2))
##        grp        var1 var2        vcov      sdcor
## 1  teacher (Intercept) <NA>  0.15426049  0.3927601
## 2  teacher         occ <NA>  0.01202631  0.1096645
## 3  teacher (Intercept)  occ -0.03884427 -0.9018483
## 4 Residual        <NA> <NA>  0.04955549  0.2226106

p.sd <- profile(s2,which="theta_",
              signames=FALSE)
p.vcov <- profile(s2,which="theta_",prof.scale="varcov",
              signames=FALSE)

我们收到一些关于非单调配置文件的警告...

confint(p.vcov)
##                                    2.5 %     97.5 %
## var_(Intercept)|teacher      0.08888931  0.26131067
## cov_occ.(Intercept)|teacher -0.07553263 -0.01589043
## var_occ|teacher              0.00000000  0.02783863
## sigma                        0.03463184  0.07258777

如果我们检查相关(sd/方差)元素的平方怎么办?

confint(p.sd)[c(1,3,4),]^2
##                              2.5 %     97.5 %
## sd_(Intercept)|teacher 0.089089363 0.26130970
## sd_occ|teacher         0.002467408 0.02779329
## sigma                  0.034631759 0.07263869

这些匹配得很好,除了occ 方差的下限;它们也符合您上面的结果。但是,协方差结果(我认为这是困难的结果)对我来说是 (-0.0755,-0.0159),而对你来说是 (-0.0588,-0.0148),相差大约 20%。这可能没什么大不了的,具体取决于您要执行的操作。

我们也试试蛮力:

sumfun <- function(x) {
    vv <- as.data.frame(VarCorr(x),order="lower.tri")[,"vcov"]
    ## cheating a bit here, using internal lme4 naming functions ...
    return(setNames(vv,
       c(lme4:::tnames(x,old=FALSE,prefix=c("var","cov")),
         "sigmasq")))
}

cc <- confint(s2,method="boot",nsim=1000,FUN=sumfun,seed=101,
        .progress="txt", PBargs=list(style=3))
## .progress/PBargs just cosmetic ...

##                                    2.5 %      97.5 %
## var_(Intercept)|teacher      0.079429623  0.24053633
## cov_occ.(Intercept)|teacher -0.067063911 -0.01479572
## var_occ|teacher              0.002733402  0.02378310
## sigmasq                      0.031952508  0.06736664

这里的“黄金标准”似乎介于我的配置文件结果和您的结果之间:协方差的下限是 -0.067 与 -0.0755(配置文件)或 -0.0588。

【讨论】:

  • 感谢您富有洞察力和信息丰富的回答,本。为了比较,使用自举(nsim = 50)我得到(-0.014,-0.042),但如果你的方法在理论上更合理,那么我肯定会使用它并在我的 OP 中添加便签。也非常感谢在包的源代码中使这成为可能的人。 k.
  • Ben,我在更新到 lme4 1.1-13 后尝试了您的输入,但我收到以下错误:s2 &lt;- refitML(snijders) Error in assign(field, forceCopy(current), envir = vEnv) : could not find function "forceCopy" 我错过了一个包吗?谢谢,k。
  • 呃,这很奇怪。
  • 我可以提供任何信息来帮助您跟踪卡在哪里吗?
  • sessionInfo() 的结果?
【解决方案2】:

已解决,感谢您的贡献。我将更新最初的帖子。可以使用来自 Snijders & Bosker 的数据集(here)来测试结果。

导入

library(foreign)
chap12 <- read.dta(file = "<your path>/ch12.dta")

即兴模型:

snijders <- lmer(prox_pup ~ 1 + prox_sel + (1 + occ|teacher), data = chap12)

来源函数:

ExtractVarCovCI <- function(Model) {

v <- NULL
v <- as.data.frame(VarCorr(Model),order = "lower.tri") #Extract variances and covariances

conf <- confint(Model, parm  ="theta_", oldNames = F) #extract CIs

v.conf <- cbind(v,conf) #bind confidence intervals

covs <- as.data.frame(v.conf[!is.na(v[,3]),]) #separate variance from covariance components
vars <- as.data.frame(v.conf[is.na(v[,3]),]) #separate variance from covariance components
vars.sq <- vars[,6:7]^2 #calculate square of variance components
colnames(vars.sq) <- sub("[%]", "% sq.", colnames(vars.sq))

vars2 <- cbind(vars,vars.sq) #bind squares of variance components
covs$`2.5 % sq.` <- c(rep(NA,nrow(covs))) #create empty columns for later
covs$`97.5 % sq.` <- c(rep(NA,nrow(covs))) #create empty columns for later

lcovs <- length(row.names(covs)) #now we re-organise the table so that each covariance is below the variance of its variables
k <- NULL
for (i in seq(1:lcovs)) {
  k <- rbind(k,vars2[vars2$grp %in% covs[i,1] & vars2$var1 %in% covs[i,2],],vars2[vars2$grp %in% covs[i,1] & vars2$var1 %in% covs[i,3],],covs[i,])
}

k2 <- rbind(k,vars2["sigma",]) #bind the level-1 residuals at the end

k2.covrow <- grep("^cor",rownames(k2)) # isolate covariance row position
k2[k2.covrow,8] <- k2[k2.covrow,6]*k2[k2.covrow-1,6]*k2[k2.covrow-2,6] #calculate covariance 2.5%
k2[k2.covrow,9] <- k2[k2.covrow,7]*k2[k2.covrow-1,7]*k2[k2.covrow-2,7] #calculate covariance 97.5%

p <- NULL
p <- k2[,c(4,8:9)] #retain only the estimates and the confidence intervals
rownames(p) <- sub("^sd","var",rownames(p)) #now it's clear that we have proper variances and covariances
rownames(p) <- sub("^cor","cov",rownames(p)) #now it's clear that we have proper variances and covariances
colnames(p) <- c("Estimate", "2.5%", "97.5%")

return(p)
}

运行函数:

ExtractVarCovCI(snijders)

我的输出是:

                               Estimate         2.5%       97.5%
var_(Intercept)|teacher      0.15617962  0.089020350  0.26130969
var_occ|teacher              0.01205317  0.002467408  0.02779329
cov_occ.(Intercept)|teacher -0.03883458 -0.014820577 -0.05887660
sigma                        0.04979762  0.034631759  0.07263837

现在我们有一个方差 - 协方差表,它使用非标准化随机效应及其上下置信边界。我确信有更好的方法可以做到这一点,但这是一个开始......

k.

【讨论】:

    【解决方案3】:

    请注意,lme4 摘要中随机效应的标准差不是方差的标准差!这只是方差的平方根!

    如果您需要随机效应方差的置信区间,则需要profile() 可能性。见?lme4::profile

    【讨论】:

    • 您好蒂埃里,感谢您的回复。我知道随机效应的标准偏差不是方差的标准误差,而是平方根。这就是我使用confint() 计算置信区间的原因。但是,置信区间报告随机效应的平方根。对它们进行平方对于方差是有意义的,但是对于协方差,您必须使用标准差,我正在尝试使这个过程自动化。
    • 这似乎是评论/不是 OP 想要的(现在他们已经澄清了)......
    猜你喜欢
    • 2021-08-21
    • 2019-03-12
    • 2021-03-27
    • 2010-11-26
    • 1970-01-01
    • 1970-01-01
    • 2015-08-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多