【发布时间】:2018-04-04 04:52:30
【问题描述】:
我正在寻找针对相对较大的数据集拟合广义线性混合效应模型的策略的建议。
假设我有 10 年内大约 300 支球队的 800 万次美国篮球传球数据。数据看起来像这样:
data <- data.frame(count = c(1,1,2,1,1,5),
length_pass= c(1,2,5,7,1,3),
year= c(1,1,1,2,2,2),
mean_length_pass_team= c(15,15,9,14,14,8),
team= c('A', 'A', 'B', 'A', 'A', 'B'))
data
count length_pass year mean_length_pass_team team
1 1 1 1 15 A
2 1 2 1 15 A
3 2 5 1 9 B
4 1 7 2 14 A
5 1 1 2 14 A
6 5 3 2 8 B
我想解释一下count 球员在传球前所采取的步骤。我有理论动机假设 count 和 length_pass 之间存在团队级别的差异,因此多级别(即混合效果)模型似乎是合适的。
我的个人级别控制变量是length_pass 和year。
在团队级别我有mean_length_pass_team。根据Snijders, 2011,这应该有助于我避免生态谬误。
我一直在使用 lme4 和 brms 包来估计这些模型,但是在我的本地 12 核 128GB 机器上安装这些模型需要几天/几周的时间。
library(lme4)
model_a <- glmer(count ~ length_pass + year + mean_length_pass_team + (1 | team),
data=data,
family= "poisson",
control=glmerControl(optCtrl=list(maxfun=2e8)))
library(brms)
options (mc.cores=parallel::detectCores ())
model_b <- brm(count ~ length_pass + year + mean_length_pass_team + (1 | team),
data=data,
family= "poisson")
我正在寻找加快拟合过程的建议或新技术来拟合广义线性混合效应模型:
- (如何)我可以提高
lme4和brms配合的速度吗? - 还有其他需要考虑的包吗?
- 是否有逐步程序可以帮助提高拟合模型的速度?
- 在 R 环境之外是否有一些有趣的选项可以帮助我适应这种情况?
任何指针都非常感谢!
【问题讨论】:
-
也许this 可以提供帮助。
-
@F.Privé 看起来
biglm包不接受多级公式 - 即 |是有问题的。但是感谢您的想法! -
可能帮不上什么忙,但stackoverflow.com/questions/44677487/… 建议
nAGQ=0加快速度或试试Julia -
也许你可以试试 Stan 的自动变分推理?大约一年前我尝试过它,它似乎有点错误,但我相信他们从那时起已经做出了改进。
-
它更快,更快(因为它不是 MCMC)。不确定我是否 100% 相信它,但你可以试一试。 Paper here
标签: r performance bigdata lme4 mixed-models