【发布时间】:2017-09-15 21:43:27
【问题描述】:
我使用 lme4 包中的 lmer 来运行线性混合效果模型。我有未处理 (5) 和处理过的地块 (10) 的 3 年温度数据。型号:
modela<-lmer(ave~yr*tr+(1|pl), REML=FALSE, data=mydata)
模型检查残差的正态性; qq范数图 我的数据:
'data.frame': 6966 obs. of 7 variables:
$ yr : Factor w/ 3 levels "yr1","yr2","yr3": 1 1 1 1 1 1 1 1 1 1 ...
$ pl : Factor w/ 15 levels "C02","C03","C05",..: 1 1 1 1 1 1 1 1 1 1 ...
$ tr : Factor w/ 2 levels "Cont","OTC": 1 1 1 1 1 1 1 1 1 1 ...
$ ave: num 14.8 16.1 11.6 10.3 11.6 ...
交互很重要,所以我用了lsmeans:
lsmeans(modela, pairwise~yr*tr, adjust="tukey")
在对比中,我得到(仅摘录)
contrast estimate SE df t.ratio p.value
yr1,Cont - yr2,Cont -0.727102895 0.2731808 6947.24 -2.662 0.0832
yr1,OTC - yr2,OTC -0.990574030 0.2015650 6449.10 -4.914 <.0001
yr1,Cont - yr1,OTC -0.005312771 0.3889335 31.89 -0.014 1.0000
yr2,Cont - yr2,OTC -0.268783907 0.3929332 32.97 -0.684 0.9825
我的问题是关于某些对比的高 dfs,以及相关但无意义的低 p 值。
这可能是由于:
-在我的数据集中存在 NA(移除后有一些改进)
-样本量不等(例如,一种治疗方法中的 5 个,另一种治疗方法中的 10 个 - 然而,那些 (yr1,Cont - yr1, OTC) 似乎不是问题。
其他问题?
我搜索了 stakoverflow 问题,并进行了交叉验证。
感谢任何答案、想法、cmets。
【问题讨论】:
-
如果
yr是in-pl因子,那么这些df 可能是正确的。请注意,对于lmer型号,lsmeans提供了两个 d.f. 的选择。方法——一种是基于 lmerTest 包中例程的 Satterthwaite 方法(默认),以及使用 pbkrtest 包中例程的 Kenward-Roger 方法。尝试将参数lmer.df = "k"添加到lsmeans调用中,看看后一种方法的结果是什么。如果它们具有可比性,我相信这里没有问题。不相关的注释——我想知道你为什么选择REML=FALSE来拟合模型。 -
顺便说一下,P 值不会比显示的值大很多,除非 d.f.真的很小。
-
从这个问题的上下文来看,我猜如果你为每个图分别绘制残差与运行顺序(天??),你会发现自己对模型的适用性不太满意.我进一步想象每个情节都存在大量的序列相关性。
-
谢谢@rvl。我选择 REML 是因为我使用最大似然选择了我最好的模型(与其他 R 用户讨论的结果,以及在我开始分析时学习 R)。是的,我都试过了。方法和结果非常相似。如何解释 dfs 的巨大差异?年内治疗30-40,治疗年内6000?这些是我的样本量:Yr1,Cont n=810, Yr1,OTC n=1619, Yr2,Cont n=809, Yr2,OTC n=1458, Yr3,Cont n=809, Yr3,OTC n=1457。 OTC/Cont 是治疗方法。
-
因为地块是处理的实验单位。它来自模型中的 (1|pl) 部分。