【问题标题】:How do I interpret the TukeyHSD output in R? (in relation to the underlying regression model)如何解释 R 中的 TukeyHSD 输出? (关于基础回归模型)
【发布时间】:2017-01-07 23:09:58
【问题描述】:

我建立了一个简单的线性回归模型,以“分数”作为因变量,“活动”作为独立变量。 'Activity' 有 5 个级别:'listen'(参考级别)、'read1'、'read2'、'watch1'、'watch2'。

Call:
lm(formula = Score ~ Activity)

Residuals:
     Min       1Q   Median       3Q      Max 
-22.6154  -8.6154  -0.6154   7.1346  31.3846 

Coefficients:
               Estimate Std. Error t value Pr(>|t|)    
(Intercept)      41.615      2.553  16.302   <2e-16 ***
Activityread1     6.385      7.937   0.804   0.4254    
Activityread2    20.885      9.552   2.186   0.0340 *  
Activitywatch1    3.885      4.315   0.900   0.3728    
Activitywatch2  -11.415      6.357  -1.796   0.0792 .  
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 13.02 on 45 degrees of freedom
Multiple R-squared:  0.1901,    Adjusted R-squared:  0.1181 
F-statistic:  2.64 on 4 and 45 DF,  p-value: 0.04594

为了获得所有成对比较,我执行了 TukeyHSD 测试,我很难解释其输出。虽然模型的输出表明我们唯一的显着效果是由于“listen”和“read2”之间的对比,但 TukeyHSD 结果表明“watch2”和“read2”之间存在唯一的显着对比。这是什么意思?

> TukeyHSD(aov(mod4), "Activity")
  Tukey multiple comparisons of means
    95% family-wise confidence level

Fit: aov(formula = mod4)

$Activity
                    diff        lwr       upr     p adj
read1-listen    6.384615 -16.168371 28.937602 0.9279144
read2-listen   20.884615  -6.256626 48.025857 0.2034549
watch1-listen   3.884615  -8.376548 16.145779 0.8952957
watch2-listen -11.415385 -29.477206  6.646437 0.3885969
read2-read1    14.500000 -19.264610 48.264610 0.7397464
watch1-read1   -2.500000 -26.031639 21.031639 0.9981234
watch2-read1  -17.800000 -44.811688  9.211688 0.3466391
watch1-read2  -17.000000 -44.959754 10.959754 0.4278714
watch2-read2  -32.300000 -63.245777 -1.354223 0.0368820
watch2-watch1 -15.300000 -34.569930  3.969930 0.1783961

【问题讨论】:

    标签: r linear-regression tukey


    【解决方案1】:

    在您的初始模型摘要中,Estimate 显示了每个组相对于“听”组的平均值 (40.615) 的估计平均值差异。仅计算这 4 个比较时,“read2”组与“listen”组的最大偏移 (+20.885) 称为显着性 p = .0340

    由于TUKEYHSD 正在对组均值执行所有成对比较(不再只是为了参考水平“听”),它还在执行 p 值调整以考虑所有这些额外的测试。原因是,如果您对随机数据进行了 20 次比较,您会期望其中一个(1/20 或 0.05)被称为显着的 p &lt; .05 仅仅是因为进行了这么多测试。考虑到 p 值调整后,您在“listen - read2”之间最初的显着比较不再具有显着性。

    但“watch2 - read2”(-32.3)之间的较大差异(-32.3)在原始模型摘要中未进行测试,即使在进行了所有额外的比较调整之后,也足以被认为与p = .03688 有显着差异。

    希望对您有所帮助,您可以阅读更多关于多重比较问题here .请参阅?p.adjust 了解 R 对最流行方法的实现。

    【讨论】:

    • 在报告模型时我应该报告什么?我应该只考虑 TukeyHSD 输出吗?
    • 这将取决于你的研究/假设是什么,我猜这个想法是阅读和观看组与听组相比表现更好(更多参与)。如果您只关心监听基线的改进,请忽略 TukeyHSD 结果并报告模型中的 p 值
    猜你喜欢
    • 2021-12-10
    • 2021-05-25
    • 2013-10-08
    • 2016-02-12
    • 2013-02-02
    • 2020-07-14
    • 2017-07-20
    • 2021-06-12
    • 2013-05-17
    相关资源
    最近更新 更多