【发布时间】:2021-01-13 07:32:23
【问题描述】:
我想在 R Studio 中应用调查权重进行线性回归。我已经看到可以使用lm() 函数来做到这一点,它使我能够指定我想要使用的权重。但是,也可以使用 svyglm() 函数执行此操作,该函数使用调查设计对象中的变量进行回归,该变量已按所需变量加权。
理论上,我认为这两个回归模型的结果没有任何不同的原因,并且 beta 估计值是相同的。但是,每个模型的标准误不同,导致 p 值不同,从而导致显着性水平不同。
哪种型号最合适?任何帮助将不胜感激。
这里是 R 代码:
dat <- read.csv("https://raw.githubusercontent.com/LucasTremlett/questions/master/questiondata.csv")
model.weighted1 <- lm(DV~IV1+IV2+IV3, data=dat, weights = weight)
summary(model.weighted1)
dat.weighted<- svydesign(ids = ~1, data = dat, weights = dat$weight)
model.weighted2<- svyglm(DV~IV1+IV2+IV3, design=dat.weighted)
summary(model.weighted2)
【问题讨论】:
-
权重很棘手;权重的数学/统计定义因上下文而异。哪种方法合适可能取决于权重在您的问题上下文中的实际含义。 notstatschat.rbind.io/2020/08/04/weights-in-statistics 是对差异的非常很好的 (IMO) 解释。
-
我明白了...感谢您提供有用的链接。我认为基于我想使用“抽样权重”的文章,因为这是来自欧洲选民选举研究(这是一项调查)的数据。这是否意味着第二个模型更合适,因为它来自“调查”包?文档并没有真正指定它是三种权重中的哪一种,但它确实提供了加权和未加权样本的方法 (europeanelectionstudies.net/wp-content/uploads/2019/11/…)。从文章来看,lm() 中的 weights 选项似乎计算了精确权重。
-
是的,如果您在调查数据环境中工作,很有可能您想使用
svyglm
标签: r linear-regression survey weighted