【发布时间】:2019-05-25 02:43:31
【问题描述】:
我有一个大型数据集,可以在其上执行 diff-in-diff 估计。鉴于数据集的性质,我的 t 统计量分母被夸大了,并且系数(偷偷地)具有统计显着性。 我想逐步减少数据库中元素的数量,并为每一步重新采样大量次数并重新估计每次交互系数和标准误差。
然后我想获取所有平均估计值和标准误差,并将它们绘制在图表上,以显示在什么点(如果有)它们在统计上与零没有差异。
我的代码后面是一个玩具示例。
- 我不确定这是解决问题的最有效方法
- 我无法检索并因此绘制置信区间
- 鉴于存在不同的群体,我不确定抽样是否具有代表性。
玩具示例(Creds Torres-Reyna - 2015)
library(foreign)
library(dplyr)
library(ggplot2)
df_0 <- NULL
for (i in 1:length(seq(5,nrow(mydata)-1,5))){
index <- seq(5,nrow(mydata),5)[i]
df_1 <- NULL
for (j in 1:10){
mydata_temp <- mydata[sample(nrow(mydata), index), ]
didreg = lm(y ~ treated + time + did, data = mydata_temp)
out <- summary(didreg)
new_line <- c(out$coefficients[,1][4], out$coefficients[,2][4], index)
new_line <- data.frame(t(new_line))
names(new_line) <- c("c","s","i")
df_1 <- rbind(df_1,new_line)
}
df_0 <- rbind(df_0,df_1)
}
df_0 <- df_0 %>% group_by(i) %>% summarise(coefficient <- mean(c, na.rm = T),
standard_error <- mean(s, na.rm = T))
names(df_0) <- c("i","c","s")
View(df_0)
【问题讨论】:
-
我因此解决了 SE 问题:
out <- summary(didreg)new_line <- c(out$coefficients[,1][4], out$coefficients[,2][4])...仍然不确定其余的
标签: r large-data difference estimation