【发布时间】:2015-08-08 09:17:53
【问题描述】:
我想识别具有高杠杆率和大残差的数据点。我的目标是删除它们并重复线性回归分析。具体来说,我想删除大于 3 的学生化残差和厨师 D > 4/n 的数据点。在没有影响点的情况下,如何在样本数据中执行相同的分析?
样本数据:
hsb2 <- read.csv("http://www.ats.ucla.edu/stat/data/hsb2.csv")
lm1<-lm(write ~ read +ses + prog+race.f, data = hsb2)
【问题讨论】:
-
我建议您改用鲁棒回归,例如,来自包 robustbase 的函数
lmrob。 -
见
?influence.measures -
您可以在下面的链接中查看一个示例。它使用 R 根据厨师的距离去除异常值。 stats.stackexchange.com/questions/164099/…
标签: r linear-regression outliers