Stata 在 svy 回归后确定有影响的观察结果答案

【问题标题】：Stata identify influential observations post svy regressionStata 在 svy 回归后确定有影响的观察结果
【发布时间】：2020-07-08 23:25:48
【问题描述】：

使用Stata svy命令时，如：

svy: logistic graduate age female i.math i.english

应该完成各种后续步骤。例如，寻找重要的异常值或高杠杆点。如果没有 'svy' 元素，以下命令将起作用：

predict p
predict stdres, rstand
scatter stdres p, mlabel(snum) ylab(-4(2) 16) yline(0)

但是，当使用 svy 前言运行逻辑回归时，它只会产生以下错误：

svy 估计后不允许使用选项 rstandard

太好了。什么是允许的？某人如何看待显着异常值或高杠杆点？

【问题讨论】：

help logit postestimation 详细说明了什么是允许的，什么是不允许的。我的猜测是，这些后估计技术中有很大一部分从未在理论上用于调查权重。（对于上面的“前言”，请阅读“前缀”。

标签： stata survey outliers

【解决方案1】：

@NickCox 在他的评论中是正确的——在将诊断扩展到复杂的调查设置方面没有做太多工作。原因之一是从技术上讲，调查推断是非参数的：推断的对象不是变量之间的某种理想化关系，而是人口普查回归，其中包含全部人口可能具有的所有“异常值”。不会受到异常值的严重影响；只有估计方程，而且标准误差无论如何都是“稳健的”（即使用三明治公式而不是 Hessian。）

那里的工作主要由 Rick Valliant 完成（R 包svydiags:https://cran.r-project.org/web/packages/svydiags/，他的学生李建柱的论文：https://drum.lib.umd.edu/bitstream/handle/1903/7598/umi-umd-4863.pdf?sequence=1&isAllowed=y;我可以从那篇论文中发表一些后续论文暂时找不到。）

（这感觉更像是在讨论 CrossValidated/stats 而不是 SO/Stata。）

【讨论】：