在断点回归(RDD)中,通常通过检验基线协变量的均值是否在断点处没有变化来检验可靠性,但这种方法意味着基线协变量在断点处必须具有连续性,这种连续性假设基本无法检验。另一方面,尽管观测的总样本数可能很大,但断点附近的有效观测值的数量可能很小,随着n→∞,RDD中的传统渐近需要越来越多的局部观测值。
根据以上问题,本文介绍了一种基于伴随次序统计量(Induced Order Statistics)的「置换检验」,用于对基线协变量在截止点处分布的连续性的零假设;并引入了一种新的「渐近框架」来分析其性质,使得在样本量n→∞时保持局部观测值Q为固定值。
0.安装rdcont、rdpermute指令
ssc install rdcont
ssc install rdpermute
置换检验包括随机版本The randomized version(Raper)和非随机版本The non-randomized version(Per),后者更加常用,因此rdcont中使用的是非随机版本。
1.置换检验#
断点回归(RDD)近年来被广泛用于因果效应的研究,比如Lee和Lemieux(2010)的论文中关于执政党地位有助于其再次赢得竞选的研究,Chen Yuyu et al.(2013)的关于淮河以北的空气污染会降低北方人平均5.5年的预期寿命的研究等。它能够避免内生性问题,不需要控制太多变量,并且不需要从大样本中严格抽取,可以很好地反应因果关系。
当观测的协变量(运行变量)越过断点时,个体归为接受处理的处理组,否则归为不受处理的控制组。如果可以看到断点左右有显著的差距存在,那么就说明处理产生了影响。但这个推论基于一个重要的连续性假设,如果被解释变量本身就是不连续的,那么不管有没有处理都会有一个明显的跳跃。因此,要检验RDD的有效性,检验协变量在断点处的连续性就非常重要,遗憾的是,连续性假设基本是无法检验的。
然而,实证研究可以通过Lee(2008)提出的两种推论来检验RDD的有效性,分别为:
1.个体对于运行变量的控制不精确,即运行变量的密度在断点处连续;
2.处理在断点处局部随机,即基线协变量的分布在断点处连续。
对于第二个,研究人员通常通过验证基线协变量的均值的连续性来检验。Canay和Kamat(2018)则提出了新的置换检验方法,它基于这样的直觉:当原假设(即协变量在断点处连续)成立时,断点附近的观测值在断点的任意一侧近似(但不完全)同分布,这使我们可以通过排列这些观察结果,来构造一个近似的有效性检验,我们称之为「近似置换检验」。
具体步骤如下:
1.计算断点两侧的次序统计量(Order Statistics)
:
- q可根据经验法则求出:
- Z的值按顺序排列
- 此处断点设为0,断点两侧的局部观测量q设为相等,但实际上不需要对称。
2.计算伴随次序统计量(Induced Order Statistics):
- W的值不一定按顺序排列
- 这两组随机变量被视为W的独立样本,条件是分别从左侧和右侧接近断点
3.计算检验统计量:
- cdf:
- 混合样本:
4.生成随机排列的集合
- 让
作为Sn的置换值
5.评估3中每个排列样本的检验统计量:
令M=|G|为G的基数,以有序值表示T(1)(Sn) ≤ T(2)(Sn) ≤ ··· ≤ T(M)(Sn),对α ∈ (0, 1),令
(取整),定义
,
检验由如下函数给出:
,
- B为置换次数
##6.计算p值:
命令基本格式如下:
rdcont running_var [if] [in], ///[alpha(#) threshold(#) qband(#)]
rdpermute depvar runvar, placebo_disconts(numlist) true_discont(string)///
[position_true_discont(#) deriv_discont(#) bw(#)) ///
linear quad cubic skip_install filename(#) save_path(#) ///
dgp(#) bw_manual(#) fg_bandwidth_scaling(# #) ///
fg_bias_porder(#) fg_f_0(#) fg_density_porde ) ///
fg_num_bins(#) cct_bw_par(#) cct_reg_par(#) silent ]
具体说明如下:
- alpha代表显著性水平,指定了
,如果未指定,默认值是0.05。不能和qband同时指定。
- threshold可指定所检验的临界值,如果未指定,默认值为0。
- qband可指定局部观测值q。
2.渐近框架
Canay和Kamat(2018)还提出了新的渐进框架,给出了一个不会随着n趋于无穷而增大的固定观察数量q,以解决即使总体样本量很大,接近断点的观测值通常也很少的小样本问题。
假设Z的分布在断点的两侧都为局部稠密,那么伴随次序统计量W的联合分布是渐近独立的。从而得到连续性假设成立时,,
这意味着对于所有的排列π∈G,,
即随机变量S不会随着排列而改变。
当S为连续随机变量时,
令
为Sn,i 的秩,将R如同之前在断点左右进行分组并排序得到R*,
令,
可得。假设检验统计量T→R。
当S为离散随机变量时,假设Sn从
中取值,其中
是m个不同单项的集合。
满足上述假定后,φ(Sn)满足
。
它证明了当标量随机变量W为连续或离散时的有效性。
3.演示
案例来自Lee and Lemieux (2010). Regression Discontinuity Designs in Economics. Journal of Economic Literature, 48(2), pp.281-355. 中关于执政党地位对其再次当选的研究。
在美国的议会政治中,执政党被再次高概率当选已经成为美国议会政治中最为引人注目的事实。Lee在这篇文章中提出:如果民主党在上一次选举中当选的话,是否会在这一次竞选中相对共和党更有优势。在这项研究中可能面临议员的权力寻租问题,即议员利用自己的身份所带来的权力和资源来为自己所在的党派谋取利益,所以执政党再次当选可能没有反映出真正的选举优势,而是更有利于满足投票者或者竞争选票。为了探究执政党地位带来的因果效应,Lee将民主党候选人获胜看作是由选举胜利者的边际得票份额(即民主党和共和党的得票之差)大于等于0时决定,他通过绘制民主党获胜的概率(Y轴)和在上一次选举中民主党和共和党的得票份额之差(X轴)的图形发现:民主党在0点处获胜的概率大幅提高,民主党得多数票,由于这一点跳跃,执政党大约可以将再次当选的概率提高40%。同时,Lee分析认为以往选举中的获胜率应该与上次选举中的获胜的断点没有关系。
演示1:检验民主党与共和党的投票份额差值的连续性
use http://fmwww.bc.edu/repec/bocode/t/table_two_final.dta, clear
rdcont difdemshare if use==1
结果:说明民主党与共和党的投票份额差值符合连续性假设。
演示2: 分别检验上次选举和本次选举的获胜率与执政党地位的关系##
rdplot demwinprev difdemshare,c(0)
结果:无断点,说明以往选举中的获胜率应该与上次选举中的获胜的断点没有关系。
rdplot demelectexp difdemshare,c(0)
结果:有断点,说明本次选举中的获胜率应该与执政党地位有关系。
rdperm difdemshare demwinprev if use==1, c(0)
结果:p值小于5%的显著性水平,说明以往选举中的获胜率应该与上次选举中的获胜的断点没有关系。
rdperm difdemshare demelectexp if use==1, c(0)
结果:p值大于10%的显著性水平,说明本次选举中的获胜率应该与执政党地位有关系。
演示3:联合检验
//Joint test using max test statistic
rdperm difdemshare demshareprev demwinprev demofficeexp othofficeexp ///
demelectexp othelectexp if use==1, c(0)
//Joint test using CvM test statistic
rdperm difdemshare demshareprev demwinprev demofficeexp othofficeexp ///
demelectexp othelectexp if use==1, c(0) cvm
结果: