应用计量经济学

听了天津财经大学高华川老师的一堂课，发现很多问题，确实是学习过程中很容易忽视的却很重要的问题，所以大致总结一下。

1.计量经济学做的回归模型，回归方程的系数表示的是因果关系还是相关关系?

首先要肯定的是，回归方程表示的必然是相关关系，但是当有理论支撑，说明X与Y存在因果关系的时候，系数才可能表示因果关系，因果关系必然相关，但是相关却不一定有因果，比如下面这个例子，

应用计量经济学

用W代表吸烟，Y表示患肺癌，X表示带打火机，从我们的常识来看，吸烟会导致肺癌，这是因果关系，吸烟的人也会随身携带打火机，这也是因果关系，但是从数据分析的结果来看，X与Y会存在显著的相关关系，我们却不能说带打火机会导致患肺癌，这显然是荒谬的。

那什么时候，回归系数可以表示因果关系呢，第一种情况比较简单，我们明确知道Y只受X的影响，那么我们做回归分析，得到的系数就表示因果关系。

下面这种情况就比较复杂，W、X影响Y，但是W还影响X，我们要知道X对Y的影响，X是我们的兴趣变量，是主要研究的对象，研究过程必须控制W不变，否则X的回归系数包含了W对Y的影响，也就是W是控制变量，我们不关心他的回归系数，只是希望他在研究X的时候保持不变，这样我们可以把WX同时放到模型当中，建立模型Y=β0+β1X+β2W+e，回归系数β的含义，就是在保持W不变的情况下，X对Y因果关系的影响。

应用计量经济学

2.在上例中，如果遗漏了变量W，会引发什么现象？

遗漏重要变量，除了导致模型异方差之外，更重要的是引发模型内生性，如果模型中不含W，那么，W的影响就会表现在随机误差项中，就会违背古典线性模型的假定：Cov(X,e)=0，造成回归系数估计的无偏性丧失，有效性等性质都建立在无偏性的基础上，因而也不复存在。

模型内生性，是模型最严重的问题之一，

而教材中强调的多重共线性，是广泛存在的现象，仅会导致估计量的方差变大，容易造成参数t检验不显著，在预测类问题中大都不需要太过重视；

异方差性在实际工作中，一般采取方差稳健标准误，基本消除了异方差的影响

序列自相关存在在时间序列中，一般是我们主要研究的对象

而模型内生性，我们没有太好的处理方法，而且问题的后果比较严重，却被教材忽略。

模型内生性产生的原因主要有以下四点：

1.遗漏重要变量，就是上面提到的遗漏W的现象

2.测量误差有时会导致模型内生性

3.互为因果，后面我们会举例

4.序列自相关

如果还是不理解内生性问题的严重性，我们来看下面这个例子：

去医院会让人变得健康吗？

应用计量经济学

我们都知道，医院是治病救人的地方，所以去医院的人应该比没去过的医院的人更健康，但是从数据结果上来看，没有去过医院的人更健康，也很容易理解，没病谁去医院呐！这就是一个互为因果的例子，因为健康水平和去医院这两个变量相互影响，所以就导致我们的数据分析出来的结果于事实相悖，这就是内生性的危害，他有颠倒是非的能力。

目前对内生性问题的处理，我了解到的最常用的是工具变量，需要找一个变量，它和去过医院呈高度相关，却和健康水平不相关，说起来容易做起来难，这种变量的寻找，就需要大家开动自己的智慧了。关于内生性的处理方法还有其他的，只是我不太了解。

3.计量经济学分析经济问题常用的方法

1.DID双重差分法

DID常用于政策评价or项目评估（program evaluation），适用于事前所有个体都没有受到政策干预，而事后只有一组个体受到政策干预。受到政策干预的组称为处理组，没有受到政策干预的为控制组。

下面这个例子是研究提高最低工资是否会降低就业的问题，PA和NJ是两个地名，大家不用在意，NJ在4月提高了最低工资水平，PA的最低工资水平在这一年内没有变化，我们知道提高最低工资水平一方面可以提高工人的收入，另一方面可能会影响企业雇佣工人的决策，本例就想探究NJ提高最低工资水平对就业又怎样的影响，从数据上看，11月的就业水平确实高于2月的，即该政策不会降低就业，但是我们不知道如果没有这项政策，NJ在11月的就业到底处于一个怎样的水平。

于是双重差分法做了一个不是那么不合理的假设，他假设NJ和PA的就业水平在2月到11月拥有相同的变化趋势，所以我们在实际工作中要找到尽可能接近的两个地区进行比较，这个假设才合理。

最低工资上升前（2月）的

平均雇员数

23.33

（1.35）

20.44

（0.51）

最低工资上升后（11月）的

平均雇员数

21.17

（0.94）

21.03

（0.52）

接下来就是DID的过程，首先记录2月到11月就业的变化趋势，PA变化了-2.16，NJ变化了0.59，在共同趋势假设成立的条件下，两地的变化差异只受到政策的影响，即政策影响了0.59-(-2.16)=2.75的影响，下面的图可以帮助理解。

应用计量经济学

2.合成控制

在实际中，我们很难找到与研究对象相似的控制组，所以我们可以换一个思路，我们选取评价两个对象相似程度的一组指标，对各个地区加权求和，使这个加权之后的各个指标都和我们要研究的对象基本保持一致，这样可以就有了一个新的控制组，一个合成的NJ，再用这个合成NJ的就业水平和NJ做双重差分，可以得到更准确的结果，因为各个地区的加权中和掉了其他的一些随机因素，是要比单纯一个PA好得多的方法。