学生风采

当前位置: 首页 >> 学生风采 >> 正文
【“微观计量工作坊”第6期 】双重差分
2018年01月11日    编辑:    浏览量:    


中国财政发展协同创新中心微观计量工作坊第六讲在学院南路校区主教407举行,中心2016级和2017级研究生全部参加,同时也有中心2016级博士生韩清与同学们一起就讲解的内容展开讨论。讲解的过程中,同学们认真听讲并积极互动,精彩充实的讲解引起了同学们阵阵掌声!



本期主讲人为中国财政发展协同创新中心2017级研究生崔琪琪、付雅楠。

首先主讲人崔琪琪介绍了双重差分模型( Difference in Differences,DID)是为了在计量经济学中对于公共政策或项目实施效果进行定量评估。

DID被广泛应用是由于计量模型简单易用,回归估计方法成熟。而且相对于静态比较法,双重差分法不是直接对比样本在政策前后的均值变化,而是使用个体数据进行回归,从而判断政策的影响是否具有显著的统计意义。相对于传统办法,双重差分法能够避免政策作为解释变量所存在的内生性问题。如果样本是面板数据,那么双重差分模型不仅可以利用解释变量的外生性,而且可以控制不可观测的个体异质性对被解释变量的影响。

其次,主讲人说明了DID的理论框架建立在“自然实验”基础之上的。因为没有自然实验,所谓的DID研究只能称作针对两个虚拟变量交叉相乘项的实证研究。在自然实验下,DID通过选取近似样本 (“控制组”或“对照组”),与实验后样本 (“实验组”或“处理组”)差异的比较,得到统计意义上政策效果的无偏估计。从计量经济学角度来看,DID是使用个体数据进行回归的比较静态法,避免了传统方法中将政策作为“自变量”导致的内生性问题。


然后主讲人重点对DID的反事实逻辑进行讲述:

人们常关心某政策实施后的效应,比如政策对收入的作用。最简单的做法是比较处理组(即受政策影响的地区或个体)的前后差异,这称为“差分估计量”(difference estimator),即将处理组(treatment group)政策实施后的样本均值,减去政策实施前的样本均值。然而,由于宏观经济环境也随时间而变(时间效应),故政策实施地区的前后差异未必就是处理效应(treatment effects)。

为了解决差分法的局限性,常用方法是寻找适当的控制组(controlgroup),即未实施政策的地区,作为处理组的反事实(counter factual)参照系。具体来说,可将未受政策影响的控制组之前后变化视为纯粹的时间效应,即:

综合以上两个差分,即将处理组的前后变化减去控制组的前后变化,可得到对于政策处理效应更为可靠的估计:


这就是所谓的双重差分估计量(Difference inDifferences,简记DD或DID),因为它是处理组差分与控制组差分之差。也就是说DID模型的方法是构造双重差分估计量,通过对单纯处理前和处理后的比较,以及单纯截面比较(处理组vs控制组)的结合构造了差分估计量之后,就要根据不同的数据类型和不同的结局变量Y,分别选用相应的参数检验方法来进行建模。

DID的反事实逻辑能够成立,其基本前提之一是,处理组如果未受到政策干预,其时间效应或趋势应与控制组一样(故可以后者来控制时间效应),这就是所谓的“平行趋势”或“共同趋势”假定。也就是同质性假设。

 

同质性假设表示,处理组和控制组样本除了“政策”影响不同外,其他各方面都应达到近乎相等甚至完全相同的程度,在统计意义上处理组和控制组样本是同方差的。这意味着,处理组和对照组样本在“实验”前具有相同的趋势(平行趋势),故一般采用采用大样本随机抽样、异方差检验实现。

另一个前提是随机性假设,即在自然实验条件下,双重差分方法通过随机化的方式消除那些不可观察的无关因素的影响,对照组不受实验变相的任何影响。

最后,主讲人说明对于不同的数据类型,DID 模型的双重差分估计量的估算方法有所不同。对于独立混合横截面数据,适用于总体一致、范围较大、涉及不同时间点的调查研究。这类数据的DID模型基本形式为:

y:被解释变量(dependent)

T:时间的虚拟变量(dummy variable)

A:分组的虚拟变量

T·A:时间和分组虚拟变量的交互作用。

eit:残差

因此,b3就是我们最感兴趣的双重差分估计量。


对于面板数据,它与独立混合横截面数据最大的不同在于,不同时点的观测值并不是独立分布的。


多数情况下,我们无法保证与个体自身有关的因素与分组变量完全无关,这样就不能保证残差独立于分组变量。为了解决该问题,需将这些因素从残差eit中分离出来。于是引入变量ai,称为固定效应,代表不同个体的自身相关因素。因为它不随时间变化,因此右下角脚标为i,即有:

相比适用于独立混合横截面数据的DID模型,适用于面板数据的DID模型增加了新变量。这样就在一定程度上保证了残差项独立于解释变量这个条件。对于普通的较大范围的调查,很难收集到所有与有关的信息,无法得到这个参数的某个无偏估计系数或关系式,因此通常进行差分来移除而不影响对双重差分估计量的无偏估计,即:

 

经过差分和简化后,就可以通过普通最小二乘法来对面板数据进行回归了。




另一位主讲人付雅楠在上一讲概念简介的基础上,重点从双重差分(DID)线性模型以及回归估计等方面进行讲解。

首先引入简单的例子来再次理解双重差分的基本思想。比如研究铁路穿城而过对城市经济增长的影响。直接将区域分别为r=1和r=0的城市的GDP分别加总然后作差,这样得出的GDP平均之差肯定是存在问题的。为什么呢?这之中存在的问题是可能被铁路穿过的城市在建铁路之前GDP就高,所以我们需要双重差分来剔除这一影响。即先将r=1城市的GDP在时间a和b上作差,得到;同理,r=0城市的GDP也在时间a和b上作差,得到,然后再作差剔除时间效应而得到真正的处理效应。在应用双重差分进行模型构建时,需要满足处理无害性假设和共同趋势假设。此处回忆RDD方法下的连续性假设和条件均值独立假设以及PSM方法下的重叠假设和平衡假设作对比。接下来对独立混合横截面数据(Independent cross-sections )、移动面板(Moverpanel)、非移动面板(No-mover panel)数据进行简单介绍。独立混合横截面数据(Independent cross-sections )是指在不同时点,从同一个大总体内部进行随机抽样,将所得数据混合起来的一种数据集。对于总体一致、范围较大而且涉及不同时间点的调查研究多用此数据。因为数据集都是由独立抽取的观测值构成的,所以满足残差项和区域解释变量是相互独立的。移动面板(Mover panel)与独立混合横截面数据最大的不同是不同时点的观测值并不是独立分布的。非移动面板(No-mover panel)数据是指每一个个体在同一区域被观测两次。

从上述讲解过程中可以看出相对于传统办法,双重差分法能够避免政策作为解释变量所存在的内生性问题,即有效控制了被解释变量和解释变量之间的相互影响效应。双重差分是对RDD和BA的一个极大的改进,有一个控制组反映时间效应而不是处理效应。在双重差分中,只要一组个体接受处理,剩下的作为了控制组。如果样本是面板数据,那么双重差分模型不仅可以利用解释变量的外生性,而且可以控制不可观测的个体异质性对被解释变量的影响。


讲解最后一部分以Card和Kruegerl(1994)对提高最低工资与就业之间的研究为例,进行stata操作。被解释变量为fte(fulltime employment 人数)。实验组的虚拟变量为treated,且当快餐店在新泽西州时,treated=1;当快餐店在宾夕法尼亚州时,treated=0。时间的虚拟变量为t,且当时间为1992年11月时,t=1;当时间为1992年2月时,t=0。剩余解释变量包括快餐品牌虚拟变量bk(Burger King=1), kfc(KentuckyFried Chicken=1), roys(RoyRogers=1), wendy's(Wendy’s=1)。


加入解释变量的stata命令为diff ft,t(treated) p(t) cov(bk kfc roys) robust,结果显示可以看出在10%的显著性水平下,DID的估计参数为2.93。

案例stata操作回归结果

在讲座过程中,中心16级研究生针对两位主讲同学所讲内容中出现的问题作了纠正和点评,16级许艺煊对DID图形刻画和多种数据类型的区分作了补充。整场讲解让同学们都觉得受益匪浅,在轻松活跃的氛围中,大家增进了对双重差分相关知识的掌握。


 

作者信息:

崔琪琪 中国财政发展协同创新中心2017级硕士研究生 邮箱:

547939212@qq.com

付雅楠 中国财政发展协同创新中心2017级硕士研究生 邮箱:

379782427@qq.com

 

编辑:张鹏远

责编:姚广