学生风采

当前位置: 首页 >> 学生风采 >> 正文
【“微观计量工作坊”第3期 】断点回归设计
2017年12月26日     浏览量:    


        11月1日,中国财政发展协同创新中心“微观计量工作坊”第二期研讨会在中央财经大学沙河校区主教402如期举行。本次研讨会由16级研究生张鹏远、许艺煊担任主持与点评,17级研究生李静、刘若熙、张磊、巴杨担任主讲人。17级财政基础理论团队研究生及其他学院同学也积极参与到现场的学习与讨论中。

李静为大家讲授断点回归设计


刘若熙为大家讲授断点回归设计

        本次研讨会围绕微观计量中重要的实证方法“断点回归设计”展开。主要包括两部分,第一部分是清晰断点回归设计讲解,第二部分是模糊断点回归设计讲解。在基础理论部分,李静同学首先引入教育心理学中的基本案例——“排名在前20名的同学获得奖学金对于学业的激励效果”,介绍断点回归的基本思路与估计方法。断点回归设计的基本思路是分析排名在20名前后的几位同学是否获得奖学金,对这20名同学而言,除奖学金因素其它影响学生学业成绩的其他因素几乎完全相同,因此在断点附近提供了一个准实验环境。

        尽管在现实中无法实现随机实验,但是上述两条假设可以看作是关于阈值的随机实验假设,接近断点的个体除了处理效应外其他条件都是相似的,上述假设1是为了满足不可观测变量的相似性;假设2是为了满足可观测变量的相似性。由上述模型可知,就是我们从中要得到的处理效应。接下来的工作就变成了估计:

                    

表1  样本分组(D1,D0分别表示中签和未中签的处理状态)

样本分组

处理状态

依从者(Compliers)

D1-D0=1

始终接受者(Always-taker)

D1-D0=0

从不接受者(Never-takers)

D1-D0=0

反常者(Defiers)

D1-D0=-1



图1  简单的清晰断点回归示例

(图片来源:Lee D, LemieuxT. 2010. Regression discontinuity designs in economics. Journal of EconomicLiterature 48(2): 281-355.)


         具体而言,即清晰断点中处理效应仅受驱动变量的影响而变动,而模糊断点还要考虑除驱动变量外的误差项等因素影响。


        确定估计对象后,需进一步分析如何对进行估计。主要的估计方法包括参数估计与非参数估计。参数估计要求明确参数服从某种分布,明确模型的具体形式,从而给出参数的估计值。而非参数估计是指对解释变量的分布状况与模型的具体形式不做具体规定,运用核密度函数与带宽(bandwidth)进行模拟,逐步逼近,从而找到相应的模型。在选择核函数估计时,最常用的是三角核函数,即对断点附近的观测值赋予不同的权重。估计时选择带宽(即观测值的数量)越小,估计结果的内部有效性越强;带宽越大,观测值多,方差更小,估计更加稳健。断点回归具有很强的内部有效性(Internal validity),即断点回归识别的是局部平均处理效应(local averagetreatment effect),包括多工具变量下的2SLS方法(使用互相分离的工具变量和估计加权平均的LATE)和多种处理强度下的潜在结果分析方法(依从工具变量的个体潜在结果计算的平均差异)。LATE估计方法适用于断点回归,因为模糊断点只能估计在断点前后处置状态变化的个体,因此是局部的。而清晰断点中,所有个体在断点前后处置状态都会变化,所以识别的仍然是平均处理效用(average treatmenteffect)。

        断点回归具有非常广泛的应用,比如:(1)教育中的“门槛”:分数线、助学金、班级规模等对教育成果的影响;(2)地理空间的分界线:如学区房(Black,1999);淮河线(Ebenstein A, etal,2017);(3)政策计划的影响:如禁酒年龄(21岁)与死亡率的关系(Carpenter,2007)等。但是在应用断点回归也要特别关注其外部有效性(External validity),断点回归只能够识别断点附近的因果效应,对断点附近进一步扩展就不能提供有效的因果效应估计。

图2  断点回归的参数估计

(图片来源:Lee D, Lemieux T. 2010. Regressiondiscontinuity designs in economics. Journal of Economic Literature 48(2):281-355.)

        此处,我们也可以将断点回归与事前事后效应(扰乱的时间序列设计,或者“事前断点”“事后断点”设计)展开对比,熟悉的before-after(BA)是RD的一个特例,在这种情况下,时间作为一个连续的处理判断变量。使用两个局部的样本组,RD可以被视为是实施一种LSE(最小二乘法)。如果处理是内生的和模糊的,因为处理并不完全由连续变量决定,可以用IV来做。BA中的时间维度不是连续的,且BA的控制变量在处理前,处理变量在处理后。正如RDD中一样,BA定义了事后效应E(y0-y1ld=1)在y0y1时的情况。在BA模型中,一个重要的概念即在前面章节所讲述的“反事实实验”,且要求处理前的时期与处理后的时期相同,保证处理效应应该被清晰度量且快速产生,其效应变动应该比其他变量的变化快,这就等同于RDD的随机边缘,在一个小范围邻域里,仅比较事前和事后的效应值,因为其他的改变影响不可能短期产生。同时需要注意的是,如果处理效应持续产生且这个效应被错误地使用,那么就很难去分割处处理效应和时间效应(其他随时间变化产生的效应)。

        本次讲座中,中心16级研究生针对断点回归中的实际应用问题、论文设计思路等面向听众展开讨论,同时针对断点回归中的清晰断点与模糊断点进行总结。现场听众也积极提问讨论,在活跃的讨论中,大家增进了对断点回归问题的理解。在下一期的微观计量工作坊中,我们将带来协变量匹配和倾向得分匹配的讲解,欢迎大家的到来和参与!

 


[1]Overlap assumption(重叠性假设): 在估计处理效应时要满足随机实验的原则——其他条件不变(ceteris paribus),我们要求除了接受处置的条件不同外,处理组与控制组在组间无差异,那么overlap inx就表示x在组间要具有相同的分布、表达、状态等。但在实际估计处理效应时,我们往往会遇到weak overlap或者no overlap的问题,此时就需要引入控制变量来解决。举例:在研究教育回报(奖学金对学业的激励效果)时,协变量(如智力水平等)要满足overlap,即处理组和控制组学生的智力水平有很大的重叠性,从而对于最终的结果变量(学业)没有决定性的影响,因此我们用断点回归能够识别因果效应。

 

撰稿:

中国财政发展协同创新中心17级硕士研究生 李静 leejinglove17@163com

中国财政发展协同创新中心17级硕士研究生 刘若熙 monacoliu@163.com


编辑:张鹏远

责编:姚广