学生风采

当前位置: 首页 >> 学生风采 >> 正文
【“微观计量工作坊”第2期】样本独立性与协变量控制
2017年11月30日    编辑:    浏览量:    


10月25日,中国财政发展协同创新中心微观计量工作坊第二讲在沙河校区主教402举行,中心2016级和2017级研究生全部参加。此次工作坊吸引了不少其他学院学生的参与。在讲解的过程中,同学们认真听讲并积极互动,精彩充实的讲解引起了同学们阵阵掌声!

本期主讲人为中国财政发展协同创新中心2017级研究生崔琪琪、付雅楠,

崔琪琪为大家讲授样本独立性

 


付雅楠为大家讲授样协变量控制


(一)样本独立性

这部分主要介绍有关独立和偏误的内容,通过直观的例子重点介绍独立和条件独立,以及偏误和由偏误而引起的一个统计学中的悖论。

首先,主讲人以工资、职业培训和能力的关系解释了独立和条件独立:

培训d会影响能力yj和工资x,而能力yj会影响工资x。但是我们只需要知道培训d对工资x的影响,得出的结论是:

即独立和条件独立是:在x的条件下d与yj独立并不一定代表d与yj独立,但是d与yj独立一定代表x的条件下d与yj独立。在此基础上我们探讨了一个问题:如何确保仅因为培训使得工资增长,而不是培训和能力这两个相关变量共同导致工资增长呢?结论是通过随机分配,把处理组和对照组的能力都变为相同的,再经过“培训”,得到的工资做差就能得到仅由“培训”的作用使工资产生的变化。

其次,为了解释偏误是怎样在我们选取样本时出现的,我们举了一个有关“素食主义能否影响平均寿命”的例子。实验最初的模型如下:

实验第二步通过改变处理组男女性别比例(80名女性和23名男性),此时处理结果为E(y|d = 1) - E(y|d = 0) = 78.707 - 72.620 = 6.087

实验得出素食主义者的寿命更长。这与事实不符,那么我们的实验为什么得出这样一个错误的结论呢?不难发现正是由于处理组中女性人数占比过多且女性总体的平均寿命长于男性,所以才产生了错误的结论。在这个过程中由于处理组女性人数占比过多而产生的错误就是一种显性偏误(overt bias)。

实验第三步模型改变为:

(即di和y不独立)。此时处理结果如下:

E(y|d= 1) - E(y|d = 0) = 79.605 - 68.911 = 10.694

实验结论又是素食主义者寿命更长,而且这次与真实的实验结果相差更大。这就是由于di与y不独立而导致的隐性偏误(covert biases)。

以上说明了控制组变量的选择误差与忽略样本的独立性会导致偏误,所以我们在选取样本时要注意消除偏误。

最后主讲人介绍了因为存在遗漏变量、对遗漏变量没有细分,就可能得到一些总样本上看似合理,但细分后样本却完全错误的结论,即“辛普森悖论(Simpson's Paradox)”。我们以P大、T大物理学院和外语学院的男女比例问题为例:

表1 物理学院数据


男生人数

女生人数

男:女

P

45

8

5.6:1

T

101

51

2:1

表2 外语学院数据


男生人数

女生人数

男:女

P

50

201

0.25:1

T

9

92

0.1:1

由表1、表2我们可以看出两个专业P大的男女比例都高于T大。

我们再看表3的总体数据:

表3 学校整体数据(即上述两个专业人数之和)


男生人数

女生人数

男:女

P

95

209

0.45:1

T

110

143

0.77:1

 

P大的总体男女比例低于T大!怎么可能P大的所有专业男女比例都高于T大,但是整体男女比例却低于T大了呢?数据可不会是骗人的,但真的出现了这种违背常理的情况。这种现象被称为“辛普森悖论”。为了更直观地表现出辛普森悖论,我们看下面一幅向量图:

 

上图中,黑色的线代表P大数据;红色的线代表T大的数据。AP点的横坐标为P大外院女生人数,纵坐标为P大外院男生人数;BP点的横纵坐标则分别为P大总女生人数和男生人数。At和Bt点的意义与之相对应。

设坐标原点为O,则OAP的斜率表示的就是P大外院的男女比例,APBP表示的是P大物院的男女比例,OBP表示的则是P大总男女比例;T大的各线段斜率意义与之对应。

辛普森悖论反映在这张图上,就成了一个显然的事实:在P大的外院、物院两个向量的斜率分别大于T大的两个向量的斜率的条件下,总人数向量的斜率不一定哪个大。

知道了辛普森悖论这一事实之后,我们以后对待统计数据就要更加小心。所以在选择变量时要对关键变量,特别是直接影响被解释变量的变量进行细分,以确保结论正确。

 

(二)协变量的控制

为了避免效果估计的显性偏差,我们要对协变量x进行控制。主要从必须控制(must case)、否-否控制(no-nocases)、是否控制(yes/no cases)、和可选择控制(option cases)四种案例进行分析。

在必须控制情况下,我们考虑健康(x)均会影响工作的决定(d)和看医生的频次(y),即当协变量x为预处理变量(pre-treatment covariates)对d(处理)和y(结果变量)同时产生影响时,必须实施控制,那么控制x之后条件效果才能被界定。

在否-否控制情况下,w是后反应变量(post-response),不应该被控制。因为固定的w会消除部分或者全部d对y的影响。极端情况下,如果w是y的一一对应函数,固定w就是固定y,这样总会导致处置效应为0(treatment effect),因为比较的都是相同的y值。比如,我们想要研究生活在农村的人外出转移到城市幸福的效果,通过e1表示去电影院,e2表示去饭店两种途径。处理组是城市居民,控制组是农村居民,影响d和y的协变量应该被控制(例如婚姻状况、学龄儿童人数)。但是控制去电影院的机会是错误的,因为多去电影院的机会是城市生活的一部分,极端情况下,如果控制了城市生活和农村生活的所有层面,那么二者之间就没有差异了;在是-否控制情况下,d直接影响y,同时也通过w间接影响y。w是处理后变量(post-treatment),因为受d的影响,如果w是固定的,那么d和y之间因果关系是0。

在是否控制情况下,如果我们想知道除去w以后,d对y的净影响,那控制w就是正确的选择。否则,如果我们研究d对y的影响就不需要控制w,如果我们要研究d和y之间所有可能的因果关系,那么在这中间的任何变量都不应该被控制。这里我们举一个例子,关于学生接受教育项目对收入的影响研究,在研究中规定学生在接受教育项目(d=1)之后,只有待在学校学习获得毕业证(w=1)才能让教育项目对收入产生作用。这样就可以解释学生接受教育项目并获得毕业证后与收入之间的因果关系。


在可选择控制情况下,我们构建的方程如下,d和z都会对y产生影响并且二者之间是相互独立的,z可以是预处理或者后处理变量,在处理组和控制组是分布平衡的,所以控制z是可供选择的。选择控制和不控制z对整个回归方程的系数的影响主要表现在βd和βdz,对于二者的分离也可以分别研究不同的因果关系效应。

下面介绍一个综合的情况,must (i) 和yes-no (ii)的结合,我们在这里面临一个两难的境地:

如果不控制xp会导致偏误,如果控制xp,我们只有yes-no (ii) 中d对y的直接影响被界定。此处我们借鉴Rosenbaum(2002)一个关于Proxy (iii)有趣的例子,下图中的字母各自代表的含义为:x是高中学生的能力或者质量;d是高中第一年由学生自我选择的教育项目;xp是第二年的测试分数(xp是后处理变量);y是第三年的测试分数。不控制xp意味着x在控制组和处理组的潜在不均衡,控制xp意味着减弱d对y的影响。下图展现的研究路径是高中生的能力或质量对第一年是否选择教育项目有影响,而参加教育项目之后会对第三年的测试分数产生影响,同时参加教育项目能够对第二年的测试分数产生影响,第二年的测试分数又会对第三年的测试分数有影响。因为高中学生的能力是无法直接观测的,所以使用第二年的测试分数来反映高中生的能力或质量。

 

接下来,本部分的讲解进一步区分了偏差和误差的区别,偏差是由于模型设定产生,是需要在研究过程中进行调整的项目,误差是研究中客观存在的,也是无法运用模型设定来彻底解决的。然后从顶刊论文中发掘解释结构化形式(structured form)和简约化形式(reduced form)的区别与联系。最后是对照组偏差。假设我们有处理组的一个人y1是可观测的。如果我们在对照组有一个一模一样的复制版(carboncopy),那个人将会产生反事实框架y0。我们就能够得到个体的处理效应 y1? y0。但现实中是不可能出现这样完美的对应个体的。所以对照组是构造准实验的关键。未接受处理的结果y0与接受处理的结果y1要与d|x独立,在构造反事实框架的情况下,保证y0与y1各自的对照组偏差为零。

本讲主要是对基础微观计量知识的回顾,那么下一讲就会进入干货——具体计量方法的学习啦!11月29日(周三)微观计量工作坊第三讲将在沙河校区图书馆一层继续进行,主要内容为断点回归(Regression discontinuity design),讲解会结合国际顶级期刊论文的具体实践分析,有助于同学们深入了解和掌握微观计量经济学的方法原理,应用到评估政策实际效果的实践中,为大家提供能够识别因果效应的准确且严谨的实证分析技术。

我们期待同学们一起来头脑风暴!不见不散!


 

作者信息:

崔琪琪 中国财政发展协同创新中心2017级硕士研究生邮箱:

547939212@qq.com

付雅楠 中国财政发展协同创新中心2017级硕士研究生邮箱:

379782427@qq.com


编辑:张鹏远

责编:姚广