一、内生性与工具变量
当回归方程中的解释变量内生时,直接使用OLS估计的系数是有偏的。工具变量法是处理内生性问题的主要方法,为此我们寻找内生变量X的工具变量Z进行2SLS回归:
首先利用OLS估计:
得到
的拟合值,
再使用
对
进行回归:
,得到
的无偏估计。
一般而言,工具变量至少满足两方面要求:
一是相关性:工具变量必须与内生变量相关;
二是外生性(排他性):工具变量只能通过内生变量这一渠道影响被解释变量。
工具变量的相关性很容易验证,而恰好识别时,工具变量的排他性无法直接检验。实际上,文章中关于排他性的论证不仅决定了工具变量的适用性,也很大程度上决定了一篇文章的好坏。
那么,如何“论证”工具变量的排他性呢?有以下几种思路:
一是定性分析。首先,工具变量的选取不是拍脑袋决定的,而是要在大量阅读相关文献并且在对背景知识十分熟悉之后才能确定。所以,作者往往在引言部分就会对工具变量选取的理由进行一番定性的描述,重点解释为什么文章中选取的工具变量对被解释变量没有直接的影响,其中会涉及许多历史背景知识,并辅以一些简单的数据说明。一篇好的文章,读者往往在读完引言之后,就已经相信了作者的故事。
二是加入控制变量。第二种方法是尽可能对工具变量可能影响被解释的变量的其他渠道进行讨论,加入一些可能与工具变量以及被解释变量相关的控制变量。假若工具变量真的通过这些其他渠道对被解释变量产生了影响,那么我们预期回归系数会发生较大改变;反之,则说明原先基础回归中的结果是稳健的。退一步说,哪怕真的存在工具变量不外生的情况,只要这种疑似的内生性不够大,我们仍然可以使用此工具变量。
三是证伪检验。证伪检验的思想是:假如第一阶段回归中工具变量的估计值等于零,并且工具变量又没有其他渠道可以作用于被解释变量,那么在
的直接估计方程中,其估计值也应该相应为零。
四是过度识别检验。当工具变量个数大于内生解释变量个数时,我们可以利用进行Sargan检验、HansenJ检验,判断工具变量的外生性。该检验的原假设为:所有的工具变量都是外生的。如果结果拒绝了该原假设,则说明至少有一个工具变量不是外生的。不过要注意的是:拒绝原假设只是表明存在着无效的工具变量,却无法告诉我们哪些工具变量是无效的。
(