科学网

 找回密码
  注册

tag 标签: 工具变量

相关帖子

版块 作者 回复/查看 最后发表

没有相关内容

相关日志

工具变量思想不扯,内容在扯!
热度 1 yanghualei 2010-9-13 18:45
在做回归模型中把影响被解释变量Y的所有因子归结为全变量T 当把T拆分为解释变量A 与随机扰动项e,而T与e存在相干时 为提高模型的精确度并进行很好的预测和估计 须寻一方法 消除这种 相关性, 工具变量是对策集合中的一种 其基本思想: 寻找一个中间变量 F使得A=A(F),但F与e不相干 并满足 关系A+e=T=F+e,但问题在于 根据公式可推理出 F=A 感觉内容是在扯, 因为工具变量竟然是自己 既然A与e存在相干即有交叉项,说明对全变量T的分解 存在问题 若采用新的不存在交叉项的分解即T=C+D 不就解决了问题? 此法关键是对不相干因子组(C D)的寻找
个人分类: 数学沙滩|4840 次阅读|1 个评论
面板数据工具变量选择和HAUSMAN检验的若干问题及在STATA中的实现
zhao1198 2010-2-16 22:04
复旦陆铭教授 http://hi.baidu.com/lyunsun/blog/item/9e09487fed70210d29388a20.html 此短文适用于对于面板数据和工具变量已经有初步了解的人士,阅读过中级教材的相关内容。本文仅供参考,如果存在错误,请与 minglu73@263.net 联系,以便及时纠正。请原谅中英文混用。中国科学院的徐志刚博士一一指明了此文存在的错误,并且对原文中存在的不足作了大量的补充,特表示感谢。 第一节 关于面板数据 PANEL DATA 1 、面板数据回归为什么好 一般而言,面板数据模型的误差项由两部分组成,一部分是与个体观察单位有关的,它概括了所有影响被解释变量,但不随时间变化的因素,因此,面板数据模型也常常被成为 非观测效应模型 ;另外一部分概括了因截面因时间变化的不可观测的因素,通常被称为 特异性误差或特异扰动项 (事实上这第二部分误差还可分成两部分,一部分是不因截面变化但随时间变化的非观测因素对应的误差项 Vt ,这一部分一般大家的处理办法是通过在模型中引入时间虚拟变量来加以剥离和控制,另一部分才是因截面因时间而变化的不可观测因素。不过一般计量经济学的面板数据分析中都主要讨论两部分,在更高级一点的统计学或计量经济学中会讨论误差分量模型,它一般讨论三部分误差)。 非观测效应模型一般根据对时不变非观测 效应的不同假设可分为固定效应模型和随机效应模型。传统上,大家都习惯这样分类:如果把非观测效应看做是各个截面或个体特有的可估计参数,并且不随时间而 变化,则模型为固定效应模型;如果把非观测效应看作随机变量,并且符合一个特定的分布,则模型为随机效应模型。 不过,上述定义不是十分严谨,而且一个非常容易让人产生误解的地方是似乎固定效应模型中的非观测效应是随时间不变的,是固定的,而随机效应模型中的非观测效应则不是固定的,而是随时间变化的。 一个逻辑上比较一致和严谨,并且越来越为大家所接受的假设是(参见 Wooldridge 的教材和 Mundlak1978 年 的论文),不论固定效应还是随机效应都是随机的,都是概括了那些没有观测到的,不随时间而变化的,但影响被解释变量的因素(尤其当截面个体比较大的时候, 这种假设是比较合理的)。非观测效应究竟应假设为固定效应还是随机效应,关键看这部分不随时间变化的非观测效应对应的因素是否与模型中控制的观测到的解释 变量相关,如果这个效应与可观测的解释变量不相关,则这个效应成为随机效应。这也正是 HAUSMAN 设定检验所需要检验的假说。 非观测效应模型因为对非观测效应假设的不同,因为使用面板数据信息的不同,可以用不同方法来估计并且得到不同的估计量,一般有四个: ( 1 )组内估计量( WITHIN ESTIMATOR )( FE 或 FD: First Difference ) ( 2 )组间估计量( BETWEEN ESTIMATOR ) ( 3 )混合 OLS 估计量( POOLED OLS ESTIMATOR ) ( 4 )随机效应估计量( RE , GLS 或 FGLS 估计量) 这四个估计量因为假设和使用信息的不同而不同,各有优劣势,相互之间也有密切关系。 3 和 4 分别是 1 和 2 的加权平均; 4 在特定的假设分别可以转化成 1 和 3 ;如果 HAUSMAN 检验表明 4 和 1 没有区别的时候意味着 1 和 2 没有区别。 RE 假设未观察因素与解释变量是正交的,只不过在未观察因素里有两个部分,一是与个体单位有关的,二是完全随机的, RE 在做估计的时候,是用这两个部分的方差计算出一个指数 ,来做 quasi-demean ,也就是说在去平均的时候是用原值的 y 或 x 减去 乘以 y 或 x 的均值,然后用 GLS 估计。极端地,当 为 0 时,非观测效应是一个常数,并且所有个体都一样,就等价于 Pooled OLS ,当 为 1 时,说明完全随机的部分可以忽略,所有未观察因素都是与单位有关的,于是就等价于 FE 。但 FE 不需要假定未观察因素与解释变量是正交的,在做 FE 时,固定效应都被差分掉了,所以也可得到 consistent 的结果。 PANEL 数据的好处之一是,如果未观察到的是固定效应,那么在做 DEMEAN 时,未观察因素就被差分掉了。这样就可以减少由于未观察的因素可能与解释变量相关而导致的内生性问题。 2 、那么 PANEL 的 FE 或 RE 分析就避免了内生性问题吗? 只能说好一些,如果内生的问题只 是由于与单位有关的并不随时间变化的遗漏变量与解释变量有关造成的,这时,数据的差分就解决了问题,但是,别忘记还有一部分误差,如果这部分误差里包含的 因素也可能影响解释变量,那么,差分只能解决前面讲的问题,由随机项里包括的因素与解释变量之间的关系导致的内生性问题还可能存在。 3 、怎么办? 找 IV 解决。类似于在 OLS 基础上找 IV ,但对 PANEL 的工具应该具有 PANEL 结构,除非你基础的估计没有使用 PANEL 的方法,比如说对数据用了 pooled OLS 方法,但能够用 pooled OLS 方法分析 PANEL DATA 的条件是很严格的。 第二节 关于工具变量选择 1, IV 应该尽量是外生的(如历史 / 自然 / 气候 / 地理之类),它 应该在理论上对 被解释变量(以下称 Y )没有直接影响,但应该通过影响被工具的变量(以下称 X )而间接影响被解释变量 Y 。 2, 如果上述理论逻辑通的话,将内生变量 X 作为 被 解释变量, IV 和其他变量( X2 )作为解释变量,看 IV 是否显著,它应该显著 。如果选了多个 IV ,就用 F TEST 看其是否都不显著。同时,如果在多个 IV 中,有一个是确定为外生的,那么,可以用 Sargan test of overidentifying restrictions 来检验其他的 IV 是不是确实是外生的。 3, 如果上述都没有问题,做一下 IV 回归。完成后,用 HAUSMAN 检验,这个检验的原假说是 IV 回归与原回归(不用 IV 的回归)的变量的系数并没有显著的不同。看一下 P 值,如果 P 小于比如说 0.1 ,或者 0.05 ,那么,说明 IV 回归与原来的回归显著不同,原来的方程的确有内生性问题导致的估计偏误。 反之,如果 P 很高,超过 0.1 ,或 0.05 ,那说明 IV 回归与原来的回归没有显著不同,无法拒绝原来的回归没有显著的内生问题 导致的估计偏误的原假设 。 4, 如果选择的 IV 本身就影响 Y ,那它就不能被作为 IV 。例如, Y 在左边,右边是 X (被工具的), X2 , IV 。当 IV 被放在方程右边时,它最好是不显著影响 Y 的。在 Acemoglu ( 2001 )里,他就检验了他们的 IV 是否直接影响被解释变量,结果说明不直接影响,于是这个 IV 是好的。 当然,一个好的 IV 在前面的回归中也可能是显著的(不过一般如果理论和逻辑上 IV 是通过被工具的内生解释变量间接影响被解释变量的话,一般来说应该是被工具的内生解释变量使得 IV 不显著,或者由于两者相关性很高,两者都不显著),但判断的标准还只是 t 值。这个变量显著完全有可能是因为它影响了其他显著的变量(比如被工具的变量),如果是这样,当包括了 IV 在原方程中以后,其他变量(特别需要注意的是被工具的变量 X )的系数可能发生明显变化。 第三节 关于HAUSMAN TSET(以下简称HT)的若干细节问题 具体参见Stata corporation, 2001, STATA 7 Reference H-P, Stata Press 1,含义:The null hypothesis is that the efficient estimator is a consistent and efficient estimator of the true parameters. If it is, there should be no systematic difference between the coefficients of the efficient estimator and a comparison estimator that is known to be consistent for the true parameters. If the two models display a systematic difference in the estimated coefficients, then we have reason to doubt the assumptions on which the efficient estimator is based.参见手册Stata corporation, 2001, STATA 7 Reference H-P, Stata Press。该方法是Hausman (1978)的程序化。所以,Hausman Test的命令(hausman)假设使用者知道需要比较的两个方程中哪一个是无论原假说成立与否都是consistent,哪一个在原假说下不仅efficient而且consistent,但若原假说不成立,则inconsistent,1然后,在STATA 8下,步骤是: (1) obtain an estimator that is consistent whether or not the hypothesis is true; (2) store the estimation results under a name-consistent using estimates store; (3) obtain an estimator that is efficient (and consistent) under the hypothesis that you are testing, but inconsistent otherwise; (4) store the estimation results under a name-efficient using estimates store; (5) use hausman to perform the test hausman name-consistent name-efficient 举例 (1)在关于是FE还是RE的检验中,原假说是非观测效应与解释变量不相关 ,备择假说是两者相关。FE是无论原假说成立与否都是consistent,而RE在原假说下是consistent,并且Asymptotically efficient(样本越大越有效),但如果原假说被拒绝,则RE不是consistent的 (Hausman, 1978)。 所以做法应该是(STATA 8的命令): sort code year (排序) tis year (时间变量是year) iis code (表示单位的是code) xtreg y x x2, fe(假设其中x是需要被工具的变量) est store fixed (在STATA8里命令有变化,不再是HAUSMAN,SAVE了,这里的fixed实际上就是个变量名,用什么都行) xtreg y x x2, re hausman fixed (2)比较OLS(或FE)和IV(或IVFE) 先做IV,因为,它无论如何都是consistent的,但OLS只有在原假设成立,即OLS结果与IV结果相同,内生性问题没有时,才是consistent的。所以,应该先做IV。 在老版本的STATA里,如果不加特殊说明,STATA就会默认为先写的回归命令得到的是总是一致的估计结果,后写的得到的是备择假设下不一致的估计结果。现在HAUSMAN命令规范了,而且扩展了。先跑哪个不重要,关键在于写最后HAUSMAN命令时候的顺序,而且如果最近跑的一个没有用EST存名字的话,要用.代替。 2.注意: (1)对以上检验的理解的另一种方式是,我们先做一个假设条件要求更松的估计,然后再做一个假设条件更严格的。相比之下,IV(IVFE)比OLS(FE)要求更松。容易搞混的是FE比RE假设条件更松。RE假设未观察因素与解释变量是正交的,只不过在未观察因素里有两个部分,一是与个体单位有关的,二是完全随机的,RE在做估计的时候,是用这两个部分的方差计算出一个指数,来做quasi-demean,也就是说在去平均的时候是用原值的y或x减去乘以y或x的均值,然后用GLS估计。当为0时,就等价于pooled OLS,当为1时,说明完全随机的部分可以忽略,所有未观察因素都是与单位有关的,于是就等价于FE。但FE不需要假定未观察因素与解释变量是正交的,在做FE时,固定效应都被差分掉了,所以也可得到consistent的结果。当我们先做假设更严格的估计时,HT与一般检验一样,检验值大,P小,则原假说拒绝,应该接受假设更松的。在FE与RE的比较里,卡方大,接受FE。在OLS(FE)与IV(或IVFE)的比较里,当卡方值大时,P小时,拒绝原假说,IV结果和OLS(或FE)有不同,于是接受IV结果。 (2)从以上讨论可以看出,我们需要事先知道HT时两个方程的顺序和性质。在STATA7以下,当使用hausman命令时,它默认的顺利(缺省参数more)就是上面的顺序。如果你做的顺序相反,就应该加上参数,命令为hausman, less,如果没有写less,那么,STATA是不知道谁更efficient的,这时,你本来应该得到一个正的结果,就完全可能因为顺序错了,又忘记了参数less而得到一个相反的负数结果。 在STATA8里命令变化,可以变顺序,但要使用者注意正确使用参数: The order of computing the two estimators may be reversed. You have to be careful though to specify to hausman the models in the order always consistent first and efficient under H0 second. It is possible to skip storing the second model and refer to the last estimation results by a period (.). (3)在其他可比较的情况下,顺序并不重要(如果没有谁更有效的差别) hausman may be used in any context. The order in which you specify the regressors in each model does not matter, but it is your responsibility to assure that the estimators and models are comparable, and satisfy the theoretical conditions (see (1) and (3) above). (4)当HT出现负值时 先看一下是不是方程顺序错了。如果没有错,那么在小样本数据下也并不是不可能得到负值。当HAUSMAN检验的X2值是负的时候,意思是强烈地表明两个被比较的回归结果系数相同(或者说无显著差异)的原假说不能被拒绝,尤其是小样本中很可能出现。这是STATA7的使用手册上的一个例子说的。但在STATA8里,又说,出现负值这种情况时,If this is the case, the Hausman test is undefined. Unfortunately, this is not a rare event. Stata supports a generalized Hausman test that overcomes both of these problems. See suest for details.可以通过help suest了解。 3.STATA命令 (1)比较FE和RE sort code year (排序) tis year (时间变量是year) iis code (表示单位的是code) xtreg y x x2, fe(假设其中x是需要被工具的变量) est store fixed (在STATA8里命令有变化,不再是HAUSMAN,SAVE了,这里的fixed实际上就是个变量名,用什么都行) xtreg y x x2, re hausman fixed (2)比较IVFE和IVRE xtivreg y (x=iv) x2, fe est store f1 xtivreg y (x=iv) x2, re hausman f1 一般来说用不着这个比较,因为在这之前,你已经知道FE和RE谁好了,就将好的结果与它的IV结果比就行了。 (3)比较IVFE和FE xtivreg y (x=iv) x2, fe est store f2 xtreg y x x2, fe hausman f2 再重复一遍,如果结果是P小,卡方大才说明IV回归是必要的,原来是有内生问题 第四节 举例 Acemoglu 等人 (2001) 的 文章是非常有代表性的使用工具变量的论文。他们试图验证制度对人均收入有影响,显然,直接做回归的话,制度就是内生的,因为好的制度可能在人均收入高的地 方产生。他们找的工具变量是殖民地时代一个国家的死亡率,死亡率高欧洲人就不会定居下来,于是就会在当时建议掠夺性的制度,反之就会建立好的制度,而那时 的制度对现在仍然有影响。 特别值得注意的是论文的 6.3 部分对于工具变量的有效性的检验。首先,他们用其他可行的变量作为替代来反复做 IV 回归,发现得到的结果与用死亡率作 IV 得到的结果基本相同。(这当然是不错的结果,但是,我认为这不是必要的,因为你并不一定能够找到其他的 IV 。)然后,他们将死亡率本身作为外生变量放在原回归里,发现它不显著地影响被解释变量,这说明它并不直接影响被解释变量。第三,他们把只用死亡率的 IV 结果和同时用死亡率和其他 IV 的结果进行卡方检验,发现它们没有显著不同,再次说明死亡率没有直接影响,也不是通过影响制度以外的其他变量影响被解释变量的。我认为这一步也不是必要的,因为如果你没有其他 IV ,这一步也就没有办法做了。 Appendix: (1) The definition of unbiased, consistent and efficient. 关于这一部分的一些概念详细说明: 参数估计无偏是指参数估计量的均值或期望值等于参数真值, 偏倚 是两者的差异 ; 参数估计 效率 (有效性)是指参数估计量的离散程度或精度,用参数估计量对其期望值的方差表示 ; 参数估计的 一致性 指当样本容量趋向无穷大时,参数估计(无偏或者有偏)趋近于参数真值,也就是收敛于参数真值。 一般来说,参数估计的评价首先看无偏性,再比较有效性,这是评价参数估计量优劣的两个主要准则。两个无偏的估计量,方差比较小的估计量效率(精度)更高。 不过,在很多情况下,我们必须在估计量的偏差和方差之间做一定的选择。比如如果我们建模的目的是使预测精确度最大,方差很小而有偏差的估量可能比无偏而方差大的估计量要更好一些。在这种情况下,一个很有用的标准是比较参数估计的 均方误差 (也有翻译成 平均偏差平方 ),小的比较好(均方误差最小准则)。 均方误差是同时考虑无偏性(偏倚)和有效性(精度)的指标,用参数估计值与真实值的偏差平方表示(不同于参数估计的方差是参数估计对其期望的偏差平方) 。均方误差可以分解为参数估计值的方差(有效性)和其期望对参数真值的偏差(无偏性)两部分。 。当参数估计是无偏时,第二部分为零,均方误差就剩第一部分,等价于参数估计的方差。 均方误差由于同时考虑无偏程度和有效性,不仅可以用于无偏估计之间的比较,而且可以用于无偏估计和有偏估计之间的比较。而用有效性来评价估计优劣一般来说首先需要两个估计都是无偏的。 均方误差 趋向于 0 意味着估计量是渐进无偏的,并且当样本容量非常大时,它的方差趋于 0 。事实上 均方误差 趋于 0 的估计量是一致估计量。 因此,如果遵循 均方误差 最小的准则来评价参数估计,那么,一个无偏的但当样本容量增大时始终对真值有比较大的离散度的参数估计,还不如一个有偏但均方误差更小的估计量更令人放心。 lyunsun:公式在这里没办法显示。需要了解具体过程的请阅读相关基础计量经济学书籍,个人推荐StockWatson 的Introductioni to Econometrics(英文影印版,上海财经大学出版社)或者Woodridge的计量经济学导论(英文影印版,清华大学出版社)。或者GREEN的 Econometric Analysis等高级计量经济学教材。 Refer to the appendix for the definition of unbiased, consistent and efficient. 参考文献: Acemoglu, Daron, Simon Johnson and James A. Robinson (2001) The Colonial Origins of Comparative Development: An Empirical Investigation, American Economic Review , December, Volume 91, Number 5, 1369-1401. Stata corporation, 2001, STATA 7 Reference H-P, Stata Press. Hausman, Jerry A. and William E. Taylor, 1981, Panel Data and Unobservable Individual Effects, Econometrica, Vol. 49, No. 6, 1377-1398. Hausman, Jerry A., 1978, Specification Tests in Econometrics, Econometrica, Vol. 46, No. 6, 1251-1271. pdf版
个人分类: ecmt|267 次阅读|0 个评论

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-6-3 17:42

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部