引言
本文中主题是内生性,它可能严重偏向回归估计。我将专门模拟由遗漏变量引起的内生性。在本系列的后续文章中,我将模拟其他规范问题,如异方差性,多重共线性和对撞机偏差。
数据生成过程
考虑一些结果变量的数据生成过程(DGP)
# simulation parameters
set.seed(144);
a=50; b=.5; c=.01;
x=rnorm(n=ss,mean=1000,sd=50);
z=d+h*x+rnorm(ss,0,10)
模拟
模拟将估计下面的两个模型。第一个模型是正确的,它包含实际DGP中的所有术语。但是,第二个模型省略了DGP中存在的变量。相反,变量被误入了误差项
sim=function(endog){
e=rnorm(n=ss,mean=0,sd=10)
# Select data generation process
if(endog==TRUE){ fit lm(y~x) }else{ fit=lm(y~x+z)}
return(fit$coefficients)
}
sim_results_endog=t(replicate(trials,sim(endog=TRUE)))
仿真结果该仿真产生两种不同的采样分布