stata实证分析专题【计量经济系列（三）】

文章目录

1. 数据
2. 有常数项的回归
3. 无常数项的回归
4. 多元回归
5. 对部分满足条件数据做回归
6. predict
7. 系数的检验 test
8. 练习

ʚʕ̯•͡˔•̯᷅ʔɞʚʕ̯•͡˔•̯᷅ʔɞʚʕ̯•͡˔•̯᷅ʔɞʚʕ̯•͡˔•̯᷅ʔɞʚʕ̯•͡˔•̯᷅ʔɞʚʕ̯•͡˔•̯᷅ʔɞʚʕ̯•͡˔•̯᷅ʔɞʚʕ̯•͡˔•̯᷅ʔɞʚʕ̯•͡˔•̯᷅ʔɞʚʕ̯•͡˔•̯᷅ʔɞ
在这里插入图片描述

在这里插入图片描述

1. 数据

use grilic,clear
list s lnw in 1/10

在这里插入图片描述

2. 有常数项的回归

reg lnw s

在这里插入图片描述
其中
SS中Model 表示可以被模型解释的平方和(回归解释平方和)，即ESS。
SS 中 Residual 表示残差平方和（未解释平方和），即RSS。

df表示自由度

MS表示单位自由度的平方和， $\displaystyle MS=\frac{SS}{df}$ ，MS可以用来反映数据的变动趋势，对回归分析有一定参考价值。

Number of obs 表示观测值（数据）的个数

F(1, 756)表示检验整个方程显著性的F 统计量，即 $F (k - 1, n - k)$ 的值，这个在多元回归中更具有研究意义，但是这里还是要先讲一下：
其中k是2，表示有一个常数项，一个自变量的自由度之和为2。
k-1表示减去常数项的自由度。n是758，即758个样本数据的自由度。
将F值与临界值 $F_{\alpha}(k-1,n-k)$ 的大小比较，
在5%的置信水平下，因为n-k大于了120，则视为无穷大，即 $F_{\alpha}(1,\infty)$ 值为3.84，F(1, 756)值为255.7，远大于它，则应拒绝原假设 $N_0$ ：β_1=β_2=…=0(即模型联合不显著)。表明模型是联合显著的。

在使用stata等工具时，相比F值，更常用的是P值。

Prob>F 即P值，
在此例中，
P值为0，即在0.1、0.05、0.02、0.01的显著性水平下，P值都小于他们，也可以得出拒绝原假设的结论，即模型是联合显著的。

R-squared即 $R^2$ ，可决系数，或拟合优度。
Adj R-squared 即修正可决系数

$\overline{R}^2=1-\frac{\sum{e_i^2}/(n-k)}{\sum{(Y_i-\overline{Y})^2}/(n-1)}=1-\frac{n-1}{n-k}\frac{\sum{e_i^2}}{\sum{(Y_i-\overline{Y})^2}}$

Root MSE是均方根误差，也叫方程的标准偏差或方程的标准误差。
其不同于标准差

标准差是用来衡量一组数自身的离散程度，而均方根误差是用来衡量观测值同真值之间的偏差，它们的研究对象和研究目的不同，但是计算过程类似。

计算公式为
Root MSE $\displaystyle = \sqrt{\frac{di^2}{n}}$ $\displaystyle=\sqrt{\frac{{(y_i−\hat{y_i})}^2}{n}}$

其中 $y_i$ 是真实值， $\hat{y_i}$ 是拟合值。而是方差和标准差中则是真实值减去均值进行计算的。

"Coef."表示回归系数（Coefficient），
"_cons"表示常数项（constant）

所以此处得到的回归线为：

$\displaystyle \hat{\ln{w}}=4.391 + 0.097s$

t表示T统计量的值，可以与临界值相比较。
P>|t| 即P值。将其与目标显著性水平相比较，具体不再赘述。

[95% Conf. Interval]则表示置信水平为95%的置信区间。

绘制散点图与回归线

twoway (scatter lnw s)(lfit lnw s)

在这里插入图片描述

3. 无常数项的回归

少数情形，我们希望在做回归的时候施加一定的约束，即x=0时y=0，即截距为零。比如对于一对密度不尽相同的石头，当其体积为0时，质量一定也为0。

noc全称为noconstant

reg lnw s,noc

在这里插入图片描述
上边解释得太详细了，这里的输出结果就不再一一解释了。

两次计算 $R^2$ 的公式是不相同的，
如果使用原来的公式计算没有常数项的方程 $R^2$ ，即

$\displaystyle 1-\frac{\sum_{i=1}^{n}{(y_i-\beta_1x_i)^2}}{\sum_{i=1}^{n}{(y_i-\overline{y})^2}}$

则计算结果为负值。

这里的的 $R^2$ 是由新的公式：

$\displaystyle 1-\frac{\sum_{i=1}^{n}{(y_i-\beta_1x_i)^2}}{\sum_{i=1}^{n}{y_i^2}}$

计算出的。

通过两次回归，可以看到前者仅有0.2527，而后者高达0.9798。无常数项的 $R^2$ 和有常数项的 $R^2$ 之间是不可比的。
在合适的情形下选择不具有常数项的模型，会更具有经济意义。

而且，无常数项的回归结果得到的系数0.4154作为投资回报率，明显是不合理的。
而从有常数项的回归结果中，可以看到常数项的P值为0，说明拒绝原假设，常数项是显著不为0的，也说明此模型的选择应该有常数项。

4. 多元回归

reg lnw s expr tenure smsa rns

在这里插入图片描述
图表读法同上文所述。

回归系数协方差矩阵 vce

vce指的是 variance covariance matrix estimated
使用命令vce可以实现显示回归系数的协方差矩阵。
其对上一次回归命令的回归结果进行操作，而不需要指定参数。

vce

在这里插入图片描述

5. 对部分满足条件数据做回归

其中rns有0和1两种取值，0表示北方，1表示南方，
如果只对南方居民样本进行回归

reg lnw s expr tenure smsa if rns

在这里插入图片描述

反之，只对北方居民做回归，则使用波浪线符号 ~ 表示逻辑否：

reg lnw s expr tenure smsa if ~rns

在这里插入图片描述

对变量s大于等于12且rns为1的数据，且不要常数项：

reg lnw s expr tenure smsa if rns & s>=12,noc

在这里插入图片描述

6. predict

使用predict求被解释变量的拟合值，并生成一列新的变量lnw1

use grilic,clear
quietly reg lnw s expr tenure smsa rns
predict lnw1

其中在命令前加quietly命令，可以使命令悄无声息地执行，而不汇报结果。
使用predict前需要先做回归。
生成的新变量lnw1如图所示，即为被解释变量的拟合值。
在这里插入图片描述

使用predict求计算残差，并生成一列新的变量e

use grilic,clear
quietly reg lnw s expr tenure smsa rns
predict e,residual

在这里插入图片描述

7. 系数的检验 test

使用test命令可以实现对回归系数的检验

还使用grillic数据，
检验教育投资回报率是否为0.1
原假设 $H_0$ 即为： $\displaystyle \beta_2=0.1$ :

use grilic,clear
quietly reg lnw s expr tenure smsa rns
test s=0.1

命令执行效果如下：
在这里插入图片描述
这里汇报看F统计量的值和P值。
由P值等于0.6515过大，故这里无法拒绝原假设。

8. 练习

数据集 airq. dta包含1972年美国加州30个大城市的如下变量:airq(空气质量指数,越低越好) , vala(公司的增加值,千美元) , rain(降雨量,英寸) , coast(是否为海岸城市) , den-sity(人口密度,每平方英里) , income(人均收入,美元)。
(1)把airq对其他变量进行OLS回归。
(2)检验原假设“平均收入对空气质量没有影响”。
(3）检验经济变量density 与 income的联合显著性。
(4)检验环境变量rain 与coast的联合显著性。
(5)检验所有解释变量的联合显著性。