0
点赞
收藏
分享

微信扫一扫

线性回归违背基本情况的假设-异方差、自相关、异常值

王小沫 2022-02-15 阅读 111

参考:
违背基本情况的假设-4.1-4.3异方差问题
违背基本情况的假设-4.4自相关问题
违背基本情况的假设-4.5异常值问题

文章目录


1 违背基本情况的假设-异方差

  假定随机误差项 ε 1 , ε 2 , ⋯   , ε n \varepsilon_1,\varepsilon_2,\cdots,\varepsilon_n ε1,ε2,,εn 具有等方差,独立或不相关关系。
即G-M条件
在这里插入图片描述

1.1 异方差产生的原因

  由于实际问题具有错综复杂性,故在回归模型建模时,某一因素一些因素随着解释变量观测值的变化而对被解释变量产生不同的影响,导致随机误差项产生不同方差
在这里插入图片描述


## 1.2 异方差性带来的问题   当存在异方差时, 普通最小二乘估计存在以下问题:

1.3 异方差性的检验

1.3.1 残差图分析法

在这里插入图片描述
a 图:不管 x 如何变化,方差始终在一定的范围内( ± 3 σ \pm3\sigma ±3σ)变化。
b图:随着 x 的变化,方差逐渐增大,出现了异方差性。

1.3.2 等级相关系数法(斯皮尔曼检验(Spearman))

   在实际应用中,简单相关系数和等级相关系数该如何选择?


1.4 误差项的异方差问题解决方法

  如何解决误差项的异方差问题呢?常见的方法有:加权最小二乘法,Box-Cox变换法,方差稳定性变换法

1.4.1一元加权最小二乘估计(WLS)

  一元线性回归,普通最小二乘法的离差平方和为

  在等方差条件下,平方和中的每一项的地位是相同的。

  然而在异方差条件下,平方和中每一项的地位是不同的,误差项方差大的项,在(4.3)式平方和中的作用就偏大,因而普通最小二乘估计的回归线就被拉向方差大的项,而方差小的项的拟合程度就差。

  加权最小二乘估计的方法就是在平方和中加入一个适当的权数,以调整各项在平方和中的作用。
  若 ω i \omega_i ωi 为给定的第 i i i 个观测值的权数。一元线性回归的加权最小二乘法的离差平方和为

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述


m m m 次方的 m m m应该取多少呢?是用极大似然估计法,如何能够使加权后二乘估计是最小的, m m m 就取多少。


在这里插入图片描述


WLS 缺点


1.4.2 多元加权最小二乘法

  设有多远线性回归模型
y i = β 0 + β 1 x i 1 + β 2 x i 2 + ⋯ + β p x i p + ε i       i = 1 , 2 , ⋯   , n y_i=\beta_0+\beta_1x_{i1}+\beta_2x_{i2}+\cdots+\beta_px_{ip}+ \varepsilon_i \ \ \ \ \ i=1,2,\cdots,n yi=β0+β1xi1+β2xi2++βpxip+εi     i=1,2,,n
当误差项 ε i \varepsilon_i εi 存在异方差时,加权离差平方和为

  加权最小二乘法就是寻找参数 β 0 , β 1 , β 2 , ⋯   , β p \beta_0,\beta_1,\beta_2,\cdots,\beta_p β0,β1,β2,,βp 的估计值,使 β 0 ω ^ , β 1 ω ^ , β 2 ω ^ , ⋯   , β p ω ^ \hat{\beta_{0\omega}},\hat{\beta_{1\omega}},\hat{\beta_{2\omega}},\cdots,\hat{\beta_{p\omega}} β0ω^,β1ω^,β2ω^,,βpω^ 达到最小。即求 Q ω Q_\omega Qω 的最小值点。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

2 违背基本情况的假设-自相关

2.1 自相关性产生的背景和原因

自相关性产生的背景和原因

简单来说自相关是指:不同样本残差项之间有一定的相关关系。正相关或者负相关。


在这里插入图片描述

2.2 自相关带来的问题

  一般情况下,序列自相关会给OLSE带来下列问题:


2.3 自相关的诊断

2.3.1 图示检验法

在这里插入图片描述
图4.3中 a 图与b 图均显示残差具有自相关性。

在这里插入图片描述
图4.3中 a 图与b 图均显示残差具有自相关性。

2.3.2 自相关系数法

  误差项序列 ε 1 , ε 2 , ⋯   , ε n \varepsilon_1,\varepsilon_2,\cdots,\varepsilon_n ε1,ε2,,εn 的自相关系数定义为

>


  在实际应用中,误差序列 ε 1 , ε 2 , ⋯   , ε n \varepsilon_1,\varepsilon_2,\cdots,\varepsilon_n ε1,ε2,,εn 的真实值是未知的,一般用其估计值误差项序列 e 1 , e 2 , ⋯   , e n e_1,e_2,\cdots,e_n e1,e2,,en 代替,得自相关系数的估计值为:
在这里插入图片描述
ρ ^ \hat{\rho} ρ^ 作为自相关系数 ρ \rho ρ 的估计值与样本量有关,需要做统计显著性检验才能确定自相关存在,通常采用DW检验代替对 ρ ^ \hat{\rho} ρ^ 的检验。

2.3.3 DW检验

  DW检验只适用于小样本、检验随机扰动项具有一阶自回归形式的序列相关问题。随机扰动项的一阶自回归形式为

检验序列相关性的原假设为:
H 0 : ρ = 0 H_0:\rho=0 H0:ρ=0
在这里插入图片描述


在这里插入图片描述


在这里插入图片描述


在这里插入图片描述


在这里插入图片描述

  根据样本容易得到 n n n 和解释变量的数目 k k k (这里包括常数项)查DW 分布表,得到临界值 d L d_L dL d U d_U dU ,然后依下列准则考察计算得到的 DW 值,以决定模型的自相关状态。
在这里插入图片描述


在这里插入图片描述
若 DW值 落在 ( d L , d U ) (d_L,d_U) (dL,dU) ( 4 − d U , d L ) (4-d_U,d_L) (4dU,dL) 无法判断是否具有自相关性,由 D W ≈ 2 ( 1 − ρ ^ ) DW \approx 2(1-\hat{\rho}) DW2(1ρ^)

统计 ρ ^ \hat{\rho} ρ^,然后用 ρ ^ \hat{\rho} ρ^来判断。


**DW检验的缺点和局限性:**

2.4 自相关问题的处理方法

自相关问题的处理方法

2.4.1 迭代法

在这里插入图片描述


在这里插入图片描述


在这里插入图片描述


在这里插入图片描述


在这里插入图片描述


在这里插入图片描述

2.4.2 差分法

在这里插入图片描述
注:只有 ρ = 1 \rho=1 ρ=1或接近1时,才能用差分法一般很理想的状态才会有,一般情况下不会等于1。


在这里插入图片描述

一阶差分法的适用条件:
  自相关系数 ρ \rho ρ ,在实际应用中,当自相关系数接近1时就采用差分法,而不用迭代法。

注:迭代法和差分法效果好于普通最小二乘的效果,但差分法的效果低于迭代法的效果。

在这里插入图片描述

在这里插入图片描述

3 异常值与强影响点

  在回归分析的应用中,数据时常包含着一些异常的或极端的观测值,这些观测值与其他数据远远分开,可能引起较大的残差,极大地影响着回归拟合效果。

  在一元回归的情况下,用散点图残差图就可以方便地识别出异常值,而在多元回归情况下,用简单画图法很难识别异常值。

  异常值分两种情况:

因变量 y 异常,
自变量 x 异常。

3.1 关于因变量 y y y 的异常

  残差分析中,认为超过 ± 3 σ ^ \pm3\hat{\sigma} ±3σ^ 的残差为异常值

由于普通残差 e 1 , e 2 , ⋯   , e n e_1,e_2,\cdots,e_n e1,e2,,en 的方差
D ( e i ) = ( 1 − h i i ) σ 2 D(e_i)=(1-h_{ii})\sigma^2 D(ei)=(1hii)σ2
不等。其中, h i i h_{ii} hii 为帽子矩阵 H = X ( X ′ X ) − 1 X ′ H=X(X^{'}X)^{-1}X^{'} H=X(XX)1X 的主对角线元素。

因此,用普通残差作判断会与实际有所不符,如何处理???

类似于医院线性回归,在多元线性回归中,同样可以引入 标准化残差和学生化残差。以改进普通残差的性质。

  为了解决方差不等问题,提出了学生化残差

  当观测值中存在关于 y y y 的异常值是,普通残差、标准化残差、学生化残差均不适用

  由于异常值把回归线拉向自身,使异常值本身的残差减少,而其余观测值的残差增大,这时回归标准差 σ ^ \hat{\sigma} σ^ 也会增大,因而用 “3 σ ^ \hat{\sigma} σ^ ” 的准则不能准确分辨出异常值这时需要用到删除残差法

删除残差的构造思想:
  在计算第 i i i 个观测值的残差时,用删除掉这第 i i i 个观测值的其余 n − 1 n-1 n1 个观测值拟合回归方程,计算出第 i i i 个观测值的

举报

相关推荐

0 条评论