文章目录
前言
2021年暑假自学的内容,现由纸质笔记整理到CSDN上。
一、基本模型
1、一元线性回归模型
回归线的定义
 
 回归线的基本假定
 关于模型关系的假设:模型设定正确假设、线性回归假设;
 关于解释变量的假设:确定性假设、与随机项不相关假设、观测值变化假设、无完全共线性假设、样本方差假设(随着样本容量的无限增加。解释变量x的样本方差趋于一有限常数,时间序列);
 关于随机项的假设:0均值假设
 
     
      
       
        
         E
        
        
         
          (
         
         
          
           μ
          
          
           i
          
         
         
          ∣
         
         
          
           X
          
          
           i
          
         
         
          )
         
        
        
         =
        
        
         0
        
        
         ,
        
        
         i
        
        
         =
        
        
         1
        
        
         ,
        
        
         2
        
        
         ,
        
        
         ⋯
         
        
         ,
        
        
         n
        
       
       
         E\left(\mu_{i} \mid X_{i}\right)=0, i=1,2, \cdots, n 
       
      
     E(μi∣Xi)=0,i=1,2,⋯,n
 同方差假设
 
     
      
       
        
         Var
        
        
         
        
        
         
          (
         
         
          
           μ
          
          
           i
          
         
         
          ∣
         
         
          
           X
          
          
           i
          
         
         
          )
         
        
        
         =
        
        
         
          σ
         
         
          2
         
        
        
         ,
        
        
         i
        
        
         =
        
        
         1
        
        
         ,
        
        
         2
        
        
         ,
        
        
         ⋯
         
        
         ,
        
        
         n
        
       
       
         \operatorname{Var}\left(\mu_{i} \mid X_{i}\right)=\sigma^{2}, i=1,2, \cdots, n 
       
      
     Var(μi∣Xi)=σ2,i=1,2,⋯,n
 序列不相关假设
 
     
      
       
        
         Cov
        
        
         
        
        
         
          (
         
         
          
           μ
          
          
           i
          
         
         
          ,
         
         
          
           μ
          
          
           j
          
         
         
          ∣
         
         
          
           X
          
          
           i
          
         
         
          ,
         
         
          
           X
          
          
           j
          
         
         
          )
         
        
        
         =
        
        
         0
        
        
         ,
        
        
         i
        
        
         ,
        
        
         j
        
        
         =
        
        
         1
        
        
         ,
        
        
         2
        
        
         ,
        
        
         ⋯
         
        
         ,
        
        
         n
        
        
         ,
        
        
         i
        
        
         ≠
        
        
         j
        
       
       
         \operatorname{Cov}\left(\mu_{i}, \mu_{j} \mid X_{i}, X_{j}\right)=0, i, j=1,2, \cdots, n, i \neq j 
       
      
     Cov(μi,μj∣Xi,Xj)=0,i,j=1,2,⋯,n,i=j;
 随机项的正态性假设:正态性假设
 
     
      
       
        
         
          μ
         
         
          i
         
        
        
         ∼
        
        
         N
        
        
         
          (
         
         
          0
         
         
          ,
         
         
          
           σ
          
          
           2
          
         
         
          )
         
        
        
         →
        
        
         
          μ
         
         
          i
         
        
        
         ∼
        
        
         NID
        
        
         
        
        
         
          (
         
         
          0
         
         
          ,
         
         
          
           σ
          
          
           2
          
         
         
          )
         
        
       
       
         \mu_{i} \sim N\left(0, \sigma^{2}\right) \rightarrow \mu_{i} \sim \operatorname{NID}\left(0, \sigma^{2}\right) 
       
      
     μi∼N(0,σ2)→μi∼NID(0,σ2)
 平方和
 
     
      
       
        
         
          
           y
          
          
           i
          
         
         
          ^
         
        
        
         =
        
        
         
          
           Y
          
          
           i
          
         
         
          ^
         
        
        
         −
        
        
         
          
           Y
          
          
           i
          
         
         
          ˉ
         
        
       
       
         \widehat{y_{i}}= \widehat{Y_{i}}- \bar{Y_{i}} 
       
      
     yi
            =Yi
            −Yiˉ
 
     
      
       
        
         ∑
        
        
         
          y
         
         
          i
         
         
          2
         
        
        
         =
        
        
         ∑
        
        
         
          
           
            y
           
           
            i
           
          
          
           ^
          
         
         
          2
         
        
        
         +
        
        
         ∑
        
        
         
          
           
            u
           
           
            i
           
          
          
           ^
          
         
         
          2
         
        
       
       
         \sum y_{i}^2=\sum \widehat{y_i}^2+\sum \widehat{u_i}^2 
       
      
     ∑yi2=∑yi
             2+∑ui
             2
 
     
      
       
        
         
          
           u
          
          
           i
          
         
         
          ^
         
        
        
         =
        
        
         
          
           U
          
          
           i
          
         
         
          ^
         
        
       
       
         \widehat{u_i}=\widehat{U_i} 
       
      
     ui
            =Ui
            
 总平方和(波动程度)TSS:
 
     
      
       
        
         ∑
        
        
         
          y
         
         
          i
         
         
          2
         
        
       
       
         \sum y_{i}^2 
       
      
     ∑yi2
 解释平方和ESS:
 
     
      
       
        
         ∑
        
        
         
          
           
            y
           
           
            i
           
          
          
           ^
          
         
         
          2
         
        
       
       
        \sum \widehat{y_i}^2
       
      
     ∑yi
             2
 残差平方和RSS(
    
     
      
       
        
         y
        
        
         i
        
       
      
      
       y_{i}
      
     
    yi的波动,没有被
    
     
      
       
        
         x
        
        
         i
        
       
      
      
       x_{i}
      
     
    xi解释的部分):
 
     
      
       
        
         ∑
        
        
         
          
           
            u
           
           
            i
           
          
          
           ^
          
         
         
          2
         
        
       
       
        \sum \widehat{u_i}^2
       
      
     ∑ui
             2
拟合优度定义及含义
 可决系数
    
     
      
       
        
         R
        
        
         2
        
       
      
      
       R^2
      
     
    R2:被解释变量的波动程度,由解释变量解释的那一部分
 
     
      
       
        
         
          R
         
         
          2
         
        
        
         =
        
        
         E
        
        
         S
        
        
         S
        
        
         /
        
        
         T
        
        
         S
        
        
         S
        
        
         =
        
        
         1
        
        
         −
        
        
         R
        
        
         S
        
        
         S
        
        
         /
        
        
         T
        
        
         S
        
        
         S
        
       
       
        R^2=ESS/TSS=1-RSS/TSS
       
      
     R2=ESS/TSS=1−RSS/TSS
 相关性r:常见的有斯皮尔曼相关性(不要求正态分布)、皮尔逊相关性(要求正态分布)
随机干扰项方差的置信区间
 
    
     
      
       
        
         
          (
         
         
          n
         
         
          −
         
         
          2
         
         
          )
         
         
          
           
            δ
           
           
            ^
           
          
          
           2
          
         
        
        
         
          δ
         
         
          2
         
        
       
      
      
       \frac{(n-2) \widehat{\delta}^2}{ \delta ^2}
      
     
    δ2(n−2)δ
                    2服从卡方分布,其中
    
     
      
       
        
         δ
        
        
         2
        
       
      
      
       \delta^2
      
     
    δ2置信区间为
    
     
      
       
        
         
          (
         
         
          n
         
         
          −
         
         
          2
         
         
          )
         
         
          
           
            δ
           
           
            ^
           
          
          
           2
          
         
        
        
         
          x
         
         
          
           a
          
          
           /
          
          
           2
          
         
         
          2
         
        
       
       
        ,
       
       
        
         
          (
         
         
          n
         
         
          −
         
         
          2
         
         
          )
         
         
          
           
            δ
           
           
            ^
           
          
          
           2
          
         
        
        
         
          x
         
         
          
           1
          
          
           −
          
          
           a
          
          
           /
          
          
           2
          
         
         
          2
         
        
       
       
        ]
       
      
      
       \frac{(n-2)\widehat{\delta}^2}{x_{a/2}^2},\frac{(n-2)\widehat{\delta}^2}{x_{1-a/2}^2}]
      
     
    xa/22(n−2)δ
                    2,x1−a/22(n−2)δ
                    2]
 假设检验略
均值预测和个体预测
 个体预测:
    
     
      
       
        
         x
        
        
         0
        
       
      
      
       x_0
      
     
    x0相对应
    
     
      
       
        y
       
      
      
       y
      
     
    y的个别值,回归线上的值+随机误差项
 均值预测:回归线上的点(用历史点预测)
 对于方差:个体预测>均值预测
检验步骤:
 (1)散点图(k个点)
 (2)线性回归(得到方程和t统计量)
    
     
      
       
        
         R
        
        
         2
        
       
       
        、
       
       
        S
       
       
        e
       
       
        、
       
       
        T
       
      
      
       R^2、Se、T
      
     
    R2、Se、T
 (3)回归系数的显著性检验(设
    
     
      
       
        
         H
        
        
         0
        
       
      
      
       H_0
      
     
    H0、
    
     
      
       
        
         H
        
        
         1
        
       
      
      
       H_1
      
     
    H1,显著性水平为
    
     
      
       
        x
       
      
      
       x
      
     
    x,
    
     
      
       
        
         t
        
        
         
          a
         
         
          2
         
        
       
       
        (
       
       
        k
       
       
        )
       
      
      
       t_{\frac{a}{2}}(k)
      
     
    t2a(k))为临界值,看t统计量是否超过该临界值,超过则拒绝原假设。
注意:y=ax+b,b是否通过显著性检验都不应该删去
2、多元线性回归模型
多元回归模型的矩阵表达形式
 
     
      
       
        
         Y
        
        
         =
        
        
         
          [
         
         
          
           
            
             
              
               y
              
              
               1
              
             
            
           
          
          
           
            
             
              
               y
              
              
               2
              
             
            
           
          
          
           
            
             
              ⋮
             
             
              
             
            
           
          
          
           
            
             
              
               y
              
              
               n
              
             
            
           
          
         
         
          ]
         
        
        
         ,
        
        
         X
        
        
         =
        
        
         
          [
         
         
          
           
            
             
              1
             
            
           
           
            
             
              
               x
              
              
               11
              
             
            
           
           
            
             
              ⋯
             
            
           
           
            
             
              
               x
              
              
               
                1
               
               
                p
               
              
             
            
           
          
          
           
            
             
              1
             
            
           
           
            
             
              
               x
              
              
               21
              
             
            
           
           
            
             
              ⋯
             
            
           
           
            
             
              
               x
              
              
               
                2
               
               
                p
               
              
             
            
           
          
          
           
            
             
              ⋮
             
             
              
             
            
           
           
            
             
              ⋮
             
             
              
             
            
           
           
            
             
            
           
           
            
             
              ⋮
             
             
              
             
            
           
          
          
           
            
             
              1
             
            
           
           
            
             
              
               x
              
              
               
                n
               
               
                1
               
              
             
            
           
           
            
             
              ⋯
             
            
           
           
            
             
              
               x
              
              
               
                n
               
               
                p
               
              
             
            
           
          
         
         
          ]
         
        
        
         ,
        
        
         ϵ
        
        
         =
        
        
         
          [
         
         
          
           
            
             
              
               ϵ
              
              
               1
              
             
            
           
          
          
           
            
             
              
               ϵ
              
              
               2
              
             
            
           
          
          
           
            
             
              ⋮
             
             
              
             
            
           
          
          
           
            
             
              
               ϵ
              
              
               n
              
             
            
           
          
         
         
          ]
         
        
        
         ,
        
        
         β
        
        
         =
        
        
         
          [
         
         
          
           
            
             
              
               β
              
              
               0
              
             
            
           
          
          
           
            
             
              
               β
              
              
               1
              
             
            
           
          
          
           
            
             
              ⋮
             
             
              
             
            
           
          
          
           
            
             
              
               β
              
              
               p
              
             
            
           
          
         
         
          ]
         
        
       
       
         Y=\left[\begin{array}{c} y_{1} \\ y_{2} \\ \vdots \\ y_{n} \end{array}\right], X=\left[\begin{array}{cccc} 1 & x_{11} & \cdots & x_{1 p} \\ 1 & x_{21} & \cdots & x_{2 p} \\ \vdots & \vdots & & \vdots \\ 1 & x_{n 1} & \cdots & x_{n p} \end{array}\right], \epsilon=\left[\begin{array}{c} \epsilon_{1} \\ \epsilon_{2} \\ \vdots \\ \epsilon_{n} \end{array}\right], \beta=\left[\begin{array}{c} \beta_{0} \\ \beta_{1} \\ \vdots \\ \beta_{p} \end{array}\right] 
       
      
     Y=⎣⎢⎢⎢⎡y1y2⋮yn⎦⎥⎥⎥⎤,X=⎣⎢⎢⎢⎡11⋮1x11x21⋮xn1⋯⋯⋯x1px2p⋮xnp⎦⎥⎥⎥⎤,ϵ=⎣⎢⎢⎢⎡ϵ1ϵ2⋮ϵn⎦⎥⎥⎥⎤,β=⎣⎢⎢⎢⎡β0β1⋮βp⎦⎥⎥⎥⎤
 
     
      
       
        
         Y
        
        
         =
        
        
         X
        
        
         ⋅
        
        
         β
        
        
         +
        
        
         ϵ
        
       
       
         Y=X \cdot \beta+\epsilon 
       
      
     Y=X⋅β+ϵ
最小二乘法(略)
 可决系数
 
     
      
       
        
         
          
           R
          
          
           ˉ
          
         
         
          2
         
        
        
         =
        
        
         1
        
        
         −
        
        
         
          
           R
          
          
           S
          
          
           S
          
          
           /
          
          
           (
          
          
           N
          
          
           −
          
          
           k
          
          
           −
          
          
           1
          
          
           )
          
         
         
          
           T
          
          
           S
          
          
           S
          
          
           /
          
          
           (
          
          
           N
          
          
           −
          
          
           1
          
          
           )
          
         
        
        
         =
        
        
         1
        
        
         −
        
        
         
          
           N
          
          
           −
          
          
           1
          
         
         
          
           N
          
          
           −
          
          
           k
          
          
           −
          
          
           1
          
         
        
        
         ⋅
        
        
         
          
           T
          
          
           S
          
          
           S
          
          
           −
          
          
           E
          
          
           S
          
          
           S
          
         
         
          
           T
          
          
           S
          
          
           S
          
         
        
       
       
        \bar{R}^2=1-\frac{RSS/(N-k-1)}{TSS/(N-1)}=1-\frac{N-1}{N-k-1}\cdot\frac{TSS-ESS}{TSS} 
       
      
     Rˉ2=1−TSS/(N−1)RSS/(N−k−1)=1−N−k−1N−1⋅TSSTSS−ESS
 
     
      
       
        
         
          
           R
          
          
           ˉ
          
         
         
          2
         
        
        
         =
        
        
         1
        
        
         −
        
        
         
          
           N
          
          
           −
          
          
           1
          
         
         
          
           N
          
          
           −
          
          
           k
          
          
           −
          
          
           1
          
         
        
        
         ⋅
        
        
         (
        
        
         1
        
        
         −
        
        
         
          R
         
         
          2
         
        
        
         )
        
       
       
        \bar{R}^2=1-\frac{N-1}{N-k-1}\cdot(1-R^2) 
       
      
     Rˉ2=1−N−k−1N−1⋅(1−R2)
 指标
 回归均方MSE:解释平方和ESS除以自由度k,这里的k为解释变量的个数
 误差均方MSR:残差平方和RSS除以自由度N-k-1
 由上述可得:
 
     
      
       
        
         F
        
        
         =
        
        
         
          
           M
          
          
           S
          
          
           R
          
         
         
          
           M
          
          
           S
          
          
           E
          
         
        
        
         =
        
        
         
          
           E
          
          
           S
          
          
           S
          
          
           /
          
          
           k
          
         
         
          
           R
          
          
           S
          
          
           S
          
          
           /
          
          
           N
          
          
           −
          
          
           k
          
          
           −
          
          
           1
          
         
        
        
         ∼
        
        
         F
        
        
         (
        
        
         k
        
        
         ,
        
        
         N
        
        
         −
        
        
         k
        
        
         −
        
        
         1
        
        
         )
        
       
       
        F=\frac{MSR}{MSE}=\frac{ESS/k}{RSS/N-k-1}\sim F(k,N-k-1)
       
      
     F=MSEMSR=RSS/N−k−1ESS/k∼F(k,N−k−1)
 预测误差:
    
     
      
       
        
         e
        
        
         i
        
       
       
        =
       
       
        
         
          Y
         
         
          i
         
        
        
         ^
        
       
       
        −
       
       
        
         Y
        
        
         i
        
       
      
      
       e_{i}=\widehat{Y_{i}}-Y_{i}
      
     
    ei=Yi
           −Yi
 相对误差:
    
     
      
       
        P
       
       
        E
       
       
        =
       
       
        (
       
       
        
         
          Y
         
         
          i
         
        
        
         ^
        
       
       
        −
       
       
        
         Y
        
        
         i
        
       
       
        )
       
       
        /
       
       
        
         Y
        
        
         i
        
       
      
      
       PE=(\widehat{Y_{i}}-Y_{i})/Y_{i}
      
     
    PE=(Yi
           −Yi)/Yi
 误差均方根:
    
     
      
       
        R
       
       
        M
       
       
        S
       
       
        =
       
       
        
         
          
           1
          
          
           T
          
         
         
          ∑
         
         
          (
         
         
          
           
            Y
           
           
            i
           
          
          
           ^
          
         
         
          −
         
         
          
           Y
          
          
           i
          
         
         
          
           )
          
          
           2
          
         
        
       
      
      
       RMS=\sqrt{\frac{1}{T}\sum(\widehat{Y_{i}}-Y_{i})^2}
      
     
    RMS=T1∑(Yi
                 −Yi)2
 相对误差绝对值平均:
    
     
      
       
        M
       
       
        A
       
       
        P
       
       
        E
       
       
        =
       
       
        
         1
        
        
         T
        
       
       
        ∑
       
       
        ∣
       
       
        
         
          
           
            Y
           
           
            i
           
          
          
           ^
          
         
         
          −
         
         
          
           Y
          
          
           i
          
         
        
        
         
          Y
         
         
          i
         
        
       
       
        ∣
       
      
      
       MAPE=\frac{1}{T}\sum|\frac {\widehat{Y_{i}}-Y_{i}}{Y_{i}}|
      
     
    MAPE=T1∑∣YiYi
                   −Yi∣
3、可线性化的非线性模型
二、数据特征
1、处理异方差
2、自相关
3、多重共线性
4、虚拟变量的应用
5、F,LR,Wald,JB检验
三、面板数据类型
1、混合模型
2、固定效应模型
3、随机效应模型
四、其他
总结
提示:这里对文章进行总结:
 例如:以上就是今天要讲的内容,本文仅仅简单介绍了pandas的使用,而pandas提供了大量能使我们快速便捷地处理数据的函数和方法。










