第一章 时间序列基础知识
一、关于时间序列分析
截面数据: 某一类指标,在同一时点上对不同个体的观察数据。
时间序列数据: 某一类指标,在不同时点上对同一个体的观察数据。
时间序列(time series): 按时间的先后顺序排列形成的一组随机变量。
时间序列分类:
- 按照研究对象的多少,分为一元时间序列和多元时间序列。
- 按照观察时间的连续与否,分为离散时间序列和连续时间序列。
- 按照时间序列的统计特性,分为平稳时间序列和非平稳时间序列。
二、时间序列的基本概念
1、随机过程
随机过程(stochastic process): 一组有序的随机变量,可以记为
{
Y
t
,
t
∈
T
}
\{Y_t,t\in T\}
{Yt,t∈T}。
连续型随机过程: 若
T
T
T为连续集,则
{
Y
t
}
\{Y_t\}
{Yt}为连续型随机过程。
离散型随机过程: 若
T
T
T为离散集,则
{
Y
t
}
\{Y_t\}
{Yt}为离散型随机过程。
时间序列: 具有离散型时间指标集的随机过程,通常表示为
{
Y
t
,
t
=
⋯
,
−
2
,
−
1
,
0
,
1
,
2
,
⋯
}
\{Y_t,t=\cdots,-2,-1,0,1,2,\cdots\}
{Yt,t=⋯,−2,−1,0,1,2,⋯}。
样本序列: 随机变量
Y
t
Y_t
Yt在时间上的取值,也就是
{
Y
t
}
\{Y_t\}
{Yt}的一个样本,通常表示为
{
y
t
,
t
=
⋯
,
−
2
,
−
1
,
0
,
1
,
2
,
⋯
}
\{y_t,t=\cdots,-2,-1,0,1,2,\cdots\}
{yt,t=⋯,−2,−1,0,1,2,⋯}。
时间序列与样本序列的关系: 样本序列是时间序列的一次实现。目的:揭示时间序列的性质。手段:通过样本序列的性质进行推断。
2、随机过程的分布及其特征
随机过程的分布: 设 { Y t } \{Y_t\} {Yt}为一随机过程,
- 对于任意一个 t ( t ∈ T ) t(t\in T) t(t∈T), Y t Y_t Yt为随机变量,其分布函数为: F Y t ( y ) = P ( Y t ≤ y ) F_{Y_t}(y)=P(Y_t\le y) FYt(y)=P(Yt≤y)这一分布为随机过程 { Y t } \{Y_t\} {Yt}的一维分布。
- 对于任意给定的 t 1 , t 2 ( t 1 , t 2 ∈ T ) t_1,t_2(t_1,t_2\in T) t1,t2(t1,t2∈T), Y t 1 , Y t 2 Y_{t_1},Y_{t_2} Yt1,Yt2为随机变量,其联合分布函数为: F Y t 1 , Y t 2 ( y ) = P ( Y t 1 ≤ y 2 , Y t 2 ≤ y 2 ) F_{Y_{t_1},Y_{t_2}}(y)=P(Y_{t_1}\le y_2,Y_{t_2}\le y_2) FYt1,Yt2(y)=P(Yt1≤y2,Yt2≤y2)这一分布为随机过程 { Y t } \{Y_t\} {Yt}的二维分布。
- 对于任意给定的 t 1 , t 2 , ⋯ , t n ( t 1 , t 2 , ⋯ , t n ∈ T ) t_1,t_2,\cdots,t_n(t_1,t_2,\cdots,t_n\in T) t1,t2,⋯,tn(t1,t2,⋯,tn∈T), Y t 1 , Y t 2 , ⋯ , Y t n Y_{t_1},Y_{t_2},\cdots,Y_{t_n} Yt1,Yt2,⋯,Ytn为随机变量,其联合分布函数为: F Y t 1 , Y t 2 , ⋯ , Y t n ( y ) = P ( Y t 1 ≤ y 1 , Y t 2 ≤ y 2 , ⋯ , Y t n ≤ y n ) F_{Y_{t_1},Y_{t_2},\cdots,Y_{t_n}}(y)=P(Y_{t_1}\le y_1,Y_{t_2}\le y_2,\cdots,Y_{t_n}\le y_n) FYt1,Yt2,⋯,Ytn(y)=P(Yt1≤y1,Yt2≤y2,⋯,Ytn≤yn)这一分布为随机过程 { Y t } \{Y_t\} {Yt}的 n n n维分布。
随机过程的数字特征:
- 均值函数: μ t = E ( Y t ) = ∫ − ∞ + ∞ y d F Y t ( y ) \mu_t=E(Y_t)=\int_{-\infty}^{+\infty}ydF_{Y_t}(y) μt=E(Yt)=∫−∞+∞ydFYt(y)
- 方差函数: σ t 2 = V a r ( Y t ) = ∫ − ∞ + ∞ ( y − E ( Y t ) ) 2 d F Y t ( y ) \sigma_t^2=Var(Y_t)=\int_{-\infty}^{+\infty}(y-E(Y_t))^2dF_{Y_t}(y) σt2=Var(Yt)=∫−∞+∞(y−E(Yt))2dFYt(y)
- 自协方差函数: γ ( t , k ) = γ t , k = C o v ( Y t , Y k ) = E [ ( Y t − E Y t ) ( Y k − E Y k ) ] \gamma(t,k)=\gamma_{t,k}=Cov(Y_t,Y_k)=E[(Y_t-EY_t)(Y_k-EY_k)] γ(t,k)=γt,k=Cov(Yt,Yk)=E[(Yt−EYt)(Yk−EYk)]
- 自相关函数: ρ ( t , k ) = ρ t , k = C o r ( Y t , Y k ) = γ ( t , k ) σ t 2 × σ k 2 = γ ( t , k ) σ t × σ k \rho(t,k)=\rho_{t,k}=Cor(Y_t,Y_k)=\frac{\gamma(t,k)}{\sqrt{\sigma_t^2\times\sigma_k^2}}=\frac{\gamma(t,k)}{\sigma_t\times\sigma_k} ρ(t,k)=ρt,k=Cor(Yt,Yk)=σt2×σk2γ(t,k)=σt×σkγ(t,k)
- 偏相关函数: ϕ ( t , k ) = ϕ t , k = C o r ( Y t , Y k ∣ Y k + 1 , ⋯ , Y t − 1 ) = C o v ( Y t , Y k ∣ Y k + 1 , ⋯ , Y t − 1 ) σ t 2 × σ k 2 = C o v ( Y t , Y k ∣ Y k + 1 , ⋯ , Y t − 1 ) σ t × σ k \phi(t,k)=\phi_{t,k}=Cor(Y_t,Y_k|Y_{k+1},\cdots,Y_{t-1})=\frac{Cov(Y_t,Y_k|Y_{k+1},\cdots,Y_{t-1})}{\sqrt{\sigma_t^2\times\sigma_k^2}}=\frac{Cov(Y_t,Y_k|Y_{k+1},\cdots,Y_{t-1})}{\sigma_t\times\sigma_k} ϕ(t,k)=ϕt,k=Cor(Yt,Yk∣Yk+1,⋯,Yt−1)=σt2×σk2Cov(Yt,Yk∣Yk+1,⋯,Yt−1)=σt×σkCov(Yt,Yk∣Yk+1,⋯,Yt−1)
自协方差和自相关系数的性质:
- 对称性: γ ( t , k ) = γ ( k , t ) ρ ( t , k ) = ρ ( k , t ) \gamma(t,k)=\gamma(k,t)\quad\rho(t,k)=\rho(k,t) γ(t,k)=γ(k,t)ρ(t,k)=ρ(k,t)
- 非负定性:自协方差矩阵和自相关系数阵是对称非负定矩阵。
- 规范性: ρ ( t , t ) = 1 \rho(t,t)=1 ρ(t,t)=1且 ∣ ρ ( t , t ) ∣ ≤ 1 |\rho(t,t)|\le1 ∣ρ(t,t)∣≤1
3、几种重要的随机过程
- 白噪声(white noise)过程:设 { Y t } \{Y_t\} {Yt}为随机过程,若 E ( Y t ) = 0 E(Y_t)=0 E(Yt)=0, C o v ( Y t , Y s ) = { σ 2 t = s 0 t = s Cov(Y_t,Y_s)=\begin{cases}\sigma^2&t=s\\0&t=s\end{cases} Cov(Yt,Ys)={σ20t=st=s,则称 { Y t } \{Y_t\} {Yt}为白噪声过程,一般用 { ϵ t } \{\epsilon_t\} {ϵt}来表示。
- 正态过程:设 { Y t } \{Y_t\} {Yt}为随机过程,若 { Y t } \{Y_t\} {Yt}的有限维分布都是正态分布,则称 { Y t } \{Y_t\} {Yt}为正态过程,也称为高斯过程。
- 独立增量过程:设 { Y t } \{Y_t\} {Yt}为随机过程,若对任意 n n n及 t i ∈ T , i = 1 , 2 , ⋯ , n , t 1 < t 2 < ⋯ < t n t_i\in T,i=1,2,\cdots,n,t_1<t_2<\cdots<t_n ti∈T,i=1,2,⋯,n,t1<t2<⋯<tn,随机变量 Y t 2 − Y t 1 , Y t 3 − Y t 2 , ⋯ , Y t n − Y t n − 1 Y_{t_2}-Y_{t_1},Y_{t_3}-Y_{t_2},\cdots,Y_{t_n}-Y_{t_{n-1}} Yt2−Yt1,Yt3−Yt2,⋯,Ytn−Ytn−1相互独立,则称 { Y t } \{Y_t\} {Yt}为独立增量过程。
- 维纳过程:设 { Y t } \{Y_t\} {Yt}为随机过程,若 { Y t } \{Y_t\} {Yt}满足: Y 0 = 0 Y_0=0 Y0=0; { Y t } \{Y_t\} {Yt}为独立增量过程;对任意 0 ≤ s ≤ t , Y t − Y s 0\le s\le t,Y_t-Y_s 0≤s≤t,Yt−Ys服从正态分布,则称 { Y t } \{Y_t\} {Yt}为维纳过程,也称为布朗运动过程。
三、时间序列的主要特征
1、相关性
相关性: 一类是不同变量在同一时点上的相关(静态相关);一类是同一变量在不同时点上的相关(动态相关)。
时间序列的相关性: 大多数时间序列存在着前后依存的关系,即自相关性,因此我们需要分析序列的动态相关。时间序列的相关性可以通过自相关函数来加以反映 。
2、平稳性与非平稳性
严平稳过程: 设
{
Y
t
}
\{Y_t\}
{Yt}为随机过程,若
F
Y
t
1
,
Y
t
2
,
⋯
,
Y
t
n
(
y
)
=
F
Y
t
1
+
h
,
Y
t
2
+
h
,
⋯
,
Y
t
n
+
h
(
y
)
F_{Y_{t_1},Y_{t_2},\cdots,Y_{t_n}}(y)=F_{Y_{t_{1+h}},Y_{t_{2+h}},\cdots,Y_{t_{n+h}}}(y)
FYt1,Yt2,⋯,Ytn(y)=FYt1+h,Yt2+h,⋯,Ytn+h(y)对任意正整数
n
n
n,任意整数
h
h
h成立,则称
{
Y
t
}
\{Y_t\}
{Yt}为严平稳过程。
弱平稳过程: 设
{
Y
t
}
\{Y_t\}
{Yt}为随机过程,
{
Y
t
}
\{Y_t\}
{Yt}的二阶矩有限,若
E
(
y
t
)
=
E
(
y
t
−
j
)
=
μ
E(y_t)=E(y_{t-j})=\mu
E(yt)=E(yt−j)=μ;
V
a
r
(
y
t
)
=
V
a
r
(
y
t
−
j
)
=
σ
2
Var(y_t)=Var(y_{t-j})=\sigma^2
Var(yt)=Var(yt−j)=σ2;
C
o
v
(
y
t
,
y
t
−
s
)
=
C
o
v
(
y
t
−
j
,
y
t
−
j
−
s
)
=
γ
s
Cov(y_t,y_{t-s})=Cov(y_{t-j},y_{t-j-s})=\gamma_s
Cov(yt,yt−s)=Cov(yt−j,yt−j−s)=γs对任意正整数
t
t
t,任意整数
j
,
s
j,s
j,s成立,其中
μ
,
σ
2
,
γ
s
\mu,\sigma^2,\gamma_s
μ,σ2,γs均为常数,则称
{
Y
t
}
\{Y_t\}
{Yt}为弱平稳过程。
严平稳与弱平稳的关系:
- 严平稳时间序列的所有统计性质都不随时间的推移而改变。
- 弱平稳时间序列具有有限的常数均值和方差,自协方差(自相关系数)只与时滞 s s s有关,而与时间的起始位置 t t t无关。
时间序列的平稳性:
- 如果序列是平稳的,则意味着这组序列两个时刻的数据的相关性都保持稳定,因此可以基于历史数据呈现出来的统计规律很好地预测未来。
- 如果序列是非平稳的,那么用一个模型反映序列的过去和未来就会很困难。
3、波动聚集性
波动聚集性: 有一类时间序列,尽管它会围绕一个固定的均值波动,但在不同时期其波动程度却存在很大差异。
四、时间序列分析的一般步骤
五、时间序列的分析软件
本系列将使用Python建模