期望:随机变量的平均值
矩:
X X X的 n n n阶矩: μ n ′ = E X n \mu_n^\prime=EX^n μn′=EXn
X X X的 n n n阶中心矩: μ n = E ( X − μ ) n \mu_n=E(X-\mu)^n μn=E(X−μ)n
三种收敛
-
依概率收敛
-
弱大数定律
-
殆必收敛(概率1收敛)
-
强大数定律
-
依分布收敛
-
总结
大数定律与中心极限定理
依分布收敛
大数定律研究的是一系列随机变量 X n {X_n} Xn 的均值 X ‾ n = 1 n ∑ i = 1 n X i \overline X_n=\frac1n∑_{i=1}^nX_i Xn=n1∑i=1nXi 是否会依概率收敛于其期望 E X ‾ n E\overline X_n EXn 这个数值,而中心极限定理进一步研究 X ‾ n \overline X_n Xn 服从什么分布。若 X n {X_n} Xn 满足一定的条件,当 n n n足够大时, X ‾ n \overline X_n Xn 近似服从正态分布,这就是中心极限定理的主要思想,这也体现了正态分布的重要性与普遍性。
点估计
- 定义:样本的任何一个函数 W ( X 1 , . . . , X n ) W(X_1,...,X_n) W(X1,...,Xn)称为一个点估计量,即任何一个统计量就是一个点估计量。
无偏性:估计量的数学期望等于总体参数;
有效性:方差越小越越有效;
一致性:当样本量趋于无穷时,估计值离真实值越近。
极大似然估计量(MLE)
对每个固定的样本点 x x x,令 θ ^ ( x ) \hat\theta(x) θ^(x)是参数 θ \theta θ的一个取值,它是的 L ( θ ∣ x ) L(\theta|x) L(θ∣x)作为 θ \theta θ的函数在该处达到最大值。那么,基于样本 X X X的极大似然估计量就是 θ ^ ( X ) \hat\theta(X) θ^(X)。
随机梯度下降和牛顿法
-
随机梯度下降(SGD)是一种用于训练神经网络的优化算法,用于调整权重、更新参数,能在每次反向传播步骤之后使结果更接近最小值。SGD不同于单纯的梯度下降,因为其处理的是mini-batch,而非单个训练样本。牛顿法
-
牛顿法是基于二阶泰勒展开来近似 f ( x ) f(x) f(x):
f ( x ) ≈ f ( x n ) + ( x − x n ) T ∇ f ( x n ) + 1 / 2 ( x − x n ) T H ( f ) ( x n ) ( x − x n ) 等价于: f ( x ) ≈ f ( x n ) + ( x − x n ) f ′ ( x 0 ) + 1 2 ! f ′ ′ ( x n ) ( x − x n ) 2 f(x)\approx f(x_n)+(x−x_n)^T∇f(x_n)+1/2(x−x_n)^TH(f)(x_n)(x−x_n)\\ 等价于:f(x)\approx f(x_n)+(x-x_n)f'(x_0)+\frac1{2!}f''(x_n)(x-x_n)^2 f(x)≈f(xn)+(x−xn)T∇f(xn)+1/2(x−xn)TH(f)(xn)(x−xn)等价于:f(x)≈f(xn)+(x−xn)f′(x0)+2!1f′′(xn)(x−xn)2
-
效率对比
-
牛顿法的优缺点: