0
点赞
收藏
分享

微信扫一扫

女生转行软件测试难吗?

期望:随机变量的平均值

矩:

X X X n n n阶矩: μ n ′ = E X n \mu_n^\prime=EX^n μn=EXn

X X X n n n阶中心矩: μ n = E ( X − μ ) n \mu_n=E(X-\mu)^n μn=E(Xμ)n

三种收敛

  • 依概率收敛

  • 弱大数定律

  • 殆必收敛(概率1收敛)

  • 强大数定律

  • 依分布收敛

  • 总结

大数定律与中心极限定理

依分布收敛

大数定律研究的是一系列随机变量 X n {X_n} Xn 的均值 X ‾ n = 1 n ∑ i = 1 n X i \overline X_n=\frac1n∑_{i=1}^nX_i Xn=n1i=1nXi 是否会依概率收敛于其期望 E X ‾ n E\overline X_n EXn 这个数值,而中心极限定理进一步研究 X ‾ n \overline X_n Xn 服从什么分布。若 X n {X_n} Xn 满足一定的条件,当 n n n足够大时, X ‾ n \overline X_n Xn 近似服从正态分布,这就是中心极限定理的主要思想,这也体现了正态分布的重要性与普遍性。

点估计

  • 定义:样本的任何一个函数 W ( X 1 , . . . , X n ) W(X_1,...,X_n) W(X1,...,Xn)称为一个点估计量,即任何一个统计量就是一个点估计量。

无偏性:估计量的数学期望等于总体参数;

有效性:方差越小越越有效;

一致性:当样本量趋于无穷时,估计值离真实值越近。

极大似然估计量(MLE)

对每个固定的样本点 x x x,令 θ ^ ( x ) \hat\theta(x) θ^(x)是参数 θ \theta θ的一个取值,它是的 L ( θ ∣ x ) L(\theta|x) L(θx)作为 θ \theta θ的函数在该处达到最大值。那么,基于样本 X X X的极大似然估计量就是 θ ^ ( X ) \hat\theta(X) θ^(X)

随机梯度下降和牛顿法

  • 随机梯度下降(SGD)是一种用于训练神经网络的优化算法,用于调整权重、更新参数,能在每次反向传播步骤之后使结果更接近最小值。SGD不同于单纯的梯度下降,因为其处理的是mini-batch,而非单个训练样本。牛顿法

  • 牛顿法是基于二阶泰勒展开来近似 f ( x ) f(x) f(x)

f ( x ) ≈ f ( x n ) + ( x − x n ) T ∇ f ( x n ) + 1 / 2 ( x − x n ) T H ( f ) ( x n ) ( x − x n ) 等价于: f ( x ) ≈ f ( x n ) + ( x − x n ) f ′ ( x 0 ) + 1 2 ! f ′ ′ ( x n ) ( x − x n ) 2 f(x)\approx f(x_n)+(x−x_n)^T∇f(x_n)+1/2(x−x_n)^TH(f)(x_n)(x−x_n)\\ 等价于:f(x)\approx f(x_n)+(x-x_n)f'(x_0)+\frac1{2!}f''(x_n)(x-x_n)^2 f(x)f(xn)+(xxn)Tf(xn)+1/2(xxn)TH(f)(xn)(xxn)等价于:f(x)f(xn)+(xxn)f(x0)+2!1f′′(xn)(xxn)2

  • 效率对比

  • 牛顿法的优缺点:

举报

相关推荐

0 条评论