0

点赞

收藏

分享

女生转行软件测试难吗?

迪莉娅1979 2023-04-25 阅读 90

标签: 机器学习概率论人工智能

期望：随机变量的平均值

矩：

$X$ 的 $n$ 阶矩： $\mu_n^\prime=EX^n$

$X$ 的 $n$ 阶中心矩： $\mu_n=E(X-\mu)^n$

三种收敛

依概率收敛
弱大数定律
殆必收敛（概率1收敛）
强大数定律
依分布收敛
总结

大数定律与中心极限定理

依分布收敛

大数定律研究的是一系列随机变量 ${X_n}$ 的均值 $\overline X_n=\frac1n∑_{i=1}^nX_i$ 是否会依概率收敛于其期望 $E\overline X_n$ 这个数值，而中心极限定理进一步研究 $\overline X_n$ 服从什么分布。若 ${X_n}$ 满足一定的条件，当 $n$ 足够大时， $\overline X_n$ 近似服从正态分布，这就是中心极限定理的主要思想，这也体现了正态分布的重要性与普遍性。

点估计

定义：样本的任何一个函数 $W(X_1,...,X_n)$ 称为一个点估计量，即任何一个统计量就是一个点估计量。

无偏性：估计量的数学期望等于总体参数；

有效性：方差越小越越有效；

一致性：当样本量趋于无穷时，估计值离真实值越近。

极大似然估计量（MLE）

对每个固定的样本点 $x$ ，令 $\hat\theta(x)$ 是参数 $\theta$ 的一个取值，它是的 $L(\theta|x)$ 作为 $\theta$ 的函数在该处达到最大值。那么，基于样本 $X$ 的极大似然估计量就是 $\hat\theta(X)$ 。

随机梯度下降和牛顿法

随机梯度下降（SGD）是一种用于训练神经网络的优化算法，用于调整权重、更新参数，能在每次反向传播步骤之后使结果更接近最小值。SGD不同于单纯的梯度下降，因为其处理的是mini-batch，而非单个训练样本。牛顿法
牛顿法是基于二阶泰勒展开来近似 $f (x)$ ：

$f(x)\approx f(x_n)+(x−x_n)^T∇f(x_n)+1/2(x−x_n)^TH(f)(x_n)(x−x_n)\\ 等价于：f(x)\approx f(x_n)+(x-x_n)f'(x_0)+\frac1{2!}f''(x_n)(x-x_n)^2$

效率对比
牛顿法的优缺点：

0 条评论

关注