恒创科技：香港 BGP 服务器网络连通性如何测试？-CFANZ编程社区

0. 概念和公式

请参考：一、机器学习之线性回归（一）

1. 涉及公式

1.1 简单线性回归

$y = w x + b$

1.2 多元线性回归

$\hat y = w_1X_1 + w_2X_2 ... w_nX_n + w_0$

向量表示：

$\hat y = W^TX$

1.3 高斯密度函数

$\ f(x; \mu, \sigma^2) = \frac{1}{\sqrt{2\pi}\sigma} \exp\left(-\frac{(x-\mu)^2}{2\sigma^2}\right)$

1.4 最大似然估计

连乘： $\ L(\theta | \text{data}) = \prod_{i=1}^{n} P(X_i; \theta)$
对数： $\ \ell(\theta | \text{data}) = \sum_{i=1}^{n} \log P(X_i; \theta)$

1.5 最小二乘法

$J(\theta) = \frac{1}{2} \sum_{i=1}^{n} (h_\theta(x_i) - y_i)^2$

1.6 正规方程

$\theta = (X^T X)^{-1} X^T y$

1.7 均方误差

$\text{MSE} = \frac{1}{n} \sum_{i=1}^{n} (h_\theta(x_i) - y_i)^2$

2. 公式推导(不考虑多项式)

2.1 解决问题

建模问题：
目标： 描述变量之间的线性关系。
问题描述： 给定一组观测数据 $x_1, y_1), (x_2, y_2), ..., (x_n, y_n)$ ，其中 (x) 是自变量，(y) 是因变量，线性回归的目标是找到一条直线 $\theta_0 + \theta_1 x$ ，使得这条直线最好地拟合给定的数据点。其中， $\theta_0$ 是截距， $\theta_1$ 是斜率。
解法： 通过最小化均方误差（MSE）来找到最优的参数 $\theta$ 。这等价于解一个线性方程系统，其中涉及到对参数的偏导数等于零，或者使用正规方程（Normal Equations）。
$\frac{\partial J(\theta)}{\partial \theta_0} = 0$
$\frac{\partial J(\theta)}{\partial \theta_1} = 0$
预测问题：
目标： 使用模型进行未知变量的预测。
问题描述： 在建立了线性回归模型后，我们希望利用这个模型对未知数据进行预测。例如，给定新的 $x$ 值，我们希望预测对应的 $y$ 值。
解法： 使用建立好的线性回归模型，将未知 $x$ 值代入模型，得到预测的 $y$ 值。
$\hat{y} = \theta_0 + \theta_1 x$

2.2 误差分析

误差计算：
$\varepsilon_i = |y_i - \hat y |$
向量写法：
$\varepsilon_i = |y_i - W^T x_i |$

$\varepsilon_i$ 为误差
$y_i$ 为样本实际值
$\hat y$ 为预测值

假定所有的样本的误差都是独立的，上下的震荡，叠加之后形成的分布，它服从正态分布（高斯分布），服从均值为 0，方差为某定值的高斯分布。

2.3 误差分析到高斯密度函数

高斯密度函数（正态分布）公式：
$\ f(x; \mu, \sigma^2) = \frac{1}{\sqrt{2\pi}\sigma} \exp\left(-\frac{(x-\mu)^2}{2\sigma^2}\right)$
$\mu$ ：均值，为0
$\sigma^2$ ：方差
$x$ ：误差变量 $\varepsilon_i$

公式简化：
$\ f(\varepsilon_i|\mu=0, \sigma^2) = \frac{1}{\sqrt{2\pi}\sigma} \exp\left(-\frac{(\varepsilon_i-0)^2}{2\sigma^2}\right)$

$\ f(\varepsilon_i|0, \sigma^2) = \frac{1}{\sqrt{2\pi}\sigma} \exp\left(-\frac{\varepsilon_i^2}{2\sigma^2}\right)$

2.4 高斯密度函数到最大似然估计

有： $\ f(\varepsilon_i|0, \sigma^2) = \frac{1}{\sqrt{2\pi}\sigma} \exp\left(-\frac{\varepsilon_i^2}{2\sigma^2}\right)$

$\prod_{i=1}^{n}f(\varepsilon_i|0, \sigma^2)=\prod_{i=1}^{n}\frac{1}{\sqrt{2\pi}\sigma} \exp\left(-\frac{\varepsilon_i^2}{2\sigma^2}\right)$

有： $\varepsilon_i = |y_i - W^T x_i |$

最大似然估计：

$\prod_{i=1}^{n}\frac{1}{\sqrt{2\pi}\sigma} \exp\left(-\frac{（y_i - W^T x_i )^2}{2\sigma^2}\right)$

2.5 最大似然估计到最小二乘法

有： $\prod_{i=1}^{n}\frac{1}{\sqrt{2\pi}\sigma} \exp\left(-\frac{（y_i - W^T x_i )^2}{2\sigma^2}\right)$
对数运算：
$log_e(P)= log_e\left[\prod_{i=1}^{n}\frac{1}{\sqrt{2\pi}\sigma} \exp\left(-\frac{（y_i - W^T x_i )^2}{2\sigma^2}\right)\right]$

累乘变成累加：
$log_e(P)= log_e\left[\prod_{i=1}^{n}\frac{1}{\sqrt{2\pi}\sigma} \exp\left(-\frac{（y_i - W^T x_i )^2}{2\sigma^2}\right)\right]$

$\sum_{i=1}^{n}log_e\left[\frac{1}{\sqrt{2\pi}\sigma} \exp\left(-\frac{（y_i - W^T x_i )^2}{2\sigma^2}\right)\right]$

$\sum_{i=1}^{n}\left[log_e\frac{1}{\sqrt{2\pi}\sigma} -\frac{（y_i - W^T x_i )^2}{2\sigma^2}\right]$

$\sum_{i=1}^{n}\left[log_e\frac{1}{\sqrt{2\pi}\sigma} -\frac{1}{2}. \frac{1}{\sigma^2}.(y_i - W^T x_i)^2\right]$

最大似然求对数后， $\pi 、\sigma$ 都是常量，可忽略， $y_i - W^T x_i)^2$ 肯定大于零。求最大值问题，转变为求最小值问题（求减式后边的值）：

$\ L(\theta | \text{data}) = \frac{1}{2}.\sum_{i=1}^{n} (y_i - W^T x_i)^2$

可写成最小二乘法：

$h_\theta(x_i) = W^T x_i$

$J(\theta) = \frac{1}{2} \sum_{i=1}^{n} (h_\theta(x_i) - y_i )^2$

2.6 最小二乘法到正规方程

有： $J(\theta) = \frac{1}{2} \sum_{i=1}^{n} (h_\theta(x_i) - y_i )^2$

可写成：
$J(\theta) = \frac{1}{2}(X\theta - y_i)^T(X\theta - y_i)$

$J(\theta) = \frac{1}{2}(\theta^TX^T - y_i^T)(X\theta - y_i)$

$J(\theta) = \frac{1}{2}(\theta^TX^TX\theta -\theta^TX^Ty_i - y_i^TX\theta + y^Ty_i)$

进行求导（注意X、y是已知量， $\theta$ 是未知数）
$J'(\theta) = \frac{1}{2}(\theta^TX^TX\theta -\theta^TX^Ty_i - y_i^TX\theta + y^Ty_i)'$

$J'(\theta) = X^T(X\theta - y)$

令导数为0：

$X^T(X\theta - y)$

$X^TX\theta = X^Ty$

两边乘逆矩阵 $X^TX)^{-1}$ 进行转化, $I$ 单位矩阵为1：

$(X^TX)^{-1}X^TX\theta = (X^TX)^{-1}X^Ty$

$I\theta = (X^TX)^{-1}X^Ty$

最小二乘法：
$\theta = (X^TX)^{-1}X^Ty$

2.7 最小二乘法和均方误差