1 前期准备

为了方便表述，我们先做一些很简单的定义：

假设有一多项式函数：
$x_1,x_2,\cdots ,x_m) =\sum_{i=1}^m{a_ix_i}$
我们将函数中的自变量都提取出来组成一个列向量 $x$ ：
$x=[x_1,x_2,\cdots,x_m]^T$
则称 $x$ 为一个向量变元。

如 $1,2]^T$ 就是 $f(x_1,x_2)=x_1+2x_2$ 的向量变元

此时，如果我们按照向量变元内部的变量排列顺序，依次在每个变量位置填上该变量对应的偏导函数，则就构成了对于函数 $x_1,x_2,\cdots ,x_m)$ 进行向量变元 $x$ 的向量求导的结果，即：
$\frac{\partial f(x_1,x_2,\cdots ,x_m)}{\partial x}=[ \frac{\partial f(x_1,x_2,\cdots ,x_m)}{\partial x_1},\frac{\partial f(x_1,x_2,\cdots ,x_m)}{\partial x_2},\cdots ,\frac{\partial f(x_1,x_2,\cdots ,x_m)}{\partial x_m} ] ^T$
据此，我们对向量求导做出定义：

设 $f (x)$ 是一个关于 $x$ 的函数，其中 $x$ 是向量变元，并且 $x = [x_1, x_2,...,x_n]^T$

则
$\frac{\partial f}{\partial x} = [\frac{\partial f}{\partial x_1}, \frac{\partial f}{\partial x_2}, ..., \frac{\partial f}{\partial x_n}]^T$
而该表达式也被称为向量求导的梯度向量形式。
$\nabla _xf(x) = \frac{\partial f}{\partial x} = [\frac{\partial f}{\partial x_1}, \frac{\partial f}{\partial x_2}, ..., \frac{\partial f}{\partial x_n}]^T$
接下来，我们去证明几个等式，这些等式都将再最小二乘法的矩阵形式推导中用到。

2 最小二乘法矩阵形式推导过程

假设有一多元线性方程组：
$f(x) = w_1x_1+w_2x_2+...+w_dx_d+b$
令 $w = [w_1,w_2,...w_d]^T$ ， $x = [x_1,x_2,...x_d]^T$ ，则上式可写为：
$f(x) = w^Tx+b$
但是式（13）还不够简洁，我们可以令：
$\hat w = [w_1,w_2,...,w_d,b]^T\\ \hat x = [x_1,x_2,...,x_d,1]^T$
假设现在总共有 $m$ 条观测值（ $m > d$ ）， $x^{(i)} = [x_1^{(i)}, x_2^{(i)},...,x_d^{(i)}]$ ，则带入 $f (x)$ 中可构成 $m$ 个方程：
$$
\left [\begin{array}{cccc}
w_1x_1^{(1)}+w_2x_2{(1)}+…+w_dx_d^{(1)}+b \
w_1x_1^{(2)}+w_2x_2{(2)}+…+w_dx_d^{(2)}+b \
. \
. \
. \
w_1x_1^{(m)}+w_2x_2{(m)}+…+w_dx_d^{(m)}+b \
\end{array}\right]

\left [\begin{array}{cccc}
\hat y_1 \
\hat y_2 \
. \
. \
. \
\hat y_m \
\end{array}\right]
$再令：$
\hat X = \left [\begin{array}{cccc}
x_1^{(1)} &x_2^{(1)} &… &x_d^{(1)} &1 \
x_1^{(2)} &x_2^{(2)} &… &x_d^{(2)} &1 \
… &… &… &… &1 \
x_1^{(m)} &x_2^{(m)} &… &x_d^{(m)} &1 \
\end{array}\right]\
y=[y_1,y_2,\cdots,y_m]^T\
\hat y=[\hat y_1,\hat y_2,\cdots,\hat y_m]^T
$所以方程组可写作：$
\hat X \cdot \hat w = \hat y
$该线性模型也可写作：$
f(\hat x) = \hat w^T \cdot \hat x
$KaTeX parse error: Can't use function '$' in math mode at position 13: 我们可建立使误差平方和$̲SSE$最小的优化模型：$
\min S(\hat w) = ||y - X\hat w||_2^2 = (y - X\hat w)^T(y - X\hat w)
$$
上式中， $X\hat w^T||_2$ 为向量的2-范数的计算表达式。向量的2-范数计算过程为各分量求平方和再进行开平方。例如 $a = [1, - 1,]$ ，则 $||a||_2= \sqrt{1^2+(-1)^2}=\sqrt{2}$ 。

我们只需要求得偏导数的零点，即可得到最优解，即最优的 $\hat w$ 值，即拟合的参数，即可得拟合的多元函数表达式

在此之前，需要补充两点矩阵转置的运算规则：
$A-B)^T=A^T-B^T\\ (AB)^T=B^TA^T$
对 $S(\hat w)$ 求导并令其为0即可：
$\begin{aligned} \frac{S(\hat w)}{\partial{\boldsymbol{\hat w}}} &= \frac{\partial{||\boldsymbol{y} - \boldsymbol{X\hat w}||_2}^2}{\partial{\boldsymbol{\hat w}}} \\ &= \frac{\partial(\boldsymbol{y} - \boldsymbol{X\hat w})^T(\boldsymbol{y} - \boldsymbol{X\hat w})}{\partial{\boldsymbol{\hat w}}} \\ & =\frac{\partial(\boldsymbol{y}^T - \boldsymbol{\hat w^T X^T})(\boldsymbol{y} - \boldsymbol{X\hat w})}{\partial{\boldsymbol{\hat w}}}\\ &=\frac{\partial(\boldsymbol{y}^T\boldsymbol{y} - \boldsymbol{\hat w^T X^Ty}-\boldsymbol{y}^T\boldsymbol{X \hat w} +\boldsymbol{\hat w^TX^T}\boldsymbol{X\hat w})}{\partial{\boldsymbol{\hat w}}}\\ & = 0 - \boldsymbol{X^Ty} - \boldsymbol{X^Ty}+X^TX\hat w+(X^TX)^T\hat w \\ &= 0 - \boldsymbol{X^Ty} - \boldsymbol{X^Ty} + 2\boldsymbol{X^TX\hat w}\\ &= 2(\boldsymbol{X^TX\hat w} - \boldsymbol{X^Ty}) = 0 \end{aligned}$
即：
$X^TX\hat w = X^Ty$
若 $X^TX$ 存在逆矩阵，则：
$\hat w = (X^TX)^{-1}X^Ty$
这样我们就得到了拟合的 $\hat w$ ，至此最小二乘法的推导结束！

3 代码验证

假如有这么一组数据：

$x$	$y$
1	2
3	4

我们要利用最小二乘法得到它的一次线性拟合函数，过程如下：

我们可以知道：
$\left [\begin{array}{cccc} 1 &1 \\ 3 &1 \\ \end{array}\right]\\ y = \left [\begin{array}{cccc} 2 \\ 4 \\ \end{array}\right] \\$
需要拟合的参数为：
$$
\hat w = \left [\begin{array}{cccc}

w \
b \
\end{array}\right]
$则：$
\begin{aligned}
\hat w &= (X^TX){-1}X^Ty \
&= (\left [\begin{array}{cccc}
1 &1 \
3 &1 \
\end{array}\right]^{T}
\left [\begin{array}{cccc}
1 &1 \
3 &1 \
\end{array}\right])^{-1}
\left [\begin{array}{cccc}
1 &1 \
3 &1 \
\end{array}\right]^{T}
\left [\begin{array}{cccc}
2 \
4 \
\end{array}\right]
\
&=
\left [\begin{array}{cccc}
1 \
1 \
\end{array}\right]
\end{aligned}
$即拟合出来的函数表达式为：$
y=x+1
$$
Python代码实现：

import numpy as np # 导入numpy库用于相关计算
X = np.array([[1, 1], [3, 1]]) # 矩阵X
y = np.array([2, 4]).reshape(2, 1) # 观察值
result=np.linalg.inv(X.T.dot(X)).dot(X.T).dot(y) # 相关矩阵运算
# 得到的结果中，最后一个值为b，其余从上到下分别为x1的系数，x2的系数......
print("拟合的参数为：",result)

最小二乘法的矩阵表达

1 前期准备

2 最小二乘法矩阵形式推导过程

3 代码验证