1.监督学习的过程

将监督学习的数据集分为自变量（x）和因变量（y）。有监督学习算法的任务是，生成一个函数，将预测时需要用到的x输入进去，能输出相应的结果。

2.代价函数

以回归算法为例，设假设函数为 $h_\theta(x)=\theta_0+\theta_1*x$ ,代价函数（cost function）为 $J(\theta_0,\theta_1)=\frac{1}{2m}\sum_{i=1}^m(h_\theta(x^{(i)})-y^{(i)})$ ,则为了找到最适合的 $\theta_0,\theta_1$ ,则应找到代价函数相应的最小值。

3.梯度下降

梯度下降Gradient descent是用来找到最适合的 $\theta_0,\theta_1$ 的算法。通过计算代价函数的偏导数，找到 $\theta_0,\theta_1$ 变化的方向，改变 $\theta_0,\theta_1$ ，的值，从而使代价函数的值降到局部最低点。

在这里插入图片描述

for j=0 and j=1
$\theta_j:=\theta_j-\alpha\frac{\partial}{\partial \theta_j}j(\theta_0,\theta_1)$
即
$\theta_0:=\theta_0-\alpha\frac{1}{m}\sum_{i=1}^m(h_\theta(x^{(i)})-y^{(i)}) \\\theta_1:=\theta_1-\alpha\frac{1}{m}\sum_{i=1}^m(h_\theta(x^{(i)})-y^{(i)})x^{(i)}$
$\alpha$ 是学习率learning rate，作用是控制我们以多大的幅度改变参数

4.多元线性回归

多元线性回归的参数相比于二元线性回归更多。假设函数 $h_\theta(x)=\theta_0+\theta_1x_1+\theta_2x_2+…+\theta_nx_n$

对于上述情况，假设 $x_0=1$ ,则有 $h_\theta(x)=\theta_0x_0+\theta_1x_1+\theta_2x_2+…+\theta_nx_n$ ,define $\theta=\begin{bmatrix}\theta_0\\\theta_1\\\vdots\\\theta_n\end{bmatrix}$ , $x=\begin{bmatrix}x_0\\x_1\\\vdots\\x_n\end{bmatrix}$ ,则有 $h_\theta(x)=\theta^{\top}x$

Cost function: $J(\theta)=J(\theta_0,\theta_1,…,\theta_n)=\frac{1}{2m}\sum_{i=1}^m(h_\theta(x^{(i)})-y^{(i)})$

Gradient descent:
$for\;j=0,1,...,n\\ \theta_j:=\theta_j-\alpha\frac{\partial}{\partial \theta_j}J(\theta) \\ =\theta_j-\alpha\frac{1}{m}\sum_{i=1}^m(h_\theta(x^{(i)})-y^{(i)})x^{(i)}_j$

多元线性回归梯度下降算法的优化

1.特征缩放

将特征向量中每个特征变量都缩放到相似区间内，从而使梯度下降更为精确和快速
在这里插入图片描述

特征变量除以最大值

均值归一化： $x_i=\frac{x_i-\mu_i}{s_i}$ ,其中 $\mu_i$ 是 $x_i$ 的平均值， $s_i=max_{x_i}-min_{x_i}$ 是 $x_i$ 的范围

2.调整学习率 $\alpha$

如果 $\alpha$ 太小，那么代价函数收敛会很缓慢；如果 $\alpha$ 太大，那么代价函数可能会不收敛。

5.自定义特征和多项式回归

假如我们有一个房价数据集，里面包含房子的长和宽还有相应的房价。我们建立回归模型的时候，自变量不一定要局限于长和宽，我们可以自己定义一个特征 $x = l e n g t h * w i d t h$ ,用特征x来建立回归模型预测房价。

在比如说，现有数据集如下图在这里插入图片描述
如图所示，该数据集并不适合做线性回归，这时候就可以考虑多项式回归。例如将特征变量设置为 $s i z e$ 和 $\sqrt{size}$ 两个，即 $h_\theta(size)=\theta_0+\theta_1*(size)+\theta_2*(\sqrt{size})$

6.正规方程求解 $\theta$

set：
$x^{(i)}=\begin{bmatrix}x_0^{(i)}\\x_1^{(i)}\\x_2^{(i)}\\\vdots\\x_m^{(i)}\end{bmatrix}\;, X=\begin{bmatrix}(x^{(1)})^\top\\(x^{(2)})^\top\\(x^{(3)})^\top\\\vdots\\(x^{(m)})^\top\end{bmatrix} y=\begin{bmatrix}y^{(1)}\\y^{(2)}\\y^{(3)}\\\vdots\\y^{(m)}\end{bmatrix}$
则用以下公式即可求得最合适的 $\theta$ 值：
$\theta=(X^\top X)^{-1}X^\top y$
在处理线性回归问题时，如果要求的参数不多（小于1w），则用正规方程比较好。