一、Support Vector Machine

二、距离的计算

假设在决策平面 $L$ 上有两点 $x^{'}$ 和 $x^{''}$ ，满足以下条件：

$w^Tx'=-b,w^Tx''=-b$
$w\bot L$ ，即： $\begin{bmatrix} w^T(x''-x') \end{bmatrix}=0 \tag{1}$
平面外一点 $x$ 到该平面 $L$ 的距离为： $distance=\text{Proj}_L(x-x')\tag{2}$ 化简可得： $distance(x,b,w)=\left|\frac{w^T}{||w||}(x-x')\right|=\frac{1}{||w||}|w^Tx+b|\tag{3}$

数据集： $(X_1,Y_1),(X_2,Y_2),\cdots,(X_n,Y_n)$
$Y$ 为样本的类别：当 $X$ 为正例时， $Y = + 1$ ；当 $X$ 为负例时， $Y = - 1$
决策方程： $y(x)=w^T\Phi(x)+b$ (其中 $\Phi(x)$ 是对数据做了核变换，使低维不可分数据映射为高维可分数据) $\implies \begin{aligned}&y(x_i)>0\iff y_i=+1\\&y(x_i)<0\iff y_i=-1\end{aligned}\implies y_i\cdot y(x_i)>0\tag{4}$

通俗解释：找到一条线( $w$ 和 $b$ )，使得离该线最近的点能够最远
将点到直线的距离化简得： $\frac{y_i\cdot\left(w^T\Phi(x_i)+b\right)}{||w||}\tag{5}$ (由于 $y_i\cdot y(x_i)>0$ ，所以将绝对值展开原式依旧成立)

放缩变换：对于决策方程 $(w, b)$ 可以通过放缩使得其结果值 $|Y|\geq1\implies y_i\cdot\left(w^T\Phi(x_i)+b\right)\geq1$
优化目标： $\argmax_{w,b}\left\{\frac{1}{||w||}\min_i\left[y_i\cdot\left(w^T\cdot\Phi(x_i)+b\right)\right]\right\}\tag{6}$ 由于 $y_i\cdot\left(w^T\Phi(x_i)+b\right)\geq1$ ，只需要考虑 $\argmax_{w,b}\frac{1}{||w||}$
当前目标： $\max_{w,b}\frac{1}{||w||}$ ，约束条件： $y_i\cdot\left(w^T\Phi(x_i)+b\right)\geq1$
常规套路：将求解极大值问题转换成极小值问题 $\implies\min_{w,b}\frac12||w||^2$
应用拉格朗日乘子法求解

原式转换： $L(w,b,\alpha)=\frac12||w||^2-\sum_{i=1}^n\alpha_i(y_i(w^T\cdot\Phi(x_i)+b)-1)\tag{7}$ 约束条件： $y_i\cdot\left(w^T\Phi(x_i)+b\right)\geq1\tag{8}$

由对偶性质可得： $\min_{w,b}\max_\alpha L(w,b,\alpha)\to\max_\alpha\min_{w,b} L(w,b,\alpha)\tag{9}$
对 $w$ 求偏导： $\frac{\partial L}{\partial w}=0\implies w=\sum_{i=1}^n\alpha_iy_i\Phi(x_i)\tag{10}$ 对 $b$ 求偏导： $\frac{\partial L}{\partial b}=0\implies 0=\sum_{i=1}^n\alpha_iy_i\tag{11}$
代入原式可得： $L(w,b,\alpha)=\frac12w^Tw-w^T\sum_{i=1}^n\alpha_iy_i\Phi(x_i)-b\sum_{i=1}^n\alpha_iy_i+\sum_{i=1}^n\alpha_i\\=\sum_{i=1}^n\alpha_i-\frac12(\sum_{i=1}^n\alpha_iy_i\Phi(x_i))^T\sum_{i=1}^n\alpha_iy_i\Phi(x_i)\\=\sum_{i=1}^n\alpha_i-\frac12\sum_{i=1,j=1}^n\alpha_i\alpha_jy_iy_j\Phi^T(x_i)\Phi(x_j)\tag{12}$ 完成了第一步求解 $\min_{w,b}L(w,b,\alpha)$
继续对 $\alpha$ 求极大值： $\max_\alpha\sum_{i=1}^n\alpha_i-\frac12\sum_{i=1}^n\sum_{j=1}^n\alpha_i\alpha_jy_iy_j\left(\Phi(x_i)\cdot\Phi(x_j)\right)\tag{13}$ 条件： $\begin{aligned}&\sum_{i=1}^n\alpha_iy_i=0\\&\alpha_i\geq0\end{aligned}\tag{14}$
极大值转换成求极小值： $\min_\alpha\frac12\sum_{i=1}^n\sum_{j=1}^n\alpha_i\alpha_jy_iy_j\left(\Phi(x_i)\cdot\Phi(x_j)\right)-\sum_{i=1}^n\alpha_i\tag{15}$ 条件： $\begin{aligned}&\sum_{i=1}^n\alpha_iy_i=0\\&\alpha_i\geq0\end{aligned}\tag{16}$

目标：找到一种变换的方法，也就是 $\Phi(X)$ ，使其数据变成高维可分问题
问题：如果将维数扩展到非常高的时候，计算复杂度会爆炸性增长
方法：支持向量机通过某非线性变换 $\Phi(X)$ ，将输入空间映射到高维特征空间。特征空间的维数可能非常高。如果支持向量机的求解只用到内积运算，而在低维输入空间又存在某个函数 $K (x, x^{'})$ ，它恰好等于在高维空间中这个内积，即 $=<\Phi(x),\Phi(x')>$ 。那么支持向量机就不用计算复杂的非线性变换，而由这个函数 $K (x, x^{'})$ 直接得到非线性变换的内积，大大简化了计算。这样的函数 K(x, x′) 称为核函数。
常用核函数：
高斯核函数： $K(X,Y)=exp\left\{-\frac{||X-Y||^2}{2\sigma^2}\right\}\tag{19}$