关于 SVM 的原理和为什么 SVM 总是选用大的 margin 来决定决策边界，我在文章：
https://blog.csdn.net/qq_42902997/article/details/124310782
中给予了阐述，如果不明白的可以回顾一下

回顾SVM 的优化目标

$C\Sigma_{i=1}^m{y_i}cost_1(\theta^Tx_i)+(1-y_i)cost_0(\theta^Tx_i)+\frac{1}{2}\Sigma_{j=1}^n\theta_j^2~~~~~~~~~~(1)$

我们都知道 SVM 是一个线性分类器，那么面对下面这种线性不可分的场景：
如果要实现分类，那么绝对不可能使用线性分类器来实现，因此我们想要引入多项式来相当于构造更高阶的特征来达到最终非线性分类的目的。
看图中给出的这个公式；对于某一个样本的所有特征 $\vec{x}=\{x_1,x_2\}$ ；试图基于这些特征制造更加高阶的特征 $x_1x_2, x_1^2, x_2^2$ 等来构造一个非线性的决策边界：
那么沿着这个思路，我们用更加一般化的形式来表示，由于我们的目的是制造更加高阶的特征，所以我们采用 $\theta_0 + \theta_1f_1 + \theta_2f_2+...+\theta_nf_n$ 来表示我们的决策边界；其中 $n$ 是我们最终使用的特征的数量；而这些 $f_1, f_2, ..., f_n$ 就是我们要使用的新的特征。
在上文的例子中， $f_1=x_1, f_2=x_2, f_3=x_1x_2, f_4=x_1^2,f_5=x_2^2, ...$
现在问题来了，如何保证我们这些 $f_1,...,f_n$ 是有效的呢？

如何构造 $f_1,...,f_n$

假设我们已经通过求算得到了 $\theta_0, \theta_1,...\theta_3$ ，他们的值分别如图所示：
如果这时候有一个样本 $x$ 处于图中的位置：距离 $l^{(1)}$ 很近，但是距离 $l^{(2)},l^{(3)}$ 很远，那么我们可以认为 $f_1\approx1; f_2, f_3\approx0$ 通过带入公式求算，我们可以得到最终的预测结果是 $> = 0$ 的，即正向样本。
如果此时还有一个样本 $x$ ，距离三个 $l^{(i)}$ 都很远：我们根据同样的步骤可以求算出他的预测标签是 $< 0$ 的，即负向样本。
如果样本量足够大，你会发现：这些样本最终的预测结果其实取决于所有的 landmarks，而因此产生的决策边界就会变成一个非线性的决策边界。位于红色边界内部的所有的样本都会被判断成正向样本，而位于红色边界外部的所有样本都会被判断成负向样本。

其实你可能已经想到了，我们完全可以使用这个数据集中的所有样本点 $X={x^{(1)},x^{(2)},...,x^{(n)}}$ 来当做这些 landmarks $l^{(1)}=x^{(1)},l^{(2)}=x^{(2)},...,l^{(n)}=x^{(n)}$
所以一个样本产生相似度的公式可以直接改写成如下形式：
由此，每一个样本 $x^{(i)}$ 的特征向量 $\vec{x^{(i)}}$ 由原本的 $\{x^{(i)}_1,x^{(i)}_2\}$ 变成了 $\vec{f^{(i)}}=\{f^{(i)}_1, f^{(i)}_2,..., f^{(i)}_n\}$ ；其实这里我们省略了截距特征 $f^{(i)}_0$ ，如果想加上也很简单， $\vec{f^{(i)}}=\{f^{(i)}_0, f^{(i)}_1, f^{(i)}_2,..., f^{(i)}_n\}$
同样要发生改变的，是跟这 $n$ 维向量（如果算 $f_0$ 就是 $n + 1$ 维）向量对应的 $\vec{\theta}={\theta_0,..., \theta_n}$
最终我们通过 $\theta^T \cdot \vec{f} = \theta_0f_0+...+\theta_nf_n>=0$ 来预测一个正向样本。

结合上面的内容，我们反过头来看 SVM 的目标函数，对于一个包含 $m$ 个样本的数据集：
$C\Sigma_{i=1}^m{y_i}cost_1(\theta^Tx^{(i)})+(1-y_i)cost_0(\theta^Tx^{(i)})+\frac{1}{2}\Sigma_{j=1}^n\theta_j^2~~~~~~~~~~(1)$
我们可以将这个优化目标改写为：
$C\Sigma_{i=1}^m{y_i}cost_1(\theta^T\cdot \vec{f^{(i)}})+(1-y_i)cost_0(\theta^T\cdot \vec{f^{(i)}})+\frac{1}{2}\Sigma_{j=1}^n\theta_j^2~~~~~~~~~~(2)$
也就是将原本的 $x$ 的特征向量转换成新的基于 $f$ 的特征向量；现在样本的数量为 $m$ 。
于此同时，正则化部分的 $n$ 原本代表的是一个样本 $x^{(i)}$ 中的有效特征数，现在这个量也可以替换成 $m$ 了，因为有效的特征数量就是样本数量，所以公式再度被优化成：

$C\Sigma_{i=1}^m{y_i}cost_1(\theta^T\cdot \vec{f^{(i)}})+(1-y_i)cost_0(\theta^T\cdot \vec{f^{(i)}})+\frac{1}{2}\Sigma_{j=1}^m\theta_j^2~~~~~~~~~~(2)$

这里的 $j = 1 . . . m$ 不能包含截距的那个特征，也就是说正则化的这个部分，只能最多有 $m$ 个项，因为截距特征不包含在正则化的优化中所以不能写成 $j = 0 . . . m$ 。
所以正则项还可以写成 $\theta^T\cdot \theta ~~~(ignoring~~ \theta_0)$