写在前面

在机器学习中，我们经常用过拟合、欠拟合来定性地描述模型是否很好地解决了特定的问题。实际上，我们还可以用偏差和方差来定量地描述模型的性能。

偏差和方差的定义

在监督学习中，模型的泛化误差来源于两个方面：偏差和方差

偏差和方差的定义：

偏差（Bias）：由所有采样得到的大小为m的训练数据集训练出的所有模型的输出的平均值和真实模型输出之间的距离。
方差（Variance）：由所有采样得到的大小为m的训练数据集训练出的所有模型的输出的方差。

情景引入

假设我们现在要预测一只神奇宝贝进化后的cp值（战力点数），只有Niantic这个游戏公司知道实际的cp值（因为他有对应的函数 $\hat f$ ）

我们能做的是：从一堆训练数据中，找到一个函数 $f^*$ ，用 $f^*$ 来估计 $\hat f$ 。

这就好比你现在在打靶， $\hat f$ 是靶的中心点，你收集到一堆训练数据，得到你觉得最好的函数 $f^*$ ，它落在靶上的某处，它跟 $\hat f$ 有一段距离，这个距离可能来自Bias，也可能来自Variance。

现在我们想估计靶的中心 $\hat f$ （理想情况的函数）。当你收集一堆训练数据，得到一个函数 $f^*$ ，这就相当于你往靶上打了一枪。

上面提到要收集很多堆训练数据，但通常我们手里不是只有一个训练集吗？我们要怎么找到那么多堆训练集呢？

你可以想象有很多的平行宇宙，每个宇宙里都可以收集到一堆训练集，比如每个宇宙里都去抓10只Pokemons作为训练集，来得到一个 $f^*$ 。显然不同宇宙中，抓到的Pokemons是不一样的，所以得到的 $f^*$ 也是不一样的。

方差（复杂模型学得的 $f^*$ 受数据集影响大）

假设我们有100个平行宇宙，收集到100个不同的 $f^*$ 。

对于简单的模型（函数空间： $\cdot x_{c p}$ ），它得到的100个 $f *$ 是比较集中的，而复杂的模型得到的100个 $f *$ 散布就比较广，即枪不太稳）。

这里你可能就会有个疑问了，为什么复杂模型得到的100个 $f *$ 的散布就比较广呢？主要是因为简单模型比较不会受你训练集的影响。复杂模型学得的 $f^*$ 受数据集影响大，由于训练样本只有m个，数据集太少了，你稍微哪个样本，复杂模型为了拟合好这个训练集，形状变化就会很大，导致射出去的 $f^*$ 分散得比较开，所以方差比较大，也就是说，方差通常是由于模型的复杂度相对于训练样本数m过高导致的。

偏差（简单模型的函数空间比较小）

上面我们在讲枪的性能稳不稳（方差），现在我们再来看看枪一开始瞄的准不准（偏差）。

偏差（Bias）的大小取决于这100个 $f^*$ 的平均值 $\bar f$ （ $E[f^*]=\bar f$ ）与理想函数 $f^*$ 的距离

这是你可能又有疑问了，为什么简单模型的偏差大，复杂模型的偏差小呢？这就要从函数空间的角度来解释了。

简单模型的函数空间比较小，你的目标 $\hat f$ 根本就不在这个空间里，所以会有很大的偏差，而由于这个空间比较小，所以方差是比较小的。
复杂模型的函数空间比较大，目标 $\hat f$ 在这个空间里，只不过他没有办法找到这个 $\hat f$ 在哪里，因为数据集太少了，你稍微哪个样本，复杂模型为了拟合好训练集，形状变化就会很大，导致射出去的 $f^*$ 分散得比较开，所以方差比较大，而他们是分散在这个 $\hat f$ 周围的，你平均一下的话，得到的 $\bar f$ 是很接近 $\hat f$ 的，所以偏差比较小。