[Machine Learning] Learning with Noisy Data-CFANZ编程社区

文章目录

Probabilistic Perspective of Noise
Bias and Variance
Robustness among Surrogate Loss Functions
NMF

Probabilistic Perspective of Noise

假设数据来源于一个确定的函数，叠加了高斯噪声。我们有：
$\epsilon$
其中 $\epsilon \sim \mathcal{N}(0, \beta^{-1})$

等价地，给定输入 $x$ ，以及函数 $h$ 和噪声的精度 $\beta$ ， $y$ 的条件分布可以写作：
$p\{y|x, h, \beta\} = \mathcal{N}(y|h(x), \beta ^ {-1})$

即 $y$ 的条件分布是以 $h (x)$ 为均值、以 $\beta^{-1}$ 为方差的正态分布。

我们现在有一个由 $n$ 个数据点组成的数据集 $\{(x_1,y_1), \ldots, (x_n,y_n)\}$ 。我们假设数据点是独立同分布的，即每个数据点的生成不依赖于其他数据点。因此，整个数据集 $S$ 的似然是所有单个数据点似然的乘积：
$\beta^{-1}) = \prod\limits_{i=1}^n p(y_i|h(x_i), \beta^{-1})$

这个似然模型告诉我们，对于给定的函数 $h$ 和噪声精度 $\beta$ ，数据集 $S$ 的"可能性"或"合理性"是多少。

假设我们的模型参数为 $h$ ，先验分布为 $p (h)$ ，那么基于贝叶斯定理，参数 $h$ 的后验分布为：
$\frac{p(S|h) p(h)}{p(S)}$
其中， $p (S ∣ h)$ 是似然， $p (S)$ 是边缘似然，与参数 $h$ 无关。

MAP估计就是找到使后验分布 $p (h ∣ S)$ 最大的参数 $h$ 。由于分母 $p (S)$ 与 $h$ 无关，所以MAP估计等价于：
$h_{\text{MAP}} = \argmax_{h} p(S|h) p(h)$
取负对数，问题可以转化为：
$h_{\text{MAP}} = \argmin_{h} \{-\ln p(S|h) - \ln p(h)\}$

为了解决这个优化问题，你通常需要的是：

一个关于似然的负对数的表达式
一个关于先验的负对数的表达式

回顾我们的似然模型：
$\beta^{-1}) = \prod_{i=1}^n \mathcal{N}(y_i|h(x_i), \beta^{-1})$

根据正态分布的定义：
$\mathcal{N}(y|h(x), \beta^{-1}) = \frac{\beta}{\sqrt{2\pi}} \exp\left(-\frac{\beta (y - h(x))^2}{2}\right)$

因此，我们可以写出似然函数为：
$\beta^{-1}) = \prod_{i=1}^n \frac{\beta}{\sqrt{2\pi}} \exp\left(-\frac{\beta (y_i - h(x_i))^2}{2}\right)$

对似然函数取对数，我们得到：
$\ln p(S|X, h, \beta^{-1}) = \sum_{i=1}^n \ln \frac{\beta}{\sqrt{2\pi}} - \frac{\beta (y_i - h(x_i))^2}{2}$

将上述式子进一步拆分并合并相似的项，我们可以得到：
$\ln p(S|X, h, \beta^{-1}) = n \ln \beta - \frac{n}{2} \ln(2\pi) - \frac{\beta}{2} \sum_{i=1}^n (y_i - h(x_i))^2$

此时， $-\frac{\beta}{2} \sum_{i=1}^n (y_i - h(x_i))^2$ 就是我们定义的风险 $R_S(h)$ 的部分，它表示模型在训练数据上的平均误差。

因此，我们有：
$-\ln p(S|h) = -\frac{n}{2} \ln \beta + \frac{n}{2} \ln(2\pi) + \frac{\beta}{2} n R_S(h)$

这就是似然的负对数的表达式。

为了完整地解决优化问题，你还需要一个先验的负对数形式。比如，如果 $h$ 的先验是高斯分布，那么负对数先验的形式会是 $h$ 的二次函数。

结合似然和先验的负对数形式，你可以使用优化技巧（例如梯度下降）来求解 $h_{\text{MAP}}$ 。这样得到的 $h_{\text{MAP}}$ 既考虑了数据的似然，又考虑了先验知识，从而可能得到更好、更稳定的估计结果。

Bias and Variance

当 $\lambda$ 很小或为0时：模型可能会过于复杂，拟合训练数据中的每一个细节，包括噪声。这会导致低偏差但高方差，即模型容易过拟合。

当 $\lambda$ 很大时：模型会变得过于简单，参数值会被强烈地压缩，导致模型不能很好地捕获数据中的模式。这会导致高偏差但低方差，即模型容易欠拟合。

Robustness among Surrogate Loss Functions

在许多优化问题中，直接对目标函数进行操作可能会非常困难。可能是因为这个函数在数学上很复杂，或者它涉及到的计算量太大，导致直接优化不切实际。在这些情况下，转化或重参数化问题可以使其更容易处理。

在这里，考虑 $g (t) = f (t h)$ 是一个这样的尝试。通过引入新的变量 $t$ 并考虑如何改变 $h$ 的长度（即通过 $t$ 来缩放），我们试图在某种程度上简化问题。

当 $t = 1$ 时，我们实际上是在查看原始函数 $f$ 在点 $h$ 的行为。如果 $g^{'} (1) = 0$ ，那么我们知道 $f$ 在 $h$ 这点取得极值（可能是最小值或最大值）。因此，这个技巧为我们提供了另一种方式来寻找 $f (h)$ 的最小值点，而不是直接对 $f$ 进行操作。

现在考虑四种损失函数及其对应的 $g^{'} (1)$ ：

最小二乘损失 (Least squares loss):
$\ell(h(x_i), y_i) = (y_i - h(x_i))^2$
这意味着，
$\sum_{i=1}^n (y_i - h(x_i)) h(x_i)$
绝对损失 (Absolute loss):
$\ell(h(x_i), y_i) = |y_i - h(x_i)|$
这的导数与误差的符号有关。
Cauchy损失 (Cauchy loss):
$\ell(h(x_i), y_i) = \log(1 + \frac{(y_i - h(x_i))^2}{\sigma^2})$
其中， $\sigma$ 是一个正的常数。
Correntropy损失 (Welsch loss):
$\ell(h(x_i), y_i) = \frac{\sigma^2}{2}(1 - \exp(-\frac{(y_i - h(x_i))^2}{\sigma^2}))$

对于每个损失函数， $g^{'} (1)$ 都会有一个与 $c_i = (y_i - h(x_i))(- h(x_i))$ 相关的项。这个项可以被看作是数据点 $x_i, y_i)$ 对损失函数的贡献与 $h(x_i)$ 的关系。具体地说， $c_i$ 可以被看作为两部分的乘积：

$y_i - h(x_i))$ ：这是观测值 $y_i$ 与预测值 $h(x_i)$ 之间的误差。此误差项衡量了模型在特定数据点上的预测准确性。
$h(x_i)$ ：这是模型预测的负值，这种乘积形式通常是为了衡量模型的响应强度和误差之间的关系。在某些情境中，更强烈的模型响应（无论正负）可能与更大的误差相关。

整体来说， $c_i$ 是一个衡量在数据点 $x_i, y_i)$ 上模型响应强度与模型误差之间关系的量。不同的损失函数会对这些项赋予不同的权重，当误差（或噪声）增大时，某些损失函数会对这些项赋予更小的权重，从而更"鲁棒"。

NMF

标准的NMF (Basic NMF):
使用欧氏距离或Frobenius范数来最小化重建误差。此方法对噪声敏感。
$\min_{W,H} \|X - WH\|_F^2 \text{ subject to } W \geq 0, H \geq 0$
L1-Norm Regularized Robust NMF:
在NMF的基础上加入L1正则化项，旨在捕获噪声和离群值。
$\min_{W,H,E} \|X - WH - E\|_F^2 + \lambda \|E\|_1 \text{ subject to } W \geq 0, H \geq 0$
L1-Norm Based NMF:
使用L1范数来衡量重建误差，使得分解更加鲁棒，尤其是对噪声和离群值。L1范数倾向于产生稀疏的解。
$\min_{W,H} \|X - WH\|_1 \text{ subject to } W \geq 0, H \geq 0$
L2,1-Norm Based NMF:
使用L2,1范数来增强鲁棒性。L2,1范数可以鼓励列的稀疏性，使得某些特定的特征在所有样本上都为零，这有助于去除离群值带来的影响。
$\min_{W,H} \|X - WH\|_{2,1} \text{ subject to } W \geq 0, H \geq 0$
Truncated Cauchy NMF:
这种方法使用截断的Cauchy损失来增加鲁棒性。与L1和L2范数相比，Cauchy损失更能够容忍较大的离群值，因此这种方法在面对有很多噪声和离群值的数据时更为鲁棒。
Hypersurface Cost Based NMF:
通过在损失函数中加入超曲面成本项来增加鲁棒性。此方法试图找到描述数据变化的超曲面，从而更好地应对噪声和离群值。