19 贝叶斯线性回归

19.1 频率派线性回归

数据与模型：

样本：
${\lbrace (x_i, y_i) \rbrace}_{i=1}^{N}, \quad x_i \in {\mathbb R}^p, \quad y_i \in {\mathbb R}^p$

$(x_1 \ x_2 \ \dots \ x_N )^T = \begin{pmatrix} x_1^T \\ x_2^T \\ \dots \\ x_N^T \end{pmatrix} = \begin{pmatrix} x_{11} & x_{12} & \dots & x_{1N} \\ x_{21} & x_{22} & \dots & x_{2N} \\ \dots \\ x_{N1} & x_{N2} & \dots & x_{NN} \\ \end{pmatrix} , Y = \begin{pmatrix} y_1^T \\ y_2^T \\ \dots \\ y_N^T \end{pmatrix}$
回归方程：
$w^T x = x^T w, \quad y = f(x) + \underbrace{\varepsilon}_{noise}, \quad \varepsilon \backsim N(0,\sigma^2)$
其中 $\varepsilon$ 都是随机变量，假设 $w$ 用于表示参数

在频率派的线性回归中，我们是通过假设 $w$ 表示一个未知的常量，转化为优化问题进行求解。我们将这种方法称为点估计，在过去我们学习过了两种方法：

$\impliedby MLE(\text{noise is Gaussian})$ ——极大似然估计：
$w_{MLE} = arg\max_{w} P(Data|w)$
$\ LSE \impliedby MAP(\text{noise is Gaussian})$ ——最大后验估计：
$w_{MAP} = arg\max_{w} \underbrace{P(w|Data)}_{\propto P(Data|w) \cdot P(w)} = arg\max_{w} P(Data|w) \cdot P(w)$
其中若 $P (w)$ 表示为Gaussian Dist则为岭回归(Ridge)，若 $P (w)$ 表示为Laplace则为Lasso

在本章我们的目标是通过Bayesian Method解决线性回归问题：

假定 $w$ 是一个随机变量
求出后验 $P (w ∣ D a t a)$

19.2 Bayesian Method

数据与模型：

样本数据：
${\lbrace (x_i, y_i) \rbrace}_{i=1}^{N}, \quad x_i \in {\mathbb R}^p, \quad y_i \in {\mathbb R}^p$

$(x_1 \ x_2 \ \dots \ x_N )^T = \begin{pmatrix} x_1^T \\ x_2^T \\ \dots \\ x_N^T \end{pmatrix} = \begin{pmatrix} x_{11} & x_{12} & \dots & x_{1N} \\ x_{21} & x_{22} & \dots & x_{2N} \\ \dots \\ x_{N1} & x_{N2} & \dots & x_{NN} \\ \end{pmatrix} , Y = \begin{pmatrix} y_1^T \\ y_2^T \\ \dots \\ y_N^T \end{pmatrix}$
模型：
$w^T x = x^T w, \quad y = f(x) + \underbrace{\varepsilon}_{noise}, \quad \varepsilon \backsim N(0,\sigma^2)$
其中 $\varepsilon, w$ 都是随机变量，假设用于表示参数
问题表示：
$\begin{cases} Inference: posterior(w) \\ Prediction: x^* \rightarrow y^* \end{cases}$

19.2.1 Inference问题

Inference问题就是求解后验： $P (w ∣ D a t a)$ 。接下来进行逐步的推导：
$\begin{align} P(w|Data) = P(w|X, Y) = \frac{P(w, Y| X)}{P(Y|X)} = \frac{\overbrace{P(Y|w, X)}^{likelihood} \cdot \overbrace{P(w|X)}^{prior}}{\int P(Y|w, X) \cdot P(w|X) {\rm d}w} \end{align}$
将后验拆解开之后，我们只需要分开求解likelihood和prior：

求解likelihood：
$\prod_{i=1}^{N} P(y_i| w, x_i) = \prod_{i=1}^{N} N(y_i| w^T x_i, \sigma^2)$
假设prior：
$\Sigma_p)$

所以求解后验可以写为：
$\begin{align} P(w|Data) &\propto P(Y|w,X) \cdot P(w|X) \\ &\propto \prod_{i=1}^{N} N(y_i| w^T x_i, \sigma^2) \cdot N(0, \Sigma_p) \end{align}$
我们先将likelihood进行一个变换：
$\begin{align} P(Y|w, X) &= \prod_{i=1}^{N} N(y_i| w^T x_i, \sigma^2) \\ &= \prod_{i=1}^{N} \frac{ 1 }{ {(2 \pi)}^\frac{1}{2} \sigma } \exp{\lbrace -\frac{1}{2\sigma^2} {( y_i - w^T x_i )}^2 \rbrace} \\ &= \frac{ 1 }{ {(2 \pi)}^\frac{N}{2} \sigma^N } \exp{\lbrace -\frac{1}{2\sigma^2} \sum_{i=1}^N {( y_i - w^T x_i )}^2 \rbrace} \\ &= \frac{ 1 }{ {(2 \pi)}^\frac{N}{2} \underbrace{\sigma^N}_{{|\Sigma|}^\frac{1}{2}} } \exp{\lbrace -\frac{1}{2} {\underbrace{(Y-Xw)}_{x-\mu}}^T \underbrace{\sigma^{-2} I}_{\Sigma^{-1}} {(Y-Xw)} \rbrace} \\ &= N(Xw, \sigma^{-2} I) \end{align}$
通过上文的likelihood我们可以求解：
$\begin{align} P(w|Data) &\propto P(Y|w,X) \cdot P(w|X) = N(Xw, \sigma^{-2} I)) \cdot N(0, \Sigma_p) \\ &\propto \exp{\lbrace -\frac{1}{2} {{(Y-Xw)}}^T {\sigma^{-2} I} {(Y-Xw)} \rbrace} \cdot \exp{\lbrace -\frac{1}{2} w^T \Sigma_p^{-1} w \rbrace} \\ &= \exp{\lbrace -\frac{1}{2} {{(Y-Xw)}}^T {\sigma^{-2} I} {(Y-Xw)} -\frac{1}{2} w^T \Sigma_p^{-1} w \rbrace} \\ &= \exp{\lbrace -\frac{1}{2} {( Y^T Y - 2Y^T X w + w^T X^T X w )} -\frac{1}{2} w^T \Sigma_p^{-1} w \rbrace} \\ \end{align}$

让我们用配方法，取出 $P (w ∣ D a t a)$ 的二次项和一次项，假设 $P (w ∣ D a t a)$ 的均值和方差表示为 $\mu_w, \Sigma_w$ ：
$\begin{align} &\begin{cases} \text{二次项：} -\frac{1}{2 \sigma^2} w^T X^T X w - \frac{1}{2} w^T \Sigma_p^{-1} w = \underbrace{ -\frac{1}{2} {(w^T {(\sigma^{-2} X^T X + \Sigma_p^{-1})} w)}}_{-\frac{1}{2} x^T \Sigma_w^{-1} x} \\ \text{一次项：} \underbrace{\sigma^{-2} Y^T X w}_{\mu^T \Sigma_w^{-1} x} \end{cases} \\ \implies &\begin{cases} \Sigma_w^{-1} = {(\sigma^{-2} X^T X + \Sigma_p^{-1})} \\ \mu^T \Sigma_w^{-1} = \sigma^{-2} Y^T X \end{cases} \end{align}$
通过上文的方程可以简单求解出均值和方差：
$\begin{cases} \Sigma_w = {(\sigma^{-2} X^T X + \Sigma_p^{-1})}^{-1} \\ \mu^T = \sigma^{-4} X^T X Y^T X + \sigma^{-2} \Sigma_p^{-1} Y^T X \end{cases}$

19.2.2 Prediction问题

Prediction问题是假设已有数据为 $x^*$ ，要求在 $y^*$ 的条件下的概率分布。

我们的条件有：
$\begin{cases} f(x) = x^T w \\ w \backsim N(\mu_w, \Sigma_w) \end{cases}$
此时我们已知 $f(x^*) = {x^*}^T w$ ，可以根据参数的分布得到 $P({x^*}^T w)$ ：
$\begin{align} & w \backsim N(\mu_w, \Sigma_w) \\ \implies & {x^*}^T w \backsim N({x^*}^T \mu_w, {x^*}^T \Sigma_w x^*) \end{align}$
实际情况是我们要求解 $f(x^*) + \varepsilon, \quad \varepsilon \backsim N(0, \sigma^2)$ ，也就是求解分布 $P(y^*| Data, x^*)$ ：
$\begin{align} &\begin{cases} y = {x^*}^T w + \varepsilon, \quad \varepsilon \backsim N(0, \sigma^2) \\ {x^*}^T w \backsim N({x^*}^T \mu_w, {x^*}^T \Sigma_w x^*) \end{cases} \\ \implies & P(y^*|Data, x^*) = N({x^*}^T \mu_w, {x^*}^T \Sigma_w x^* + \sigma^2) \end{align}$