$$
\begin{gathered}
X \sim N(\mu,\Sigma)=\frac{1}{(2\pi)^{\frac{p}{2}}|\Sigma|^{\frac{1}{2}}}\text{exp}\left(- \frac{1}{2}(x-\mu)^{T}\Sigma^{-1}(x-\mu)\right)\
x \in \mathbb{R}^{p},r.v.\
\end{gathered}
$$
已知
$$
\begin{aligned}
p(x)&=N(x|\mu,\Lambda^{-1})\
p(y|x)&=N(y|Ax+b,L^{-1})
\end{aligned}
$$
求$p(y),p(x|y)$
对于一元实值变量$x$,高斯分布被定义为
$$N(x|\mu,\sigma^{2})=\frac{1}{(2\pi \sigma^{2})^{\frac{1}{2}}}\text{exp}\left[- \frac{1}{2\sigma^{2}}(x-\mu)^{2}\right]$$
它有两个参数控制:$\mu$,被叫做均值,以及$\sigma^{2}$,被叫做方差
原著:《Pattern Recognition and Machine Learning》
曲线拟合问题的目标是能够根据$N$个输入$X=(x_{1},\cdots ,x_{N})^{T}$组成的数据集和它们对应的目标值$T=(t_{1},\cdots ,t_{N})^{T}$,在给出输入变量$x$的新值的情况下,对目标变量$t$进行预测。我们可以使用概率分布来表达目标变量的值的不确定性。为了达到这个目的,我们要假定,给定$x$的值,对应的$t$值服从高斯分布,分布的均值为$y(x,\omega)$,由公式
$$y(x,\omega)=\omega_{0}+\omega_{1}x+\omega_{2}x^{2}+\cdots +\omega_{M}x^{M}=\sum\limits_{j=0}^{M}\omega_{j}x^{j}$$给出,因此,我们有
$$p(t|x,\omega,\beta)=N(t|y(x,\omega),\beta^{-1})$$
其中,为了和后续章节中的记号相同,我们定义了精度参数$\beta$。它对应与分布方差的倒数,下图给出了图形化表示
用图形说明了公式$p(t|x,\omega,\beta)=N(t|y(x,\omega),\beta^{-1})$给出的给定$x$的条件下$t$的高斯条件概率分布,其中均值为多项式函数$y(x,\omega)$,精度由参数$\beta$给出,它与方差的关系为$\beta^{-1}=\sigma^{2}$
原著:《Pattern Recognition and Machine Learning》
$$
\begin{aligned}
y&=Ax+b+\epsilon ,\epsilon \sim N(0,L^{-1})\
E(y)&=E(Ax+b+\epsilon )\
&=E(Ax+b)+E(\epsilon )\
&=A \mu+b\
\text{Var}(y)&=\text{Var}(Ax+b+\epsilon )\
&=\text{Var}(Ax+b)+\text{Var}(\epsilon )\
&=A \cdot \Lambda^{-1}A^{-1}+L^{-1}
\end{aligned}
$$
因此$y \sim N(A \mu+b,L^{-1}+A \Lambda^{-1}A^{-1})$
想求$p(x|y)$,如果能由已知条件推出$p(x,y)$,则根据上一节$x_{b}|x_{a} \sim N(\mu_{b}-\Sigma_{ba}\Sigma_{aa}^{-1}\mu_{a}+\Sigma_{ba}\Sigma_{aa}^{-1}x_{a},\Sigma_{bb}-\Sigma_{ba}\Sigma_{aa}^{-1}\Sigma_{ab})$,就可以得到$p(x|y)$
$$
\begin{aligned}
z&=\begin{pmatrix}
x \ y
\end{pmatrix}\sim N\left(\begin{bmatrix}
\mu \ A \mu+b
\end{bmatrix},\begin{bmatrix}
\Lambda^{-1} & \Delta \ \Delta & L^{-1}+A \Lambda^{-1}A^{T}
\end{bmatrix}\right)\
\Delta &=\text{Cov}(x,y)\
&=E \left{[x-E(x)]\cdot [y-E(y)]^{T}\right}\
&=E [(x-\mu)(y-A \mu-b)^{T}]\
&=E[(x-\mu)(Ax+b+\epsilon -A \mu-b)^{T}]\
&=E[(x-\mu)(Ax-A \mu)^{T}+(x-\mu)\epsilon ^{T}]\
&=E[(x-\mu)(Ax-A \mu)^{T}]+\underbrace{E[(x-\mu)\epsilon ^{T}]}_{0}\quad (x \bot \epsilon )\
&=E[(x-\mu)(Ax-A \mu)^{T}]\
&=E[(x-\mu)(x-\mu)^{T}\cdot A^{T}]\
&=E[(x-\mu)(x-\mu)^{T}]A^{T}\
&=\text{Var}(x)A^{T}\
&=\Lambda^{-1}A^{T}
\end{aligned}
$$
因此$\begin{pmatrix}x \ y\end{pmatrix}\sim \left(\begin{bmatrix}\mu \ A \mu+b\end{bmatrix},\begin{bmatrix}\Lambda^{-1} & \Lambda^{-1}A^{T} \ A \Lambda^{-1} & L^{-1}+A \Lambda^{-1}A^{T}\end{bmatrix}\right)$
再根据上一节$x_{b}|x_{a} \sim N(\mu_{b}-\Sigma_{ba}\Sigma_{aa}^{-1}\mu_{a}+\Sigma_{ba}\Sigma_{aa}^{-1}x_{a},\Sigma_{bb}-\Sigma_{ba}\Sigma_{aa}^{-1}\Sigma_{ab})$,可得
$$
x|y \sim (\mu-\Lambda^{-1}A^{T}(L^{-1}+A \Lambda^{-1}A^{T})^{-1}(y-A \mu-b),\Lambda^{-1}-\Lambda^{-1}A^{T}(L^{-1}+A \Lambda^{-1}A^{T})^{-1}A \Lambda^{-1})
$$