0
点赞
收藏
分享

微信扫一扫

详解数学基础-概率-高斯分布-求联合概率分布【白板推导系列笔记】

$$

\begin{gathered}

X \sim N(\mu,\Sigma)=\frac{1}{(2\pi)^{\frac{p}{2}}|\Sigma|^{\frac{1}{2}}}\text{exp}\left(- \frac{1}{2}(x-\mu)^{T}\Sigma^{-1}(x-\mu)\right)\

x \in \mathbb{R}^{p},r.v.\

\end{gathered}

$$

已知

$$

\begin{aligned}

p(x)&=N(x|\mu,\Lambda^{-1})\

p(y|x)&=N(y|Ax+b,L^{-1})

\end{aligned}

$$

求$p(y),p(x|y)$

 

对于一元实值变量$x$,高斯分布被定义为

$$N(x|\mu,\sigma^{2})=\frac{1}{(2\pi \sigma^{2})^{\frac{1}{2}}}\text{exp}\left[- \frac{1}{2\sigma^{2}}(x-\mu)^{2}\right]$$

它有两个参数控制:$\mu$,被叫做均值,以及$\sigma^{2}$,被叫做方差

原著:《Pattern Recognition and Machine Learning》

 

曲线拟合问题的目标是能够根据$N$个输入$X=(x_{1},\cdots ,x_{N})^{T}$组成的数据集和它们对应的目标值$T=(t_{1},\cdots ,t_{N})^{T}$,在给出输入变量$x$的新值的情况下,对目标变量$t$进行预测。我们可以使用概率分布来表达目标变量的值的不确定性。为了达到这个目的,我们要假定,给定$x$的值,对应的$t$值服从高斯分布,分布的均值为$y(x,\omega)$,由公式

$$y(x,\omega)=\omega_{0}+\omega_{1}x+\omega_{2}x^{2}+\cdots +\omega_{M}x^{M}=\sum\limits_{j=0}^{M}\omega_{j}x^{j}$$给出,因此,我们有

$$p(t|x,\omega,\beta)=N(t|y(x,\omega),\beta^{-1})$$

其中,为了和后续章节中的记号相同,我们定义了精度参数$\beta$。它对应与分布方差的倒数,下图给出了图形化表示

![[附件/Pasted image 20220926144302.png|400]]

用图形说明了公式$p(t|x,\omega,\beta)=N(t|y(x,\omega),\beta^{-1})$给出的给定$x$的条件下$t$的高斯条件概率分布,其中均值为多项式函数$y(x,\omega)$,精度由参数$\beta$给出,它与方差的关系为$\beta^{-1}=\sigma^{2}$

原著:《Pattern Recognition and Machine Learning》

 

$$

\begin{aligned}

y&=Ax+b+\epsilon ,\epsilon \sim N(0,L^{-1})\

E(y)&=E(Ax+b+\epsilon )\

&=E(Ax+b)+E(\epsilon )\

&=A \mu+b\

\text{Var}(y)&=\text{Var}(Ax+b+\epsilon )\

&=\text{Var}(Ax+b)+\text{Var}(\epsilon )\

&=A \cdot \Lambda^{-1}A^{-1}+L^{-1}

\end{aligned}

$$

因此$y \sim N(A \mu+b,L^{-1}+A \Lambda^{-1}A^{-1})$

想求$p(x|y)$,如果能由已知条件推出$p(x,y)$,则根据上一节$x_{b}|x_{a} \sim N(\mu_{b}-\Sigma_{ba}\Sigma_{aa}^{-1}\mu_{a}+\Sigma_{ba}\Sigma_{aa}^{-1}x_{a},\Sigma_{bb}-\Sigma_{ba}\Sigma_{aa}^{-1}\Sigma_{ab})$,就可以得到$p(x|y)$

$$

\begin{aligned}

z&=\begin{pmatrix}

x \ y

\end{pmatrix}\sim N\left(\begin{bmatrix}

\mu \ A \mu+b

\end{bmatrix},\begin{bmatrix}

\Lambda^{-1} & \Delta  \ \Delta  & L^{-1}+A \Lambda^{-1}A^{T}

\end{bmatrix}\right)\

\Delta &=\text{Cov}(x,y)\

&=E \left{[x-E(x)]\cdot [y-E(y)]^{T}\right}\

&=E [(x-\mu)(y-A \mu-b)^{T}]\

&=E[(x-\mu)(Ax+b+\epsilon -A \mu-b)^{T}]\

&=E[(x-\mu)(Ax-A \mu)^{T}+(x-\mu)\epsilon  ^{T}]\

&=E[(x-\mu)(Ax-A \mu)^{T}]+\underbrace{E[(x-\mu)\epsilon ^{T}]}_{0}\quad (x \bot \epsilon )\

&=E[(x-\mu)(Ax-A \mu)^{T}]\

&=E[(x-\mu)(x-\mu)^{T}\cdot A^{T}]\

&=E[(x-\mu)(x-\mu)^{T}]A^{T}\

&=\text{Var}(x)A^{T}\

&=\Lambda^{-1}A^{T}

\end{aligned}

$$

因此$\begin{pmatrix}x \ y\end{pmatrix}\sim \left(\begin{bmatrix}\mu \ A \mu+b\end{bmatrix},\begin{bmatrix}\Lambda^{-1} & \Lambda^{-1}A^{T} \ A \Lambda^{-1} & L^{-1}+A \Lambda^{-1}A^{T}\end{bmatrix}\right)$

再根据上一节$x_{b}|x_{a} \sim N(\mu_{b}-\Sigma_{ba}\Sigma_{aa}^{-1}\mu_{a}+\Sigma_{ba}\Sigma_{aa}^{-1}x_{a},\Sigma_{bb}-\Sigma_{ba}\Sigma_{aa}^{-1}\Sigma_{ab})$,可得

$$

x|y \sim (\mu-\Lambda^{-1}A^{T}(L^{-1}+A \Lambda^{-1}A^{T})^{-1}(y-A \mu-b),\Lambda^{-1}-\Lambda^{-1}A^{T}(L^{-1}+A \Lambda^{-1}A^{T})^{-1}A \Lambda^{-1})

$$

举报

相关推荐

0 条评论