0
点赞
收藏
分享

微信扫一扫

机器学习中的数学——距离定义(二十二):α-散度(α-Divergence)

α-散度表达式如下:
D α ( p ∣ ∣ q ) = 4 1 − α 2 ( 1 − ∫ p ( x ) 1 + α 2 q ( x ) 1 − α 2 d x ) D_\alpha(p||q)=\frac{4}{1-\alpha^2}(1-\int p(x)^{\frac{1+\alpha}{2}}q(x)^{\frac{1-\alpha}{2}}\text{d}x) Dα(pq)=1α24(1p(x)21+αq(x)21αdx)

其中, − ∞ < α < + ∞ -\infty<\alpha<+\infty <α<+​是一个连续参数。KL散度​ D K L ( p ∣ ∣ q ) D_{KL}(p||q) DKL(pq)对应于极限 α → 1 \alpha\rightarrow1 α1 ​,而​ D K L ( q ∣ ∣ p ) D_{KL}(q||p) DKL(qp)对应于极限 α → − 1 \alpha\rightarrow-1 α1​。对于所有​的 α \alpha α值,我们有​ D α ( p ∣ ∣ q ) ≥ 0 D_{\alpha}(p||q)\geq0 Dα(pq)0,当且仅当 p ( x ) = q ( x ) p(x)=q(x) p(x)=q(x)​时等号成立。假设 p ( x ) p(x) p(x)是一个固定的分布,我们关于某个概率分布 q ( x ) q(x) q(x)的集合最小化 D α ( p ∣ ∣ q ) D_{\alpha}(p||q) Dα(pq)。那么对于 α ≤ − 1 \alpha\leq-1 α1​​的情况,散度是零强制的(Zero Forcing),即对于使得 p ( x ) = 0 p(x)=0 p(x)=0成立的任意 X X X值,都有 q ( x ) = 0 q(x)=0 q(x)=0,通常 q ( x ) q(x) q(x)会低估 p ( x ) p(x) p(x)的支持,因此倾向于寻找具有最大质量的峰值。相反,对于 α ≥ − 1 \alpha\geq-1 α1的情况,散度是零避免的(Zero Avoiding),即对于使得 p ( x ) > 0 p(x)>0 p(x)>0成立的任意 X X X值,都有 q ( x ) > 0 q(x)>0 q(x)>0​,通常​ q ( x ) q(x) q(x)会进行拉伸来覆盖到所有的 p ( x ) p(x) p(x)​值,从而高估了 p ( x ) p(x) p(x)的支持。当 α = 0 \alpha=0 α=0时,我们得到了一个对称的散度,它与Hellinger距离线性相关:
D H ( p ∣ ∣ q ) = ∫ ( p ( x ) 1 2 + q ( x ) 1 2 ) d x ) D_H(p||q)=\int (p(x)^{\frac{1}{2}}+q(x)^{\frac{1}{2}})\text{d}x) DH(pq)=(p(x)21+q(x)21)dx)

举报

相关推荐

0 条评论