α-散度表达式如下:
D
α
(
p
∣
∣
q
)
=
4
1
−
α
2
(
1
−
∫
p
(
x
)
1
+
α
2
q
(
x
)
1
−
α
2
d
x
)
D_\alpha(p||q)=\frac{4}{1-\alpha^2}(1-\int p(x)^{\frac{1+\alpha}{2}}q(x)^{\frac{1-\alpha}{2}}\text{d}x)
Dα(p∣∣q)=1−α24(1−∫p(x)21+αq(x)21−αdx)
其中,
−
∞
<
α
<
+
∞
-\infty<\alpha<+\infty
−∞<α<+∞是一个连续参数。KL散度
D
K
L
(
p
∣
∣
q
)
D_{KL}(p||q)
DKL(p∣∣q)对应于极限
α
→
1
\alpha\rightarrow1
α→1 ,而
D
K
L
(
q
∣
∣
p
)
D_{KL}(q||p)
DKL(q∣∣p)对应于极限
α
→
−
1
\alpha\rightarrow-1
α→−1。对于所有的
α
\alpha
α值,我们有
D
α
(
p
∣
∣
q
)
≥
0
D_{\alpha}(p||q)\geq0
Dα(p∣∣q)≥0,当且仅当
p
(
x
)
=
q
(
x
)
p(x)=q(x)
p(x)=q(x)时等号成立。假设
p
(
x
)
p(x)
p(x)是一个固定的分布,我们关于某个概率分布
q
(
x
)
q(x)
q(x)的集合最小化
D
α
(
p
∣
∣
q
)
D_{\alpha}(p||q)
Dα(p∣∣q)。那么对于
α
≤
−
1
\alpha\leq-1
α≤−1的情况,散度是零强制的(Zero Forcing),即对于使得
p
(
x
)
=
0
p(x)=0
p(x)=0成立的任意
X
X
X值,都有
q
(
x
)
=
0
q(x)=0
q(x)=0,通常
q
(
x
)
q(x)
q(x)会低估
p
(
x
)
p(x)
p(x)的支持,因此倾向于寻找具有最大质量的峰值。相反,对于
α
≥
−
1
\alpha\geq-1
α≥−1的情况,散度是零避免的(Zero Avoiding),即对于使得
p
(
x
)
>
0
p(x)>0
p(x)>0成立的任意
X
X
X值,都有
q
(
x
)
>
0
q(x)>0
q(x)>0,通常
q
(
x
)
q(x)
q(x)会进行拉伸来覆盖到所有的
p
(
x
)
p(x)
p(x)值,从而高估了
p
(
x
)
p(x)
p(x)的支持。当
α
=
0
\alpha=0
α=0时,我们得到了一个对称的散度,它与Hellinger距离线性相关:
D
H
(
p
∣
∣
q
)
=
∫
(
p
(
x
)
1
2
+
q
(
x
)
1
2
)
d
x
)
D_H(p||q)=\int (p(x)^{\frac{1}{2}}+q(x)^{\frac{1}{2}})\text{d}x)
DH(p∣∣q)=∫(p(x)21+q(x)21)dx)