【学习笔记】Wasserstein GAN-CFANZ编程社区

原始GAN的问题

判别器越好，生成器梯度消失越严重。

当判别器为最优时，最佳生成器的损失函数为
$S\left(P_{r} \| P_{g}\right)-2 \log 2$
即当判别器为最优时，最小化真实分布 $P_{r}$ 与生成分布 $P_{g}$ 之间的JS散度，可以得到最优的生成器。当真实分布 $P_{r}$ 与生成分布 $P_{g}$ 有重叠部分时，最小化其JS散度可以拉近这二个分布。但当真实分布 $P_{r}$ 与生成分布 $P_{g}$ 没有重叠部分时，最佳的JS散度固定为 $\log 2$ 。此时，不管真实分布 $P_{r}$ 与生成分布 $P_{g}$ 相距多远，只要没有重叠部分，JS散度就固定是常数 $\log 2$ ，生成器梯度为0，导致梯度消失的问题。

在（近似）最优判别器下，最小化生成器的loss等价于最小化真实分布 $P_{r}$ 与生成分布 $P_{g}$ 之间的JS散度，而由于 $P_{r}$ 与 $P_{g}$ 几乎不可能有不可忽略的重叠，所以无论它们相距多远JS散度都是常数 $\log 2$ ，最终导致生成器的梯度（近似）为0，梯度消失。

梯度不稳定

生成器损失函数为 $\mathbb{E}_{x \sim P_{g}}[-\log D(x)]$
在最优判别器 $D^{*}$ 下，
$\mathbb{E}_{x \sim P_{a}}\left[-\log D^{*}(x)\right]=K L\left(P_{g} \| P_{r}\right)-2 J S\left(P_{r} \| P_{g}\right)+2 \log 2+\mathbb{E}_{x \sim P_{r}}\left[\log D^{*}(x)\right]$
所以最小化生成器的损失函数等价于最小化 $L\left(P_{g} \| P_{r}\right)-2 J S\left(P_{r} \| P_{g}\right)$
由于 $L\left(P_{g} \| P_{r}\right)$ 与 $S\left(P_{r} \| P_{g}\right)$ 在最小化时矛盾，导致训练时梯度不稳定。

collapse mode，多样性不足

由于KL散度是不对称的衡量，即 $L\left(P_{g} \| P_{r}\right)$ 与 $L\left(P_{r} \| P_{g}\right)$ 存在差别。

当 $P_{g}(x) \rightarrow 0$ 而 $P_{r}(x) \rightarrow 1$ 时， $P_{g}(x) \log \frac{P_{g}(x)}{P_{r}(x)} \rightarrow 0$ ，对 $L\left(P_{g} \| P_{r}\right)$ 贡献趋近 0。即生成器没能生成真实的样本，但惩罚很小。
当 $P_{g}(x) \rightarrow 1$ 而 $P_{r}(x) \rightarrow 0$ 时， $P_{g}(x) \log \frac{P_{g}(x)}{P_{r}(x)} \rightarrow+\infty$ ，对 $L\left(P_{g} \| P_{r}\right)$ 贡献趋近正无穷。生成器生成了不真实的样本，惩罚很大。

这导致生成器趋向于生成重复的接近真实的样本，避免产生错误，造成样本多样性不足的情况。

Wasserstein距离

Wasserstein距离的定义为：
$W\left(P_{r}, P_{g}\right)=\inf _{\gamma \sim \Pi\left(P_{r}, P_{g}\right)} \mathbb{E}_{(x, y) \sim \gamma}[\|x-y\|]$
$\Pi\left(P_{r}, P_{g}\right)$ 是 $P_{r}$ 和 $P_{g}$ 组合起来的所有可能的联合分布的集合。
Wasserstein距离相比KL散度、JS散度的优越性在于，即便两个分布没有重叠，Wasserstein距离仍然能够反映它们的远近。

Lipschitz连续指的是存在一个常数 $K > 0$ 使得定义域内的任意两个元素 $x_{1}$ 和 $x_{2}$ 都满足
$\left|f\left(x_{1}\right)-f\left(x_{2}\right)\right| \leq K\left|x_{1}-x_{2}\right|$
等价于 $f$ 的导函数绝对值不超过 $K$ 。

由于Wasserstein距离的式子无法直接求解，可以变换成
$W\left(P_{r}, P_{g}\right)=\frac{1}{K} \sup _{\|f\|_{L} \leq K} \mathbb{E}_{x \sim P_{r}}[f(x)]-\mathbb{E}_{x \sim P_{g}}[f(x)]$
其中， $f\|_{L}$ 表示函数 $f$ 的Lipschitz常数。上式又可近似为
$\cdot W\left(P_{r}, P_{g}\right) \approx \max _{w:\left|f_{w}\right|_{L} \leq K} \mathbb{E}_{x \sim P_{r}}\left[f_{w}(x)\right]-\mathbb{E}_{x \sim P_{g}}\left[f_{w}(x)\right]$

可以用神经网络来拟合 $f_{w}$ 。我们可以构造一个含参数 $w$ 、最后一层不是非线性激活层的判别器网络 $f_{w}$ ，在限制 $w$ 不超过某个范围的条件下，
$L=\mathbb{E}_{x \sim P_{r}}\left[f_{w}(x)\right]-\mathbb{E}_{x \sim P_{g}}\left[f_{w}(x)\right]$
$L$ 就是近似真实分布与生成分布之间的Wasserstein距离。

判别器 $f_{w}$ 做的是近似拟合Wasserstein距离，属于回归任务，要去掉最后一层的Sigmoid函数。判别器要做的是令Wasserstein距离尽可能最大，所以损失函数为 $\mathbb{E}_{x \sim P_{g}}\left[f_{w}(x)\right]-\mathbb{E}_{x \sim P_{r}}\left[f_{w}(x)\right]$