由于pix2pix 对于高清图像的处理存在不稳定和生成器生成的图像质量不高等问题,由此分别在生成器、鉴别器和对抗损失函数等方面做出了如下改善。
- Coarse-to-fine generator
将原本的生成器分为G1,G2两个生成器,G1是全局生成网络,G2是局部增强网络。
如图所示,G2最后接受的为G1和G2映射的特征总和。
G1 是全局生成器,由三部分组成G(F)卷积前项,剩余块G(R),卷积后项G(B)
输入为清晰度为1024512的图片
经过三部分后
输出为清晰度为1024512的图片
G2 局部生成器也是有三部分组成,不同于全局生成网络,G(R)剩余块部分是由本次输出的G(F)和上次输出的G(B)共同组成的。
在训练过程中,先训练G1 全局生成器,在训练G2根据清晰度顺序进行。
- Multi-scale discriminators
高分辨率图像合成对鉴别器起到了很大的挑战作用,用于区分真实图像和合成(synthesized)图像。因此需要更高的内核,更多的卷积层。
为解决此问题,采用多尺度鉴别器(Multi-scale discriminators),应用三个相同网络结构的鉴别器,在不同图像scale 上进行运行。
应用因子2或4来降低图像纬度,构建一个有3层纬度的金子塔,咱也不是很懂这句。
应用这个多维度的鉴别器,也产生了多任务学习的问题。
- Improved adversarial loss
从这样
变成了这样
Dk表示第k层的鉴别器discriminators
T是层数,Ni为每层的元素数量。
- Using Instance Maps
用于区分相同class里的不同实例。
能用在实例映射中,不能用在语义映射中的就是物体边界信息。
在语义标签中,每个像素值代表目标类的像素值。
比如这个图中所示,车如果是语义标签,相同类的车都没有分开,这个边界映射就可以区别不同的车。
主要解决的问题吧