0
点赞
收藏
分享

微信扫一扫

[FUNIT] Few-Shot Unsupervised Image-to-Image Translation

1、目的

        无监督图像转换:source类 -> target类;

        其中target类的样本很少,只在test时用到;

        训练source类 -> 多个another类,其中another类的样本也较少;==> 通用的外观提取模型

2、原理/基础

        1)人看到新物体(target class),可以基于以往的知识(trained model),脑补出新物体的不同姿势(generated picture)

        2)图像之间存在部分共享的潜在空间

3、网络设计

        1)条件图像生成器G(少样本图像转换器)

                输入:一组内容图像 + 一组K类图像 ,每次随机取source类

                输出:,其中外表和类中的一张图接近,但内容和相似

                         

                a)内容编码器:卷积 / 残差模块;提取class-invariant隐式表达,决定local structure;内容图像-> 隐码

                b)类编码器 :卷积 / 不同样本的平均操作;提取class-specific隐式表达,决定global look;K类图像 -> 中间隐码 -> element-wise平均后的最终隐码

                c)解码器:AdaIN残差模块/上卷积层;样本激活 -> 0均值单位方差 -> 通过得到的仿射变换 

        2)多任务对抗判别器D

                

                 同时解决多个对抗分类任务,每个任务是二分类任务

4、目标函数

                        ​​​​​​​                

        1):GAN loss​​​​​​​

        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        

                D的上标表示计算相应类的二元loss

        2):内容图像重建loss

        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        

        3):特征匹配loss

        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        

                其中,是判别器倒数第二层的输出       

 5、结论

        1)训练类别数 ↑,目标类别图像数目 ↑,图像转化能力 ↑

        2)理论基础:

                a) 内容编码器 可以学到不随类别而改变的隐码

                b) 类编码器 可以学到class-specific隐码

                c) 类编码器 可以推广到新类别

        3)新类在视觉上和训练用的source类具有相关性,如果差距过大,则FUNIT无法成功转换

举报

相关推荐

0 条评论