整理:AI算法与图像处理
本文整理了3月10日arXiv更新的 6 篇CVPR2022的论文,简单介绍了FaceBook最新的工作《FlexIT: Towards Flexible Semantic Image Translation》
如果有帮助,欢迎分享哈!
CVPR2022 论文代码整理:
https://github.com/DWCTOD/CVPR2022-Papers-with-Code-Demo (求个star)
FlexIT: Towards Flexible Semantic Image Translation
FlexIT:迈向灵活的语义图像翻译
作者:Facebook AI Research
- 论文/Paper:https://arxiv.org/abs/2203.04705
- 代码/Code:
摘要:
深度生成模型,如 GAN,极大地提高了图像合成的技术水平,并且能够在人脸等结构化域中生成接近照片般逼真的图像。基于这一成功,最近的图像编辑工作通过将图像投影到 GAN 潜在空间并操纵潜在向量来进行。然而,这些方法的局限性在于只能转换来自窄域的图像,并且只能进行有限数量的编辑操作。我们提出了 FlexIT,这是一种新颖的方法,可以采用任何输入图像和用户定义的文本指令进行编辑。我们的方法实现了灵活自然的编辑,突破了语义图像翻译的极限。首先,FlexIT 将输入图像和文本组合成 CLIP 多模态嵌入空间中的单个目标点。通过自动编码器的潜在空间,我们将输入图像迭代地变换到目标点,通过各种新颖的正则化项确保连贯性和质量。我们提出了一种用于语义图像翻译的评估协议,并在 ImageNet 上彻底评估了我们的方法
整体框架:
FlexIT优化框架:绿色部分涉及多模态潜在空间的组件;黄色部分涉及图像潜在空间的;粉红色部分涉及的LPIPS距离。给定一个变换查询 (I0, S, T),我们首先在多模态嵌入空间中计算一个目标点 P,然后我们在图像潜在空间中对 I0 进行编码以获得 z0。然后,对于固定的step,我们更新潜在变量 z(用 z0 初始化)以更接近目标点 P。我们添加两个正则化项:输入图像和输出图像之间的 LPIPS 感知距离,以及 z 和 z0 之间的潜在距离。所有网络都被冻结,只有 z 被更新。
图像翻译方法的概述如图 2 所示。它依赖于三个预训练的组件。首先,我们在潜在空间中编辑输入图像,要求可以将各种图像编码和解码回具有最小失真的 RGB 图像。为此,我们选择了 VQGAN 自动编码器 。其次,我们将文本查询和输入图像嵌入到多模态嵌入空间中,为修改后的图像定义优化目标。我们使用 CLIP [41] 多模态嵌入空间。最后,为了确保修改后的图像与输入图像保持相似,我们使用 VGG [44] backbone计算的 LPIPS 感知距离 [56] 控制其与输入图像的距离。
Optimization scheme
FlexIT 方法的核心思想是在潜在空间中编辑输入图像,由多模态嵌入空间中定义的高级语义目标引导。令 E 为图像编码器,D 为图像解码器,(Ct, Ci) 分别为文本和图像的多模态编码器。给定输入图像 I0 和文本转换 S → T,我们首先通过计算初始潜在图像表示为 z0 = E(I0) 和目标多模态点 P 来初始化 FlexIT
效果:
更多细节请参考论文原文,期待大佬开源项目代码
What Matters For Meta-Learning Vision Regression Tasks?
元学习视觉回归任务的重要性是什么?
- 论文/Paper:https://arxiv.org/abs/2203.04905
- 代码/Code:
How many Observations are Enough? Knowledge Distillation for Trajectory Forecasting
多少Observations 足够?轨迹预测的知识蒸馏
- 论文/Paper:https://arxiv.org/abs/2203.04781
- 代码/Code:
SkinningNet: Two-Stream Graph Convolutional Neural Network for Skinning Prediction of Synthetic Characters
SkinningNet:用于合成字符皮肤预测的双流图卷积神经网络
- 论文/Paper:https://arxiv.org/abs/2203.04746
- 代码/Code:https://imatge-upc.github.io/skinningnet/
ChiTransformer:Towards Reliable Stereo from Cues
ChiTransformer:从线索走向可靠的立体声
- 论文/Paper:https://arxiv.org/abs/2203.04554
- 代码/Code:
Dynamic Dual-Output Diffusion Models
动态双输出扩散模型
- 论文/Paper:https://arxiv.org/abs/2203.04304
- 代码/Code: