CVPR2022论文速递！共6篇含图像翻译（FaceBook新作）/元学习/轨迹预测等（2022.3.10）-CFANZ编程社区

整理：AI算法与图像处理

本文整理了3月10日arXiv更新的 6 篇CVPR2022的论文，简单介绍了FaceBook最新的工作《FlexIT: Towards Flexible Semantic Image Translation》

如果有帮助，欢迎分享哈！

CVPR2022论文速递！共6篇含图像翻译（FaceBook新作）/元学习/轨迹预测等（2022.3.10）_模态

CVPR2022 论文代码整理：

https://github.com/DWCTOD/CVPR2022-Papers-with-Code-Demo （求个star）

FlexIT: Towards Flexible Semantic Image Translation

FlexIT：迈向灵活的语义图像翻译

作者：Facebook AI Research

论文/Paper：https://arxiv.org/abs/2203.04705
代码/Code：

摘要：

深度生成模型，如 GAN，极大地提高了图像合成的技术水平，并且能够在人脸等结构化域中生成接近照片般逼真的图像。基于这一成功，最近的图像编辑工作通过将图像投影到 GAN 潜在空间并操纵潜在向量来进行。然而，这些方法的局限性在于只能转换来自窄域的图像，并且只能进行有限数量的编辑操作。我们提出了 FlexIT，这是一种新颖的方法，可以采用任何输入图像和用户定义的文本指令进行编辑。我们的方法实现了灵活自然的编辑，突破了语义图像翻译的极限。首先，FlexIT 将输入图像和文本组合成 CLIP 多模态嵌入空间中的单个目标点。通过自动编码器的潜在空间，我们将输入图像迭代地变换到目标点，通过各种新颖的正则化项确保连贯性和质量。我们提出了一种用于语义图像翻译的评估协议，并在 ImageNet 上彻底评估了我们的方法

CVPR2022论文速递！共6篇含图像翻译（FaceBook新作）/元学习/轨迹预测等（2022.3.10）_编码器_02

整体框架：

CVPR2022论文速递！共6篇含图像翻译（FaceBook新作）/元学习/轨迹预测等（2022.3.10）_初始化_03

FlexIT优化框架：绿色部分涉及多模态潜在空间的组件；黄色部分涉及图像潜在空间的；粉红色部分涉及的LPIPS距离。给定一个变换查询 (I0, S, T)，我们首先在多模态嵌入空间中计算一个目标点 P，然后我们在图像潜在空间中对 I0 进行编码以获得 z0。然后，对于固定的step，我们更新潜在变量 z（用 z0 初始化）以更接近目标点 P。我们添加两个正则化项：输入图像和输出图像之间的 LPIPS 感知距离，以及 z 和 z0 之间的潜在距离。所有网络都被冻结，只有 z 被更新。

图像翻译方法的概述如图 2 所示。它依赖于三个预训练的组件。首先，我们在潜在空间中编辑输入图像，要求可以将各种图像编码和解码回具有最小失真的 RGB 图像。为此，我们选择了 VQGAN 自动编码器。其次，我们将文本查询和输入图像嵌入到多模态嵌入空间中，为修改后的图像定义优化目标。我们使用 CLIP [41] 多模态嵌入空间。最后，为了确保修改后的图像与输入图像保持相似，我们使用 VGG [44] backbone计算的 LPIPS 感知距离 [56] 控制其与输入图像的距离。

Optimization scheme

FlexIT 方法的核心思想是在潜在空间中编辑输入图像，由多模态嵌入空间中定义的高级语义目标引导。令 E 为图像编码器，D 为图像解码器，(Ct, Ci) 分别为文本和图像的多模态编码器。给定输入图像 I0 和文本转换 S → T，我们首先通过计算初始潜在图像表示为 z0 = E(I0) 和目标多模态点 P 来初始化 FlexIT

CVPR2022论文速递！共6篇含图像翻译（FaceBook新作）/元学习/轨迹预测等（2022.3.10）_模态_04