0
点赞
收藏
分享

微信扫一扫

Finetuned Multimodal Language Models Are High-Quality Image-Text Data Filters

一、简介

标题:High-Resolution Image Synthesis with Latent Diffusion Models(https://arxiv.org/pdf/2112.10752.pdf;GitHub - CompVis/latent-diffusion: High-Resolution Image Synthesis with Latent Diffusion Models)

期刊:CVPR

时间:2022

摘要:通过将图像形成过程分解为去噪自动编码器的序列应用,扩散模型 (DM) 在图像数据及其他方面实现了最先进的合成结果。此外,他们的公式允许一种指导机制来控制图像生成过程,而无需重新训练。然而,由于这些模型通常直接在像素空间中运行,因此强大的 DM 的优化通常会消耗数百个 GPU 天,并且由于顺序评估,推理成本很高。为了在有限的计算资源上进行 DM 训练,同时保持其质量和灵活性,我们将它们应用在强大的预训练自动编码器的潜在空间中。与之前的工作相比,在这种表示上训练扩散模型首次允许在复杂性降低和细节保留之间达到接近最佳的点,从而极大地提高了视觉保真度。通过将交叉注意力层引入模型架构中,我们将扩散模型转变为强大而灵活的生成器,用于一般调节输入(例如文本或边界框),并且以卷积方式使高分辨率合成成为可能。我们的潜在扩散模型 (LDM) 在图像修复和类条件图像合成方面取得了新的最先进分数,并在各种任务上实现了极具竞争力的性能,包括文本到图像合成、无条件图像生成和超分辨率, 与基于像素的 DM 相比,同时显着降低了计算要求。

算法标签:diffusion models;latent diffusion models;High-Resolution Image Synthesis

二、论文主要方法

1.背景

        图像合成是最近发展最引人注目的计算机视觉领域之一,也是计算需求最大的领域之一。特别是复杂自然场景的高分辨率合成目前主要是基于扩展可能性的模型,自回归(AR)转换器中可能包含数十亿个参数。相比之下,GAN 的有希望的结果主要局限于可变性相对有限的数据,因为它们的对抗性学习过程不容易扩展到建模复杂的多模态分布。最近,基于去噪自动编码器层次结构构建的扩散模型已在图像合成及其他方面取得了令人印象深刻的结果,并定义了类条件图像合成和超分辨率的最新技术。此外,与其他类型的生成模型相比,即使是无条件 DM 也可以轻松应用于修复和着色或基于笔画的合成等任务。作为基于可能性的模型,它们不会像 GAN 那样表现出模式崩溃和训练不稳定性,并且通过大量利用参数共享,它们可以对自然图像的高度复杂分布进行建模,而无需像 AR 模型那样涉及数十亿个参数。

        高分辨率图像合成的大众化 DM 属于基于可能性的模型类别,其模式覆盖行为使它们容易花费过多的容量(以及计算资源)来对数据的难以察觉的细节进行建模。尽管重新加权的变分目标旨在通过对初始去噪步骤进行欠采样来解决这个问题,但 DM 的计算要求仍然很高,因为训练和评估此类模型需要在 RGB 图像的高维空间中重复进行函数评估(和梯度计算)。例如,训练最强大的 DM 通常需要数百

举报

相关推荐

0 条评论