CVPR 2024 | 前沿而相对小众！几个AIGC扩散模型diffusion应用一览-CFANZ编程社区

1、机器人规划/智能决策 SkillDiffuser: Interpretable Hierarchical Planning via Skill Abstractions in Diffusion-Based Task Execution

CVPR 2024 | 前沿而相对小众！几个AIGC扩散模型diffusion应用一览_数据集

扩散模型已展示在机器人轨迹规划方面的潜力。然而，从高级指令生成连贯的轨迹仍具有挑战性，特别是对于需要多个序列技能的长距离组合任务。

提出SkillDiffuser，一个端到端的分层规划框架，将可解释的技能学习与条件扩散规划相结合。在更高层面上，技能抽象模块从视觉观察和语言指令中学习离散、人类可理解的技能表示。然后，使用这些学习到的技能嵌入来调节扩散模型，以生成与技能相吻合的定制化潜在轨迹。这样可以生成符合可学习技能的多样化状态轨迹。通过将技能学习与条件轨迹生成结合起来，SkillDiffuser能够在不同任务中按照抽象指令生成连贯的行为。

在Meta-World和LOReL等多任务机器人操纵基准上的实验证明了SkillDiffuser在性能和人类可解释的技能表示方面的先进性。https://skilldiffuser.github.io/

2、动作生成/舞蹈序列 Lodge: A Coarse to Fine Diffusion Network for Long Dance Generation Guided by the Characteristic Dance Primitives

CVPR 2024 | 前沿而相对小众！几个AIGC扩散模型diffusion应用一览_数据_02

提出Lodge，根据给定音乐生成极长舞蹈序列的网络。将Lodge设计为一个两阶段的粗到精扩散架构，提出characteristic dance primitives，作为两个扩散模型之间的中间表示。

第一阶段是全局扩散，重点在于理解粗粒度的音乐-舞蹈关联性和生成特征舞蹈。第二阶段是局部扩散，通过舞蹈和编排规则的指导，同时生成详细的动作序列。此外，提出一个足部精炼模块，优化脚与地面之间的接触，增强了动作的物理逼真感。

方法平衡全局编舞模式和局部动作质量和表现力之间的关系。大量实验证实方法有效性。https://li-ronghui.github.io/lodge

3、视觉叙事/多模态学习 Intelligent Grimm - Open-ended Visual Storytelling via Latent Diffusion Models

CVPR 2024 | 前沿而相对小众！几个AIGC扩散模型diffusion应用一览_github_03

生成模型最近在文本到图像生成方面展示了出色的能力，但仍然难以连贯地生成图像序列。这项工作关注一个新颖而具有挑战性的任务，即基于给定故事情节生成连贯的图像序列，被称为开放式视觉叙事。

做出了以下三个贡献：(i)为完成视觉叙事的任务，提出一种基于学习的自回归图像生成模型StoryGen，采用一个新的视觉-语言上下文模块，使得生成的当前帧能够以相关文本提示和之前的image-caption对作为条件；(ii)为解决视觉叙事数据的不足，通过在线视频和开源电子书收集成对的图像-文本序列，建立了一个包含多样化角色、故事情节和艺术风格的大规模数据集的处理流程，命名为StorySalon；(iii)定量实验和人类评估验证StoryGen的优越性，展示了StoryGen可以在没有任何优化的情况下推广到未见过的角色，并生成具有连贯内容和一致性的图像序列。https://haoningwu3639.github.io/StoryGen_Webpage/

4、因果归因 ProMark: Proactive Diffusion Watermarking for Causal Attribution

CVPR 2024 | 前沿而相对小众！几个AIGC扩散模型diffusion应用一览_数据集_04

生成AI(GenAI)通过高级提示的能力，正在改变创意工作流程，合成和操作图像。然而，创意者们缺乏得到对他们在GenAI训练中使用的内容的认可或奖励的支持。为此，提出ProMark，一种因果归因技术，将生成图像归因于其训练数据中的概念，如对象、主题、模板、艺术家或风格。概念信息被主动嵌入到输入训练图像中，使用察觉不到的水印，扩散模型（无条件或条件）被训练以在生成的图像中保留相应的水印。

展示可以将多达2^16个独特的水印嵌入训练数据中，每个训练图像可以包含多个水印。ProMark可以保持图像质量，同时优于基于相关性的归因。最后，展示了一些定性的示例，提供了水印的存在传达了训练数据和合成图像之间的因果关系。

5、隐私保护/对抗估计 Robust Imperceptible Perturbation against Diffusion Models

CVPR 2024 | 前沿而相对小众！几个AIGC扩散模型diffusion应用一览_数据集_05

文本到图像扩散模型可从参考照片中生成个性化图像。然而这些工具如果落入不良之徒手中，可能制造误导性或有害内容，危及个人安全。为解决这个问题，现有防御方法对用户图像进行微不可察觉的扰动，使其对恶意使用者“无法学习”。这些方法两个局限性：一是由于手工设计的启发式方法导致sub-optimal结果；二是缺乏对简单数据转换（如高斯滤波）的鲁棒性。

为解决这些挑战，提出MetaCloak，用元学习框架，通过额外的转换采样过程来构建可转移和鲁棒的扰动。具体而言，用一组替代扩散模型来构建可转移和模型无关的扰动。此外，通过引入额外的转换过程，设计一个简单的去噪误差最大化损失，足以在个性化生成中引起转换鲁棒的语义失真和降级。

在VGGFace2和CelebA-HQ数据集上进行实验，表明MetaCloak优于现有方法。值得注意的是，MetaCloak能够成功欺骗Replicate等在线训练服务，以黑盒方式展示了MetaCloak在实际场景中的有效性。https://github.com/liuyixin-louis/MetaCloak

6、3D相关/流估计 DifFlow3D: Toward Robust Uncertainty-Aware Scene Flow Estimation with

Iterative Diffusion-Based Refinement

CVPR 2024 | 前沿而相对小众！几个AIGC扩散模型diffusion应用一览_github_06

场景流估计，是计算机视觉领域的一项基础任务，旨在预测动态场景的每个点的三维位移。然而，前期的工作通常由于局部限制的搜索范围导致相关性不可靠，并且由于粗到细结构而产生累积误差。

为缓解这些问题，提出一种新的基于扩散概率模型的场景流估计网络(DifFlow3D)来推断不确定性。设计迭代扩散的细化过程，以增强相关性的鲁棒性和对挑战性情况(如动态场景、噪声输入、重复图案等)的韧性。为抑制生成多样性，在扩散模型中使用了三个与流相关的关键特征作为条件。

此外，还在扩散中开发了一个不确定性估计模块，用于评估估计的场景流的可靠性。DifFlow3D实现了最先进的性能，在FlyingThings3D和KITTI 2015数据集上分别减少了6.7%和19.1%的EPE3D。值得注意的是，方法在KITTI数据集上实现了空前的毫米级准确性(EPE3D为0.0089m)。此外，基于扩散的细化范式可以轻松地作为即插即用模块集成到现有的场景流网络中，提高它们的估计准确性。

7、运动生成/多模态学习 OMG: Towards Open-vocabulary Motion Generation via Mixture of Controllers

CVPR 2024 | 前沿而相对小众！几个AIGC扩散模型diffusion应用一览_AIGC_07

近期在逼真的文本到运动生成方面取得进展。然而，现有方法在处理未见过的文本输入时往往失败或产生不合理的动作，限制了应用的范围。

本文提出一个新框架OMG，从零样本开放词汇的文本提示中生成引人注目的动作。关键思想是将预训练-微调范式精心调整为文本到运动生成。在预训练阶段，模型通过学习丰富的领域外内在运动特征来改善生成能力。为此，将一个大规模无条件扩散模型扩展到10亿个参数，以利用超过2000万个无标签的运动实例数据。在随后的微调阶段，引入运动控制网络(ControlNet)，通过一个可训练的预训练模型和提出的新型混合控制器(MoC)块，将文本提示作为调节信息进行融合。MoC块通过交叉注意机制自适应地识别子运动的各个范围，并使用专门针对文本token的专家进行分段处理。这样的设计有效地将文本提示的CLIP令牌嵌入到各种范围的紧凑和富有表现力的运动特征中。

大量实验证明，OMG在零样本文本到运动生成上取得了显著改进，优于最先进方法。https://tr3e.github.io/omg-page/