0
点赞
收藏
分享

微信扫一扫

【Java常用API】简单爬虫练习题

目录

论文地址:Mora: Enabling Generalist Video Generation viaA Multi-Agent Framework

 github地址:https://github.com/lichao-sun/Mora

一、摘要

(1)Mora 的主要特点:

(2)Mora的应用场景:

  (3)  Mora的主要贡献

二、Mora: A Multi-Agent Framework for Video Generation

1、Text-to-video generation:

2、Text-guided image-to-video generation:

3、Extend generated videos:

4、Video-to-video editing:

5、Connect videos:

6、Simulate digital world:

三、实验

1、评估指标

2、实施细节

3、结果

3.1、Text-to-Video Generation

3.2、Text-conditional Image-to-Video Generation

3.3、Extend Generated Videos

3.4、Video-to-Video Editing

3.5、Connect Videos

3.6、Simulate Digital Worlds

四、结论


一、摘要

Mora是一个基于多智能体框架的通用视频生成系统。它旨在解决现有视频生成模型通常专注于特定任务或场景的问题,如人脸生成、自然景观生成等。通过使用多智能体框架,Mora 能够在不同任务和场景之间进行灵活切换,实现更加通用的视频生成。

在 Mora 中,每个智能体负责处理特定的任务或场景,例如人脸生成、自然景观生成等。这些智能体可以独立地进行训练和优化,以在其各自的领域内实现最佳性能。然后,通过一个协调器来整合这些智能体的输出,生成最终的视频。

Mora生成的视频

(1)Mora 的主要特点:

  1. 多智能体框架:Mora 利用多个智能体来处理不同的任务和场景,从而实现了更加通用的视频生成能力。

  2. 可扩展性:由于每个智能体负责处理特定任务或场景,因此可以根据需要轻松添加新的智能体,以支持更多的任务和场景。

  3. 灵活性:Mora 允许在不同的任务和场景之间灵活切换,使得系统能够适应各种应用场景。

  4. 高性能:通过将任务分解为多个智能体,可以对每个智能体进行独立的训练和优化,从而提高整体性能。

(2)Mora的应用场景:

扩展已生成的视频:Mora能够根据用户的需求对现有视频进行扩展和修改,这适用于需要对视频内容进行调整或延续的场景。
视频到视频的编辑:Mora支持将多个视频片段结合起来,进行剪辑和编辑,以创作出全新的视频内容。
多智能体协作增强:Mora的框架设计有助于提升智能体之间的协作,这对于需要多步骤或多元素合成的复杂视频生成任务尤为重要。
高质量视频内容生成:微软研究院推出Mora的目的是为了通过智能体之间的协作实现高质量的视频内容生成,这表明Mora可以用于制作高分辨率、高质量的视频,满足专业级别的需求。

此外,在Mora框架中,有五种基本角色负责不同的生成任务,包括Prompt选择和生成、文本到图像生成、图像到图像生成、图像到视频生成以及视频到视频的转换。这种分工使得系统能够灵活应对各种视频生成的需求。

  (3)  Mora的主要贡献

1.提出一个开创性的元编程框架,旨在增强多智能体协作。这个框架以其结构化但适应性强的代理系统而闻名,并具有配置组件和任务管道的直观界面。

2.通过利用多个代理的自动合作,包括文本到图像、图像到图像、图像到视频和视频到视频代理,可以显著提高视频生成的质量。这个协作过程从从文本中生成图像开始,然后同时使用生成的图像和输入文本来生成视频。这个过程以视频的进一步细化、扩展、连接和编辑而结束。

3.Mora以其在6个视频相关任务上的出色表现而出,超过了现有的开源模型。

然而,在整体评估时,Mora和Sora之间存在着明显的差距。

二、Mora: A Multi-Agent Framework for Video Generation

先看下Mora和Sora、其他现有模型的比较:

Mora的多代理框架:它利用各种高级大型模型来实现类似于Sora的文本到视频功能。具体地说,就是将视频生成分解为几个子任务,每个子任务分配给一个专门的代理:

(1)enhancing prompts provided by the user (增强用户提供的提示)

(2)generating an image from an input text prompt (从输入文本提示生成图像)

(3)editing or refining images based on the enhanced conditioning provided by the text (基于文本提供的增强条件编辑或细化图像)

(4)generating a video from the generated image (从生成的图像生成视频)

(5)connecting two video (连接两个视频)

通过自动组织代理通过这些子任务进行循环和排列,Mora可以通过一个灵活的管道完成广泛的视频生成任务,从而满足用户的不同需求。

通过有效协调文本到图像、图像到图像、图像到视频、视频到视频,Mora可以熟练地执行广泛的视频生成任务,同时提供优越的编辑灵活性和视觉保真度,可与Sora等模型相媲美。

接下来详细看Mora:

从上图可以看出Mora主要由五个基本的代理:

  1. prompt selection and generation agent
  2. text-to-images generation agent
  3. image-to-image generation agent
  4. image-to-video generation agent
  5. video-to-video agent

参考图中的Planning:

1、Text-to-video generation:

选择一个prompt selection代理,得到一个表达描述,然后根据这个描述采用image generation代理得到一个image,然后再利用一个image-to-video generation代理生成一段视频

(即为step1step2step4这一段位对中间生成的图片进行精修或者编辑)

因此还有step1step2step3step4,其中step3是采用Image-to-image代理得到一个精修或编辑的图片,再采用精修或编辑的图片采用Image-to-video generation代理生成一段视频。

2、Text-guided image-to-video generation:

Step 3 → Step4:对图片进行精修或编辑,再采用Image-to-video generation代理生成一段视频

3、Extend generated videos:

Step 5 → Step4:这个任务的重点是扩展一个现有的视频序列的叙述。通过以输入视频的最后一帧作为起点,视频生成代理制作了一系列新的、连贯的帧来继续这个故事。这种方法允许视频内容的无缝扩展,创建更长的叙述,以保持原始序列的一致性和流程。

4、Video-to-video editing:

Step 5 → Step3 → Step4 :它获取输入视频的第一帧,并根据用户的提示应用编辑,从而实现所需的修改。这个编辑后的帧然后作为图像到视频代理的初始图像,它生成一个新的视频序列,反映所要求的明显或微妙的变化(主要区别在Step3中)

5、Connect videos:

Step 6:利用视频到视频代理,基于用户提供的两个输入视频创建无缝过渡视频。这个高级代理有选择地利用每个输入视频中的关键帧,以确保它们之间的平滑和视觉上一致的转换。它的设计能够准确地识别两个视频中的共同元素和风格,从而确保一个连贯的和视觉上吸引人的输出。这种方法不仅改善了不同视频片段之间的无缝流动,而且还保留了每个视频片段的不同风格。

6、Simulate digital world:

Step 1→Step2→Step4: 这个任务专门处理在数字风格的世界中设置的视频序列的整个风格的变化。通过在编辑提示中添加短语“在数字世界风格中”,用户指示图像到视频代理制作一个体现数字领域的美学和动态的序列,或者利用图像到图像代理将真实图像转移到数字风格。这项任务突破了视频生成的边界,使创造提供独特的视觉体验。

三、实验

将Mora和现有的模型进行比较,并从多个基本指标方面进行比较

1、评估指标

1、video quality measurement

❶对象一致性,由DINO帧间特征相似度计算,以评估对象外观是否在整个视频中保持一致。

❷背景一致性,由CLIP 帧间特征相似度计算。

❸运动平滑度,利用视频帧插值模型AMT中的运动先验来评估生成运动的平滑度。

❹美学评分,通过在每个视频帧上使用LAION美学预测器来评估人类感知的艺术和美丽价值。

❺动态程度,使用RAFT来估计合成视频的动态程度。

❻成像质量,使用SPAQ数据集上训练的MUSIQ图像质量预测器计算。

详细的评估指标相关的论文请自行查阅!

2、video condition consistency measurement

❶时间风格,利用ViCLIP计算视频特征与时间风格描述特征之间的相似度,从而反映时间风格的一致性。

❷外观样式,通过使用CLIP计算合成帧与输入提示符之间的特征相似度,来衡量外观样式的一致性。

 3、Self-defined Metrics

❶视频-文本集成VideoTI,旨在提高模型对文本指令的保真度的定量评价。它使用LLaVA将输入图像传输到文本描述符Ti和视频-Llama中,将模型生成的视频传输到文本中。图像的文本表示加上原始指导文本,形成增强的文本输入Tmix。新形成的文本和视频生成的文本都将被输入到BERT 。通过余弦相似度的计算,对得到的嵌入数据进行语义相似度分析,提供了模型对给定指令和图像的一致性的定量度量。

❷时间一致性TCON,用于测量原始视频与其扩展视频之间的一致性,为评估扩展视频内容的完整性提供了一个重要的工具。对于每个输入-输出视频对,我们使用ViCLIP 视频编码器来提取它们的特征向量。然后我们计算余弦相似度来得到分数。

❸时间相干性Tmean,通过量化中间生成的视频与基于T CON的输入视频之间的相关性。

❹视频长度,以评估模型制作视频内容的效率,特别是关注最大持续时间,以秒为单位测量。

Mora与其他各种模型之间的文本到视频生成性能的比较分析。其他类别的得分来自于Hugging face的排行榜。对于Mora,评估是基于GPT-4生成的提示,根据视频中移动物体的数量分为三种类型:类型I(单个运动的物体)、类型II(两到三个运动的物体)和类型III(超过三个运动的物体)。输入提示的差异解释了Mora在Type II提示在相关评价中的得分优于Sora的原因。

2、实施细节

对于文本到视频的生成,我们遵循官方Sora技术报告中提供的文本提示的风格。随后,我们使用GPT-4 在few-shot的设置下生成更多的文本。GPT-4也被用于在few-shot设置中生成相同数量的文本。然后,将所有生成的文本提示输入到文本到视频的模型中,以生成视频。为了与Sora进行比较,利用了其官方网站上的视频和技术报告。

所有的实验都是在两个TESLA A100 GPU上进行的,配备了一个大量的2×80GB的VRAM。中央处理器由4xAMD EPYC 7552 48核处理器处理。内存分配设置为320GB。软件环境在PyTorch版本2.0.2和CUDA 12.2上进行视频生成,在PyTorch版本1.10.2和CUDA 11.6上进行视频评估。

3、结果

3.1、Text-to-Video Generation

3.2、Text-conditional Image-to-Video Generation

3.3、Extend Generated Videos

3.4、Video-to-Video Editing

3.5、Connect Videos

3.6、Simulate Digital Worlds

四、结论

我们介绍了Mora,这是一个开创性的通用视频生成框架,用于处理一系列与视频相关的任务。通过多个代理的协作力量,Mora在从文本提示生成视频方面取得了显著的进步,为视频生成领域的适应性、效率和输出质量设立了新的基准。我们 thorough 评估表明,Mora不仅能够与当前领先模型竞争,而且在某些领域还超越了它们的能力。然而,与OpenAI的Sora模型相比,它存在明显的差距,Sora的闭源性质对学术界和专业界内部的复制和创新构成了相当大的挑战。我们的工作展示了一种元编程方法的未开发潜力,该方法促进了各种代理之间的复杂协作,每个代理都专注于视频生成过程的一个环节。本质上,Mora的成就不仅展示了当前开源状态下视频生成的最新技术,也为该领域的未来发展指明了方向。

当我们继续探索生成模型的广阔领域,并推动视频合成可能性的边界时,Mora作为创新的灯塔和开源协作力量的证明。

通过利用多个代理的集体智慧,Mora能够生成不仅视觉上令人惊叹,而且非常连贯和引人入胜的视频。这是通过一种复杂的元编程方法实现的,该方法允许每个代理将其独特的专业知识贡献给生成过程,从而产生大于各部分总和的协同效应。

此外,Mora的适应性和效率使其成为广泛视频相关任务的理想选择,从动画和特效到虚拟现实和增强现实。其输出质量无与伦比,为现实主义、细节和整体视觉冲击力设定了新的标杆。

然而,当我们庆祝这些成就时,我们也必须承认像Sora这样的闭源模型所带来的挑战。这类模型固有的缺乏透明度和可访问性限制了它们的复制和创新能力,阻碍了该领域的进步。

相比之下,Mora的开源本质促进了合作和持续改进,鼓励研究者和开发人员在其基础上构建并探索视频生成的新前沿。因此,Mora不仅代表了技术上的突破,也体现了对开放性、合作和进步的哲学承诺。

总之,Mora是一个开创性的通用视频生成框架,为适应性、效率和输出质量设定了新的标准。它的成功展示了元编程方法的未开发潜力和开源协作的力量。当我们继续推动视频合成可能性的边界时,Mora作为创新的灯塔和该领域未来的指导光芒。

展望未来,有几个有前景的研究方向值得进一步探索。

其中一个方向涉及在代理中整合更复杂的自然语言理解能力,这可能允许生成更详细且对上下文更敏感的视频。

此外,扩展Mora以纳入实时反馈循环,可以提供交互式视频创作体验,用户输入可以以更动态和响应的方式指导生成过程。

此外,可访问性和计算资源需求的挑战仍然是广泛采用和创新的关键障碍。Mora的未来迭代可以从优化中受益,这些优化可以减少这些需求,使先进的视频生成技术更容易被更广泛的用户和开发人员所使用。

与此同时,创建更开放和协作的研究环境的努力可以加速这一领域的进步,使社区能够在Mora框架和其他开创性工作奠定的基础上进一步发展。

举报

相关推荐

0 条评论