0
点赞
收藏
分享

微信扫一扫

国产Sora全面开源,Open-Sora公开所有训练细节和模型权重,开箱即用

前言

在近期,国产技术团队Colossal-AI发布了引人注目的消息:他们全面开源了一个类似于OpenAI Sora的视频生成模型——Open-Sora 1.0。这一开源项目不仅包含了全部的训练细节和模型权重,而且其训练成本仅需1万美元,实现了64块GPU的高效复现。此举标志着在文生视频领域,国产技术已迈出了重要的一步,开启了视频创作新纪元的大门。

国产Sora全面开源,Open-Sora公开所有训练细节和模型权重,开箱即用_数据

模型概述

Open-Sora 1.0继承并超越了OpenAI Sora的优异视频生成效果,通过提供一个低成本且高效的训练及推理复现流程,极大降低了技术门槛。其开源地址已公布于GitHub,提供给全球AI研究者和爱好者自由使用。

  • Huggingface模型下载https://huggingface.co/hpcai-tech/Open-Sora
  • AI快站模型免费加速下载:https://aifasthub.com/models/hpcai-tech

核心技术揭秘

Open-Sora的架构采用了Diffusion Transformer(DiT)模型,结合时间注意力层,优化了对视频数据的处理。通过预训练的VAE和文本编码器,以及空间-时间注意力机制的应用,实现了高效的空间布局和时间序列关联的学习。此外,模型还引入了多阶段训练策略,包括大规模图像预训练、视频预训练及高质量视频数据的微调,有效提升了视频生成的细节和质量。

国产Sora全面开源,Open-Sora公开所有训练细节和模型权重,开箱即用_时间序列_02

实现高效训练

除了大幅降低 Sora 复现的技术门槛,提升视频生成在时长、分辨率、内容等多个维度的质量,作者团队还提供了 Colossal-AI 加速系统进行 Sora 复现的高效训练加持。通过算子优化和混合并行等高效训练策略,在处理 64 帧、512x512 分辨率视频的训练中,实现了 1.55 倍的加速效果。同时,得益于 Colossal-AI 的异构内存管理系统,在单台服务器上(8*H800)可以无阻碍地进行 1 分钟的 1080p 高清视频训练任务。

国产Sora全面开源,Open-Sora公开所有训练细节和模型权重,开箱即用_数据_03

此外,在作者团队的报告中,我们也发现 STDiT 模型架构在训练时也展现出卓越的高效性。和采用全注意力机制的 DiT 相比,随着帧数的增加,STDiT 实现了高达 5 倍的加速效果,这在处理长视频序列等现实任务中尤为关键。

国产Sora全面开源,Open-Sora公开所有训练细节和模型权重,开箱即用_服务器_04

广泛的应用前景

Open-Sora不仅能够生成风格多样的视频内容,还具备根据分割图和文本描述生成与输入图像空间布局一致的图像能力。它为用户提供了一种全新的视频创作方式,无论是科学研究、教育、娱乐还是商业广告,都将从这项技术中受益。生成效果展示:

让 Open-Sora 去捕捉山川瀑布从悬崖上澎湃而下,最终汇入湖泊的宏伟鸟瞰画面。

国产Sora全面开源,Open-Sora公开所有训练细节和模型权重,开箱即用_时间序列_05

Open-Sora 还能通过延时摄影的手法,向我们展现了繁星闪烁的银河。

国产Sora全面开源,Open-Sora公开所有训练细节和模型权重,开箱即用_服务器_06

开源共享,共创未来

Open-Sora项目的全面开源,不仅展示了国产技术团队在视频生成领域的强大实力,也为全球的AI开发者和研究者提供了一个强大的工具。这一开源精神将激发更多的创新,推动视频生成技术的发展,共同迎接AI创作的新时代。

模型下载

Huggingface模型下载

https://huggingface.co/hpcai-tech/Open-Sora

AI快站模型免费加速下载

https://aifasthub.com/models/hpcai-tech

举报

相关推荐

0 条评论