0
点赞
收藏
分享

微信扫一扫

Fugatto:英伟达推出的多功能AI音频生成模型

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

🚀 快速阅读

功能:根据文本描述生成音效和音乐,支持多种音频生成和转换任务。
技术:基于深度神经网络和大型语言模型,采用创新的数据生成方法和可组合音频表示转换技术。
应用:广泛应用于音乐创作、声音设计、语音合成和视频游戏音频制作等领域。

正文

Fugatto 是什么

Fugatto:英伟达推出的多功能AI音频生成模型_github

Fugatto是由英伟达(NVIDIA)推出的音频合成和转换模型,全称为“Foundational Generative Audio Transformer Opus 1”。该模型能够根据文本提示生成音频或视频,并接收并修改现有的音频文件。Fugatto模型具有强大的能力,例如将钢琴旋律转换成人声演唱版本,或者改变口语录音中的口音和情绪表达。

Fugatto模型的架构基于增强型的Transformer模型,采用了自适应层归一化等特定修改,支持复杂的组合指令。这使得Fugatto在音频编辑和制作领域具有极高的应用价值。

Fugatto 的主要功能

  • 音频生成与转换:根据文本描述生成音效和音乐,例如将钢琴演奏转换为人声歌唱,或改变录音的口音和情绪。
  • 多任务学习:支持多种音频生成和转换任务,包括音乐创作、声音效果设计和语音合成等。
  • 精细的艺术控制:通过引入ComposableART技术,用户可以组合多个指令,实现对声音属性的精细控制,调整音乐的节奏、音色,或改变语音的情感和口音。
  • 动态音频生成:能够生成随时间变化的声音景观,用户可以控制声音的变化轨迹,音频内容更加丰富和生动。
  • 多语言和口音支持:具备强大的多语言和口音能力,能生成各种语言的语音内容,支持多种口音和方言,音频创作更加贴近现实。
  • 音景创作:可以为电影和音频制作创建身临其境的音景,能模拟自然现象的声音,例如雷雨声与鸟鸣声的结合,为用户提供丰富的听觉体验。
  • 语音样本生成:能够生成新的语音样本,可以改变交付的语气和风格,为每次播放赋予独特的触感。

Fugatto 的技术原理

  • 深度神经网络:基于深度神经网络,经过优化可以理解文本、将描述转换为声音,根据用户的特定需求调整其输出。
  • 大型语言模型 (LLM):使用大型语言模型来增强指令生成,能更好地理解和解释音频和文本提示之间的关系。
  • 数据生成方法:采用创新的数据生成方法,超越了传统的监督学习。专门的数据集生成技术,创建各种音频和转换任务。
  • 可组合音频表示转换 (ComposableART):在推理过程中采用了称为ComposableART的技术,能组合在训练期间只能单独看到的指令。
  • 时间插值:能够生成随时间变化的声音,NVIDIA将这一功能称为时间插值。例如,可以模拟暴雨穿过区域的声音,雷声逐渐增强,然后慢慢消失在远处。
  • 生成新奇声音:与大多数只能重现所接触的训练数据的模型不同,Fugatto支持用户创建以前从未见过的音景。
  • Transformer模型的特定修改:架构基于经过特定修改(如自适应层归一化)增强的Transformer模型,有助于在不同输入之间保持一致性,比现有模型更好地支持作曲指令。

资源

  • 项目官网:<https://fugatto.github.io/>
  • GitHub 仓库:<https://github.com/fugatto/fugatto.github.io/blob/main/index.md>
  • 技术论文:<https://d1qx31qr3h6wln.cloudfront.net/publications/FUGATTO.pdf>

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

举报

相关推荐

0 条评论