音乐艺术家可以通过滑铁卢研究人员开发的技术为他们的歌曲创作找到灵感和新的创意方向。
LyricJam是一个实时系统,使用人工智能(AI)为现场器乐生成歌词,由该大学的自然语言处理实验室成员创建。
该实验室由交叉任职于计算机科学系的滑铁卢工程学教授Olga Vechtomova领导,几年来一直在研究人工智能的创造性应用。
该实验室最初的工作导致创建了一个系统,该系统可以学习艺术家的音乐表达方式,并按照他们的风格生成歌词。
最近,Vechtomova与滑铁卢的研究生Gaurav Sahu和Dhruv Kumar一起开发了技术,依靠音乐的各个方面,如和弦进展、节奏和乐器,合成反映现场音乐所表达的情绪和情感的歌词。
当音乐家或乐队演奏器乐时,该系统不断接收原始音频片段,神经网络对其进行处理以生成新的歌词行。然后,艺术家们可以使用这些线条来创作他们自己的歌词。
研究人员提出的方法是基于训练一个变异自动编码器来学习音频片段的旋律谱图(spec-VAE),以及一个条件变异自动编码器来学习歌词行的表示(text CVAE)。使用变异自动编码器作为生成模型的优点是它们能够学习一个连续的潜在空间,然后可以通过采样来生成新的线条,这是创意应用的一个重要要求。
在推理时,该模型必须能够在给定的现场即兴演奏的音频片段中生成新的歌词行。为了做到这一点,需要一种方法来调整由规格VAE学到的潜在表征和由文本VAE学到的潜在表征。研究人员提出了两种新的方法来实现这种对齐。
第一种方法(图1)是基于训练一个单独的生成对抗网络(GAN)模型,该模型从spec-VAE中获取谱图嵌入,并学习预测文本-CVAE中的歌词行嵌入。然后,GAN预测的嵌入被发送到textCVAE解码器以生成文本。
图 1 基于GAN的音乐和歌词表述的对齐(方法1)。
第二种方法(图2)是学习将spec-VAE的潜空间拓扑结构转移到text-CVAE的潜空间。为了实现这一目标,在训练期间将从spec-VAE中学习到的后验作为text-CVAE的先验。文本CVAE学习在潜空间中对应于某一音频片段的区域内对歌词行进行编码。此外,由于类似的声音音频片段在邻近的区域被编码,文本-视频转换器相应地学习在邻近的区域为这些片段编码词句。例如,环境音乐片段将被编码在spec-VAE的近端区域,因此对应于这些片段的线条也将被编码。直觉是,与类似声音的音频片段(例如环境)相对应的线条会有类似的情感意图,而不是例如具有攻击性的音乐。在推理时,当一个艺术家播放环境音乐作品时,系统会将其频谱图反馈给spec-VAE编码器,以获得其后验分布的参数。由于spec-VAE的后验分布也是文本-CVAE的先验分布,系统会从文本-CVAE的相应先验中抽取潜伏代码,生成反映环境音乐的新线条。
图 2 从spec-VAE到text-CVAE的潜在空间拓扑转移(方法2)。
"该系统的目的不是为艺术家写歌,"Vechtomova解释说。"相反,我们想帮助艺术家实现他们自己的创造力。该系统生成具有新的隐喻和表达方式的诗行,有可能将艺术家引向他们之前没有探索过的创作方向。"
研究人员设计的神经网络会学习哪些抒情主题、词语和风格装置与每个音频片段中捕获的音乐的不同方面有关。
例如,研究人员观察到,为环境音乐生成的歌词与为欢快的音乐生成的歌词有很大不同。
研究小组进行了一项用户研究,邀请音乐家们在使用该系统时现场演奏乐器。
"Vechtomova说:"一个出乎意料的发现是,参与者感到被生成的台词鼓励着去即兴创作。"例如,这些线条激发了艺术家们以某种不同的方式构建和弦,并将他们的即兴演奏带入了一个比最初设想的新方向。一些音乐家还使用这些线条来检查他们的即兴创作是否达到了预期的情感效果"。
图 3 LyricJam截屏
该研究的另一个发现强调了经验的共同创造方面。参与者评论说,他们把这个系统看作是一个不加批判的干扰伙伴,即使他们没有积极尝试写歌词,也感到被鼓励去演奏他们的乐器。
自今年6月LyricJam上线以来,全球已有超过1500名用户试用了它。
该团队的研究将在今年9月的国际计算创意会议上发表,并已预先发表在arXiv上。有兴趣尝试LyricJam的音乐人可以在https://lyricjam.ai。
图 4 Olga Vechtomova 教授
Olga Vechtomova 教授领导自然语言处理(NLP)实验室,隶属于滑铁卢人工智能研究所。实验室的研究主要集中在为自然语言生成设计深度神经网络。目前和最近的项目包括受控文本生成、文本风格转移和文本生成模型的艺术应用。