0
点赞
收藏
分享

微信扫一扫

springboot255基于spring boot的疫情信息管理系统

天蓝Sea 03-13 14:00 阅读 1

SPIRIT-LM: Interleaved Spoken and Written Language Model

Abstract

可以自由组合文本和语音实现ASR和TTS还有语音分类,有两个版本,base version(只用了speech semantic units)和 expressive version(加入了pitch 和 style units)。

Contributions

  • 引入了 SPIRIT-LM,是可以生成语音和文本的语言模型。 SPIRIT-LM 基于预训练 LLAMA 2,支持文本语音互相交叉的输入。
  • 与文本大语言模型类似,SPIRIT-LM 可以在文本、语音和跨模态(即语音到文本和文本到语音)的少样本数据中学习新任务。
  • 为了评估生成模型的表现力,我们引入了SPEECHTEXT SENTIMENT PRESERVATION基准测试(简称STSP),该基准测试衡量生成模型在口语和书面表达中,以及不同模态之间,对情感prompt保留的程度。
  • 最后,我们提出了一个表现力更强的SPIRIT-LM版本(SPIRIT-LM-EXPRESSIVE)。使用STSP,我们展示了SPIRIT-LM是第一个能够在同一模态和跨模态中保留文本和语音提示情感的语言模型。

Related Work

Textless NLP

有一些自监督训练的方法(如Hubert), 使得学得的语音表示对丰富的下游任务有帮助,这些语音表示也可以用于推理出一些离散的tokens,这些tokens包括内容和韵律。尽管这些模型在捕捉表现力方面表现出色,但当使用相当数量的数据训练时,它们在捕捉语义方面仍然落后于文本模型。本文用用hubert提取semantic speech tokens. 采用论文【1】中的作为 pitch 和 style tokens.

Speech and Speech+Text LMs

AudioLM用了两种离散的语音tokens: semantic tokens 和 acoustic tokens, 分别获取语义信息和声学信息。它们采用多阶段的方式建模语音(semantic → coarse acoustic → finegrained acoustic),以生成与提示相同声学风格的语音,同时保持语义上的连贯性。Vall-E应用acoustic tokes(Encodec)。SpeechGPT和Spectron建模连续的语音(speech-prompt→ text-prompt → text-续写 → speech-续写)。[2]
在finetune llama2的过程中将文本的prompt替换成语音,从而实现的speech qa, speech translation 和 audio summarization 任务。AudioPALM 和 VioLA 都采用多任务方式在文本和语音上训练自回归语言模型,并专注于语音识别(ASR)、语音合成(TTS)和语音翻译(AST,S2ST)任务。最近,VoxtLM和SUTLM 在ASR、TTS以及语音/文本续写任务上联合训练了语音和文本语言模型。我们的工作在训练任务上与Chou等人(2023)的主要相似,但增加了跨模态生成和富有表现力的语音及文本生成的能力。我们还研究了更大的模型,并评估了它们的零样本学习和上下文学习的能力。

Methods

在这里插入图片描述

SPIRIT-LM模型基于持续在文本和语音的组合上预训练一个文本预训练的语言模型(图1.a)。遵循Hassid等人,2023年的方法,我们使用一系列仅包含文本的数据集、仅包含语音的数据集以及与模型交错输入的对齐语音+文本数据集,持续预训练LLAMA 2。我们在语音和文本理解指标(sWUGGY, sBLIMP, sStoryCloze, tStoryCloze, MMLU, )以及下游任务(如自动语音识别(ASR)、文本到语音(TTS)和语音分类)上评估所有模型。SPIRIT-LM有两个版本:SPIRIT-LM-BASE和SPIRIT-LM-EXPRESSIVE。SPIRIT-LM-BASE使用HuBERT tokens来建模语音,而SPIRIT-LM-EXPRESSIVE使用HuBERT、pitch和style tokens的拼接。

SPIRIT-LM-BASE

Speech Encoder

用了[3]中的HuBERT, 501 semantic speech tokens.

Speech and Text Tokenization

我们对文本使用LLaMA的默认分词器进行分词,对语音使用上述描述的HuBERT分词器进行分词。遵循先前的工作,对HuBERT tokens进行去重以提高建模质量。对于单模态数据集(仅文本和仅语音),我们对数据进行分词,并在前面加上相应的模态token,即"[TEXT]这是一个文本句子"或"[SPEECH][Hu262][Hu208][Hu499][Hu105]"。

Interleaving Speech and Text

对于对齐的语音+文本数据集,我们通过在单词级别交错语音和文本(图1.b)来混合文本和语音,使得输入看起来像这样"[TEXT]the cat [SPEECH][Hu3][Hu7]…[Hu200][TEXT]the mat"2。我们的假设是,交错训练将帮助模型学习语音和文本token之间的对齐,从而实现更好的文本到语音的转换。句子内的语音和文本跨度在每个训练步骤中随机采样。

Speech Decoder

至于从语音tokens进行语音合成,我们在Expresso数据集上训练了一个HifiGAN声码器。HifiGAN模型在HuBERT语音tokens和来自Expresso四种声音之一的1-hot说话人嵌入条件下进行训练。

SPIRIT-LM-EXPRESSIVE

Pitch Tokens

参考[4][5], 12 pitch tokens per second.

Style Tokens

参考[6], 提取了speechprop特征,这些特征捕获了语音输入的表现风格。这些特征通过在1秒钟的输入片段上使用平均池化进行汇总,每1秒钟产生一个特征。为了保持风格token不包含生物识别信息,我们进一步通过在Expresso数据集上微调这些特征以预测表现风格,从而从speechprop特征中移除说话人信息,这作为一个标准化步骤来获取风格特征。最后,我们在Expresso数据集的标准化特征上训练了一个包含100个单元的k-means聚类。

Expressive Speech Tokenization

将三种tokens 混合,如图1c, “[SPEECH][St10][Pi0][Hu28][Hu22][Pi14][Hu15][Pi32][Hu78][Hu234][Hu468]”

Expressive Speech Decoder

和base相比加入了pitch tokens 和 style tokens.

Training Details

Datasets

在这里插入图片描述

Evaluation

整体的结果和感性认知。
在这里插入图片描述
量化结果:

Speech- and Text- only Tasks

sWUGGY, sBLIMP, StoryCloze, and speech classification tasks.
在这里插入图片描述

Speech-to-Text and Text-to-Speech Tasks

ASR, TTS
在这里插入图片描述

The SPEECH-TEXT SENTIMENT PRESERVATION benchmark (STSP)

在这里插入图片描述

[1] Augmentation invariant discrete representation for generative spoken language modeling
[2] Towards General-Purpose Speech Abilities for Large Language Models Using Unpaired Data
[3] Textually pretrained speech language models
[4] Speech resynthesis from discrete disentangled self-supervised representations
[5] Text-free prosody-aware generative spoken language modeling.
[6] Sonar expressive: Zero-shot expressive speech-to-speech translation.

举报

相关推荐

0 条评论