Mistral 7B 比Llama 2更好的开源大模型（三）-CFANZ编程社区

在这里插入图片描述

Daily Sound Papers

Dynamic Processing Neural Network Architecture For Hearing Loss Compensation
Authors Szymon Drgas, Lars Bramsl w, Archontis Politis, Gaurav Naithani, Tuomas Virtanen
本文提出了用于补偿感音神经性听力损失的神经网络。听力损失补偿任务的目的是在由听力障碍者进一步处理后，对语音信号进行转换以提高语音清晰度，该任务通过听力损失模型进行建模。我们提出了一种称为动态处理网络的可解释模型，其结构类似于带状动态压缩器。该网络是可微分的，因此允许学习其参数以最大化语音清晰度。还测试了基于卷积层的更通用模型。使用谱时客观指数 STOI 以及听力阈值噪声和助听器语音清晰度 HASPI 指标来评估测试架构的性能。与流行的压缩增益处方规则 Camfit 相比，动态处理网络对 STOI 和 HASPI 有了显着的改进。足够大的卷积网络可以超越可解释模型，但代价是更大的计算负载。

AccoMontage-3: Full-Band Accompaniment Arrangement via Sequential Style Transfer and Multi-Track Function Prior
Authors Jingwei Zhao, Gus Xia, Ye Wang
我们提出了 AccoMontage 3，这是一种符号音乐自动化系统，能够根据带有和弦的主旋律（即主奏表）的输入生成多轨、全乐队伴奏。该系统包含三个模块化组件，每个组件都模拟了整个乐队组合的重要方面。第一个组件是钢琴编曲器，它通过使用潜在和弦纹理解缠和纹理捐赠者的启发式检索将纹理风格转移到和弦，为主奏板生成钢琴伴奏。第二个组件根据各个轨道功能编码的编曲风格将钢琴伴奏乐谱编排成全乐队编曲。第三个组件连接前两个组件，是一个先验模型，描述整首音乐的管弦乐风格的全局结构。从头到尾，系统学习以自我监督的方式生成全乐队伴奏，在复调作曲纹理和编排两个层面上应用风格转移。

Towards Streaming Speech-to-Avatar Synthesis
Authors Tejas S. Prabhune, Peter Wu, Bohan Yu, Gopala K. Anumanchipalli
将语音流传输到虚拟人物合成中，可以根据音频数据为虚拟角色创建实时动画。准确的语音化身表征对于语言学、语音学和音系学中的声音可视化、辅助第二语言习得的视觉反馈以及瘫痪患者的虚拟体现非常重要。之前的作品强调了深度关节反转的能力，可以使用电磁关节描记术 EMA 功能执行高质量的头像动画。然而，这些模型侧重于通过录音进行离线头像合成，而不是实时音频，而实时音频是实时头像可视化或体现所必需的。为了解决这个问题，我们提出了一种使用发音反转来从实时音频流式传输高质量面部和内嘴头像动画的方法。我们的方法实现了每 0.1 秒音频的平均流延迟为 130 毫秒，与真实发音的相关性为 0.792。

Complex Image Generation SwinTransformer Network for Audio Denoising
Authors Youshan Zhang, Jialu Li
在现实应用中实现高性能音频降噪仍然是一项具有挑战性的任务。现有的时频方法常常忽略生成的频域图像的质量。本文将音频去噪问题转化为图像生成任务。我们首先开发一个复杂图像生成 SwinTransformer 网络，以从复杂傅里叶域捕获更多信息。然后，我们施加结构相似性和详细的损失函数来生成高质量图像并开发 SDR 损失以最小化去噪音频和干净音频之间的差异。

ArTST: Arabic Text and Speech Transformer
Authors Hawau Olamide Toyin, Amirbek Djanibekov, Ajinkya Kulkarni, Hanan Aldarmaki
我们推出了 ArTST，一种经过预训练的阿拉伯语文本和语音转换器，用于支持阿拉伯语的开源语音技术。该模型架构遵循最近发布的英语统一模态框架 SpeechT5，重点关注现代标准阿拉伯语 MSA，并计划在未来版本中将该模型扩展到方言和代码交换阿拉伯语。我们在 MSA 语音和文本数据上从头开始对模型进行预训练，并针对以下任务对其进行微调：自动语音识别 ASR、文本到语音合成 TTS 和口语方言识别。在我们将 ArTST 与 SpeechT5 进行比较的实验中，以及与之前报告的这些任务的结果相比，ArTST 在所有三项任务中的表现均达到或超过了当前最先进的水平。此外，我们发现我们的预训练有利于泛化，这在低资源 TTS 任务中尤其明显。

Back Transcription as a Method for Evaluating Robustness of Natural Language Understanding Models to Speech Recognition Errors
Authors Marek Kubis, Pawe Sk rzewski, Marcin Sowa ski, Tomasz Zi tkiewicz
在口语对话系统中，NLU 模型之前是语音识别系统，这可能会降低自然语言理解的性能。本文提出了一种研究语音识别错误对自然语言理解模型性能影响的方法。所提出的方法将反转录过程与细粒度技术相结合，用于对影响 NLU 模型性能的错误进行分类。该方法依赖于使用合成语音进行 NLU 评估。

A Novel Approach for Object Based Audio Broadcasting
Authors Mohammad Reza Hasanabadi
基于对象的音频 OBA 提供了一种新型音频体验，为观众提供个性化和定制他们的聆听体验，并让他们选择收听什么内容以及如何收听音频内容。 OBA可以应用于不同的平台，例如广播、流媒体和电影声音。本文提出了一种在制作端创建基于对象的音频的新颖方法。此处的方法逐个示例地介绍基于对象的音频 SSOBA 嵌入。 SSOBA 放置音频对象样本的方式使观众可以根据自己的兴趣和需求轻松个性化他们选择的音频源。 SSOBA 是一项额外服务，而不是替代服务，因此它也兼容传统音频播放器。 SSOBA 的最大优点是它不需要广播链中任何特殊的额外硬件，因此很容易实现并为传统播放器和解码器配备增强的功能。输入音频对象、输出通道数和采样率是影响 SSOBA 性能并指定其无损或有损的三个重要因素。 SSOBA在解码器侧采用插值来补偿被消除的样本。进行主观和客观实验来评估每一步的输出结果。编码步骤后进行的 MUSHRA 主观实验表明，SSOBA 具有多达五个对象的良好质量性能。解码和插值后进行的信噪比测量和客观实验表明音频对象的恢复和分离取得了显着的成功。

Generative Pre-training for Speech with Flow Matching
Authors Alexander H. Liu, Matt Le, Apoorv Vyas, Bowen Shi, Andros Tjandra, Wei Ning Hsu
近年来，生成模型因其在需要估计和采样数据分布以生成高保真合成数据的任务中取得的显着成功而受到越来越多的关注。在语音领域，文本到语音合成和神经声码器是生成模型大放异彩的好例子。虽然生成模型已应用于语音的不同应用，但不存在直接对语音进行建模的通用生成模型。在这项工作中，我们向这个方向迈出了一步，展示了单个预训练的生成模型可以适应不同的下游任务，并具有强大的性能。具体来说，我们使用流匹配和屏蔽条件，在 6 万小时的未转录语音上预训练了一个名为 SpeechFlow 的生成模型。实验结果表明，预训练的生成模型可以使用特定于任务的数据进行微调，以匹配或超越现有的语音增强、分离和合成专家模型。

IA Para el Mantenimiento Predictivo en Canteras: Modelado
Authors Fernando Marcos, Rodrigo Tamaki, Mateo C mara, Virginia Yag e, Jos Luis Blanco
对原材料的依赖，特别是在采矿业，是当今经济的一个关键部分。骨料至关重要，是仅次于水的第二大使用原材料。该行业的数字化转型是优化运营的关键。然而，由于该行业、机械和环境条件的特殊性，监督和维护的预测和纠正是该行业很少探讨的挑战。尽管在其他场景中使用声学和接触传感器进行监控取得了成功，但所有这些都是如此。我们提出了一种无监督学习方案，该方案在一组声音记录上训练变分自动编码器模型。这是在加工厂运营期间收集的第一个此类数据集，包含来自加工线不同点的信息。我们的结果证明了该模型能够在潜在空间中重建和表示记录的声音、操作条件以及不同设备之间的差异。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页

pic from pexels.com