0
点赞
收藏
分享

微信扫一扫

Python让AI虚拟主播接入微软Azure语音合成并精准嘴型同步

boomwu 2022-04-13 阅读 184

上一篇文字中讲了利用Python实现利用微软Azure无限免费将文本转mp3格式的音频文件并下载到本地。微软Azure TTS的优点不用多说,今天将讲如何利用Python将其接入到虚拟主播中来。

订阅专栏,我将免费向您提供具体的方案。

看过专栏其他文章的朋友,一定知道,我们使用的虚拟主播软件为Motionface,其支持一些简单好用的接口。我们先看看Motionface的效果:

我们看到了其要求是需要wav格式的音频来驱动嘴型同步,但是微软Azure语音合成为mp3格式,这时,我们需要将mp3音频文件转换成wav的音频切采样率为11025。

这个转换过程是利用ffmeg,通过python脚本调用实现。

ffmpeg -i mp3\output_1649494987952.mp3 -f wav -ac 1 -ar 16000 ./output_1649494987952.wav

开始python代码吧!

from ffmpy import FFmpeg as mpy
import os 

def read_folder(mp3_folder, wav_folder):
    '''
    文件夹读取函数
    :param mp3_folder:
    :param wav_folder:
   
举报

相关推荐

0 条评论