Python让AI虚拟主播接入微软Azure语音合成并精准嘴型同步-CFANZ编程社区

Python让AI虚拟主播接入微软Azure语音合成并精准嘴型同步

上一篇文字中讲了利用Python实现利用微软Azure无限免费将文本转mp3格式的音频文件并下载到本地。微软Azure TTS的优点不用多说，今天将讲如何利用Python将其接入到虚拟主播中来。

订阅专栏，我将免费向您提供具体的方案。

看过专栏其他文章的朋友，一定知道，我们使用的虚拟主播软件为Motionface，其支持一些简单好用的接口。我们先看看Motionface的效果：

我们看到了其要求是需要wav格式的音频来驱动嘴型同步,但是微软Azure语音合成为mp3格式，这时，我们需要将mp3音频文件转换成wav的音频切采样率为11025。

这个转换过程是利用ffmeg，通过python脚本调用实现。

ffmpeg -i mp3\output_1649494987952.mp3 -f wav -ac 1 -ar 16000 ./output_1649494987952.wav

开始python代码吧！

from ffmpy import FFmpeg as mpy
import os 

def read_folder(mp3_folder, wav_folder):
    '''
    文件夹读取函数
    :param mp3_folder:
    :param wav_folder:

0 条评论

Python让AI虚拟主播接入微软Azure语音合成并精准嘴型同步

Python利用微软Azure免费的语音合成TTS源码分享