一、项目说明
voice clone,是让计算机模仿指定说话人的语音、语调,实现任意输入文本的语音生成。
在足够多样的语音输入训练前提下,模型可以较真实的还原被模仿者。
这是一种深度语音造假技术(deep fake),由CorentinJ 实现,但只用于英文:
github.com/CorentinJ/Real-Time-Voice-Cloning
本API用中文重新做了训练,使用数据集为aidatatang。
二、效果展示
因CSDN无法上传音频,可移步DEMO网址试听:
三、资源入口
API/资源入口,见小程序: 小鹰微智【无需注册,不收集个人信息】
API/资源免费,仅为学习交流使用,请勿商用。
DEMO网址:www.iinside.cn
四、API调用方法
python示例:
import requests
password='6666'
url = "http://www.iinside.cn:7001/api_req"
#接受格式:mp3,wav,m4a,flac
filePath='C:/myvoice.wav'
data={
'password':password,
'reqmode':'voice_clone_ch1',
'text':'听的出来这是谁的声音吗'
}
files=[
('sound_voice_clone_ch1',('myvoice.wav',open(filePath,'rb'),'application/octet-stream'))
]
headers = {}
response = requests.post( url, headers=headers, data=data, files=files)
print(response.text)
1,password: 若与以上代码中不符,可在公众号【智会无界】回复关键字:voice_clone_ch1 获取
2,回应示例:
{"code":0,"data":"http://www.iinside.cn:52001/voice_clone_ch1/2022_04_27_20_03_10.wav"}
data是生成的声音地址,可直接下载
3,可以用Postman进行测试,注意语音文件的KEY为“sound_voice_clone_ch1”
4,只接受mp3, wav, m4a,flac格式语音。