移动端开发【AI声音克隆】教你怎样“夺取“别人的声音!GPT-SoVITS整合包发布(WIN/MAC)

雁过留声 发表于 2024-7-25 15:13:27

【AI声音克隆】教你怎样“夺取“别人的声音!GPT-SoVITS整合包发布(WIN/MAC)

本日给大家分享一个声音克隆的项目。我们只要上传一分钟的语音，就可以完美复刻任意角色的语音语气、语调，实现声音情感的真实复刻，而且它还支持中日英等多个语种。我为大家制作了Windows版本和Mac版本的整合包（文章末了自取）
首先听下我用了四位朋友的一分钟的语音素材来练习的音频效果。

声音演示

下面我分享制作流程，篇幅较长，多图，但是步调很简单。
安装与启动

Win：

Windows用户将下载好的压缩包解压到本地目次，双击启动器.exe即可。

https://img-blog.csdnimg.cn/img_convert/cc205fa0c3ef70fb93a5a759ac804ea1.png

耐烦等待一会儿，会自动打开一个网页。这就是步调的主界面。

https://img-blog.csdnimg.cn/img_convert/c89f1a95d2d5a5430f7c8055fe9ea70b.png

Mac：

Mac用户由于权限设置会比Windows相对麻烦些，首先解压压缩包，来到项目路径下，我们看到这两个文件是文稿形式，这时我们必要开启下文件权限才可以利用。

https://img-blog.csdnimg.cn/img_convert/971dc005fe38913293c5ecfdcf220f77.png

回到最外层文件夹，也就是你解压包所在的目次。

https://img-blog.csdnimg.cn/img_convert/0881362f9f777be07cc7097089a27c68.png

打开终端。

https://img-blog.csdnimg.cn/img_convert/8420f68359c8f553840fb2bf831eeff2.png

输入指令sudo chmod -R 777 ，然后将文件夹拖拽进终端内。

https://img-blog.csdnimg.cn/img_convert/eed91a01151574ad2326cf04418a7016.png

完备命令，别忘了777后有个空格

https://img-blog.csdnimg.cn/img_convert/dd45052227a2ecd48fb61b5320bfbf16.png

之后按下回车。这时必要输入屏幕密码，我们输入密码后按回车。（输入的时间密码不会体现）

https://img-blog.csdnimg.cn/img_convert/469b20ab569d0b182b04132f256adb4d.png

实行完毕，我们可以将终端窗口关闭。

https://img-blog.csdnimg.cn/img_convert/7d5208983d0b21cc4a6144d817e57596.png

再次回到项目目次内，可以看到刚才的两个文件已经变成Unix可实行文件的格式。这就代表成功了，如果这两个文件没变成Unix可实行文件的格式，你必要检查下上一步是否精确实行。

https://img-blog.csdnimg.cn/img_convert/a0e3fe03c223fea9af22e0ac4286c4ab.png

接下来，Mac用户还必要开启允许任何泉源APP的权限才可以完全利用。如果你不知道你的电脑是否开启了这个选项，你可以进入体系设置--隐私与安全性--安全性，查看是否是任何泉源选项。

https://img-blog.csdnimg.cn/img_convert/0efd8f88de8c36f464a168ff53d6e823.png

如果你已经开启，请忽略下面的步调，如果不是任何泉源选项，根据下面步调开启。
双击泉源开启。

https://img-blog.csdnimg.cn/img_convert/1cb18a03ae17c3cdeecbabf7623e1b78.png

选择打开。

https://img-blog.csdnimg.cn/img_convert/643f505b41ed54b60df5ccbdf9abe261.png

提示必要输入锁屏密码。输入完毕后按回车。

https://img-blog.csdnimg.cn/img_convert/ab909263bbfbee1822749899348a90d4.png

体现开启成功，可以将终端窗口关掉。

https://img-blog.csdnimg.cn/img_convert/1de59e5a5cb1dc3f5a5c3c1da8fb3400.png

到这里为止，Mac用户利用前的权限都开启了。后续利用无需重复实行以上步调，直接点击启动器启动即可。
双击启动器。弹出的扣问框点击打开。

https://img-blog.csdnimg.cn/img_convert/8498207d7dbc1e9cf80f1950674e13e1.png

https://img-blog.csdnimg.cn/img_convert/7c126e87a89900baef1184faaa6e407b.png

耐烦等待一会儿，会自动打开一个网页。这就是步调的主界面。

https://img-blog.csdnimg.cn/img_convert/39ffef1f3bacf45fb77eb4f0082ef6d8.png

开始操纵

从这里开始，Windows用户和Mac用户的操纵步调是一样的。
分三大步调：

[*] 数据集处置惩罚。
[*] 模型练习。
[*] 推理模型。
数据集处置惩罚

请认真准备数据集！以免背面出现各种报错，和炼出不理想的模型！好的数据集是炼出好的模型的基础！
首先我们必要准备一段音频文件，准备一段人物说话的音频即可。
音频标准：

[*] 音频里不要有嘈杂的环境音、噪音、背景音乐等。
[*] 音频长度30s-60s。
[*] 音频格式为wav。
下面是我用的音频，可以参考下：
原音频参考

如果你的音频里有背景音乐等杂音，必要实行下面步调进行处置惩罚，如果没有请忽略。
音频处置惩罚

勾选此选项，然后会自动进入声音处置惩罚界面。

https://img-blog.csdnimg.cn/img_convert/ca5eb242710ce304fd67667c96727179.png

第一步拖拽必要处置惩罚的音频。第二步根据说明来选择对应的模型，一般选择HP3就足够了。第三步选择导出文件格式为WAV。

https://img-blog.csdnimg.cn/img_convert/c129ba7f4f03a558e4f38b37e5a6a890.png

然后点击转换，耐烦等待一会儿。

https://img-blog.csdnimg.cn/img_convert/83a694390a558684aa8eaf373b43b441.png

当输出信息这一栏有Success字样就完成了音频的处置惩罚。

https://img-blog.csdnimg.cn/img_convert/77a7fe29ac089d288fa9e88c499228c3.png

可以在项目路径下：output--uvr5_opt文件夹下找到处置惩罚的两个音频文件。一个是伴奏，一个是人声。我们练习必要用到人声部分。

https://img-blog.csdnimg.cn/img_convert/c9a78eddcc1e10d547cb7d5893ad50f8.png

处置惩罚完毕后我们来到主界面将这个选项关闭。

https://img-blog.csdnimg.cn/img_convert/7a82e36721088685f03b976315f27a1b.png
音频切分

这里填入准备好的音频路径。然后点击开启语音切割。

https://img-blog.csdnimg.cn/img_convert/60d80b760489b1809c72fdcadc6b5436.png

切分好的音频在GPT-SoVITS-main/output/slicer_opt文件夹内。

https://img-blog.csdnimg.cn/img_convert/3d77030ed765a16a2f01906e322eb98a.png

音频降噪

这一步根据你的音频质量来，如果噪音不大，此步调可以忽略不实行。
这里填入上一步切分好的音频路径。点击开启语音降噪。

https://img-blog.csdnimg.cn/img_convert/f406b764e3631d8d5bf83e4e59c89346.png

降噪完成。

https://img-blog.csdnimg.cn/img_convert/7630a775d590c65219ba9008638eb624.png

降噪完成的音频文件在GPT-SoVITS-main/output/denoise_opt文件夹内。

https://img-blog.csdnimg.cn/img_convert/55746e076d19d2d660d2e9b0e6688b1c.png

音频打标

这一步只必要填写输入文件夹路径。如果你音频降噪过，那么是GPT-SoVITS-main/output/denoise_opt文件夹，如果你切分了没有降噪，那么是GPT-SoVITS-main/output/slicer_opt文件夹。其他选项保持默认，然后点击开启离线批量ASR。

https://img-blog.csdnimg.cn/img_convert/c176f63a1026a869f5ad142d77ed5e47.png

增补：这里模型选项默认是中文，如果你想练习中英肴杂的模型、日文、韩文等其他语言。你必要在ASR模型选项选择Faster Whisper (多语种)，ASR语言设置选择auto。

https://img-blog.csdnimg.cn/img_convert/19685c464a4194d085712e491b9869dd.png

校对标注

这一步比力费时间，如果不追求极致效果，可以忽略这一步。
填入标注文件的路径。GPT-SoVITS-main/output/asr_opt/denoise_opt.list

https://img-blog.csdnimg.cn/img_convert/516e96a6a017be4e72ce8faa0309f175.png

勾选是否开启打标WebUI

https://img-blog.csdnimg.cn/img_convert/b391fd28459712d60beb0a931f82473d.png

然后会跳转到打标网页，红框区域是根据音频生成对应的文字。黄框区域是对应的音频。这一步要做的是试听，然后根据音频来修改前面的文字和断句。

https://img-blog.csdnimg.cn/img_convert/3c3e8c2ade0dc9792f86287686fbd85d.png

好比我们根据音频在句子中增加，来断句。
修改前：
https://img-blog.csdnimg.cn/img_convert/ff322f7f1e4f1e6d5f363eff4d410142.png
修改后：

https://img-blog.csdnimg.cn/img_convert/99c2e14ee5b99698c2805a5ab128caff.png

修改完后必要点击Submit Text和Save File来保存。

https://img-blog.csdnimg.cn/img_convert/8745607af3a9e8a5a95fdde4595ed804.png

如果你的音频文件很长，你必要进行翻页操纵对每句话进行校对，Previous Index 和 Next Index是上一页和下一页。

https://img-blog.csdnimg.cn/img_convert/bcb366caf0625d132837fbb619055735.png

当你校对完成后，记得保存，随后关闭这个页面就可以了。回到主界面，关闭勾选。

https://img-blog.csdnimg.cn/img_convert/96e1efc30897ec6e50d642c139b4497b.png

output目次文件夹先容。没实行过降噪或者是音频处置惩罚就不会有denoise_opt、uvr5_opt文件夹。

https://img-blog.csdnimg.cn/img_convert/ae34373e75ddf398b0f73445edf726b4.png

模型练习

练习集格式化

接下来开始练习模型，点击GPT-SoVITS-TTS进入新的界面。

https://img-blog.csdnimg.cn/img_convert/94ff1eb4521fc2bd2c77cff40067c222.png

选择练习格式化工具这一栏。在练习模型前我们必要对数据集进行修改操纵。

https://img-blog.csdnimg.cn/img_convert/c6ec949e84d69fe0f6032559f5dc3584.png

这里填写标注文件的路径GPT-SoVITS-main/output/asr_opt/denoise_opt.list

https://img-blog.csdnimg.cn/img_convert/0872c6423b38450ae5944f72b8cfea59.png

点击一键三连。其他开启文本获取、开启ssl提取、开启语义token提取选项不用实行。一键三连会自动实行上述步调。

https://img-blog.csdnimg.cn/img_convert/d8a538ba7a579c0009b8b56218ade978.png

实行完毕后我们可以看到GPT-SoVITS-main/logs文件夹下会生成一个跟模型名一样的文件夹。（模型名称可以修改，不要用中文）

https://img-blog.csdnimg.cn/img_convert/3ec111510b142fa5d1bba7ecf3db62d1.png

https://img-blog.csdnimg.cn/img_convert/715e62d1ab5a66449fad93844e22c038.png

微调练习

进入微调练习这一栏

https://img-blog.csdnimg.cn/img_convert/959b322fb441629b5ca39b85169cdfb1.png

这里必要调解SoVITS练习参数和GPT练习参数，每张显卡的batch_size和总练习轮数我这里设置的是15，总练习轮数一般设置成10。这两个参数根据电脑配置来自行调解。练习轮数千万不能高于20。学习率保持默认值。保存频率设置为5。其他选项为默认。

https://img-blog.csdnimg.cn/img_convert/1caa14178d36a41c3d9c034f83153cc4.png

然后先点开启SoVITS练习，练习完后再点开启GPT练习，不可以一起练习（除非你有两张卡）！如果中途中断了，直接再点开始练习就好了，会从最近的保存点开始练习。
两个练习都完成后我们可以去模型文件夹确认下。两个练习生成的模型分别在GPT-SoVITS-main/SoVITS_weights 和 GPT-SoVITS-main/GPT_weights文件夹内。

https://img-blog.csdnimg.cn/img_convert/7e0b739dc5285861786f86758ef1b01c.png

https://img-blog.csdnimg.cn/img_convert/d9cf42c930d624a7842138db38a93785.png

模型推理

来到推理界面

https://img-blog.csdnimg.cn/img_convert/6b8a4ff3457a243e277fb7e5d5625c66.png

点击刷新模型路径。

https://img-blog.csdnimg.cn/img_convert/8b58ac6f92dccf088330c1900dffbd7f.png

选择对应的模型，e代表轮数，s代表步数。不是轮数越高越好，这里我选择了最低的轮数5进行推理。如果你选择轮数为5的推理后的音频效果不理想，可以选择更高轮数的模型。

https://img-blog.csdnimg.cn/img_convert/fe6051fc97d8f9d6e9772600db25a819.png

勾选打开推理界面。

https://img-blog.csdnimg.cn/img_convert/24caf4ab9cc7670852c323189fe36bd2.png

推理界面

https://img-blog.csdnimg.cn/img_convert/a1fa0d67df44d288eaef1800557b4959.png

确认下模型是否跟我们刚才选的一样。

https://img-blog.csdnimg.cn/img_convert/7842588e3464be22dd4209d69ac7c864.png

然后上传一段参考音频，建议是数据集中的音频。最好5秒。参考音频很重要！会学习语速和语气，请认真选择。

https://img-blog.csdnimg.cn/img_convert/d3ae5bd2d1239af9c1fb73728cf88f7e.png

这里我选择的是降噪切分后的音频。

https://img-blog.csdnimg.cn/img_convert/3fc165242e86f8e4ff89680b16ffbe8e.png

参考音频的文本是参考音频说什么就填什么，语种也要对应。

https://img-blog.csdnimg.cn/img_convert/4587d8166c0fdfd0af4ea3ba3d7699bf.png

接着就是输入要合成的文本了，留意语种要对应。切分选择凑50字统统，没超过50字的不会切。然后点击合成语音。

https://img-blog.csdnimg.cn/img_convert/9d91319122060581f5726ee021d67f4b.png

生成的语音

生成音频

如果你要合成的文本中有英文，你必要选择对应的语种。

https://img-blog.csdnimg.cn/img_convert/258ced45c3693b25630644812bb6e596.png

https://img-blog.csdnimg.cn/img_convert/053a79397973a43aec7ab8d91057daee.png

https://img-blog.csdnimg.cn/img_convert/b4a590a05b5d43abdd3852554c93709a.png

如果你发现选择中英肴杂或者其他语种推理的音频效果不太理想，你的准备音频可以是中英肴杂的，中文掺杂着英文，然后生成标注的时间就选择多语种。

https://img-blog.csdnimg.cn/img_convert/bc558c8a867dbbc3b6d128cd135cc9f5.png

至此，我们练习好了一个声音模型并可以用它生成任何音频。

整合包获取

https://img-blog.csdnimg.cn/direct/595498e04ee74c5ca98e21b6847eb6eb.gif
关注公众号,发送0301关键字获取整合包
https://img-blog.csdnimg.cn/direct/6859e2b257184d9ab2225f774eb429d2.png

https://img-blog.csdnimg.cn/img_convert/0491831c25d79982aaca807aa1be8409.png

常见问题：

怎样练习第二个模型？

将以下几个路径下的文件移走或者删除。否则第二次练习的时间会造成数据肴杂。
标注文件夹GPT-SoVITS-main/output/asr_opt
噪音音频切分文件夹GPT-SoVITS-main/output/denoise_opt
音频切分文件夹GPT-SoVITS-main/output/slicer_opt
如果你第二次不修改模型名字，那你必要将GPT-SoVITS-main/logs/文件夹内的模型同名文件夹移走或删除。也可以直接修改模型名字。

怎样分享我练习的模型？

将下面这两个路径下的文件粘贴到别人的同样的目次下即可。
GPT-SoVITS-main/SoVITS_weights
GPT-SoVITS-main/GPT_weights

怎么样才算练习好一个模型？

这个问题其实没有一个准确答案，模型的练习取决于你的数据集质量、时长，轮数，等因素。每次练习完成后听下看看是否满足你的心里预期。如果你的模型推理出来的效果一直不理想，你应该重点关注下你的数据集是否有问题。

感谢

本次的分享竣事啦，末了感谢樱子老师、阳光老师、贝贝老师、翅膀同学提供的音频素材。
本文出现的全部音频仅供参考，未经授权禁止商用。
如果本文对您有帮助，还请点个赞，感谢您的阅读。

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

页: [1]

ToB企服应用市场:ToB评测及商务社交产业平台's Archiver

【AI声音克隆】教你怎样“夺取“别人的声音!GPT-SoVITS整合包发布(WIN/MAC)