论坛
潜水/灌水快乐,沉淀知识,认识更多同行。
ToB圈子
加入IT圈,遇到更多同好之人。
朋友圈
看朋友圈动态,了解ToB世界。
ToB门户
了解全球最新的ToB事件
博客
Blog
排行榜
Ranklist
文库
业界最专业的IT文库,上传资料也可以赚钱
下载
分享
Share
导读
Guide
相册
Album
记录
Doing
搜索
本版
文章
帖子
ToB圈子
用户
免费入驻
产品入驻
解决方案入驻
公司入驻
案例入驻
登录
·
注册
只需一步,快速开始
账号登录
立即注册
找回密码
用户名
Email
自动登录
找回密码
密码
登录
立即注册
首页
找靠谱产品
找解决方案
找靠谱公司
找案例
找对的人
专家智库
悬赏任务
圈子
SAAS
IT评测·应用市场-qidao123.com
»
论坛
›
软件与程序人生
›
移动端开发
›
【AI声音克隆】教你怎样“夺取“别人的声音!GPT-SoVITS ...
【AI声音克隆】教你怎样“夺取“别人的声音!GPT-SoVITS整合包发布(WIN/MAC) ...
雁过留声
金牌会员
|
2024-7-25 15:13:27
|
显示全部楼层
|
阅读模式
楼主
主题
973
|
帖子
973
|
积分
2919
马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。
您需要
登录
才可以下载或查看,没有账号?
立即注册
x
本日给大家分享一个声音克隆的项目。我们只要上传一分钟的语音,就可以完美复刻任意角色的语音语气、语调,实现声音情感的真实复刻,而且它还支持中日英等多个语种。我为大家制作了
Windows
版本和
Mac
版本的整合包
(文章末了自取)
首先听下我用了四位朋友的一分钟的语音素材来练习的音频效果。
声音演示
下面我分享制作流程,篇幅较长,多图,但是步调很简单。
安装与启动
Win:
Windows用户将下载好的压缩包解压到本地目次,双击启动器.exe即可。
耐烦等待一会儿,会自动打开一个网页。这就是步调的主界面。
Mac:
Mac用户由于权限设置会比Windows相对麻烦些,首先解压压缩包,来到项目路径下,我们看到这两个文件是文稿形式,这时我们必要开启下文件权限才可以利用。
回到最外层文件夹,也就是你解压包所在的目次。
打开终端。
输入指令
sudo chmod -R 777
,然后将文件夹拖拽进终端内。
完备命令,别忘了777后有个空格
之后按下回车。这时必要输入屏幕密码,我们输入密码后按回车。(输入的时间密码不会体现)
实行完毕,我们可以将终端窗口关闭。
再次回到项目目次内,可以看到刚才的两个文件已经变成Unix可实行文件的格式。这就代表成功了,如果这两个文件没变成Unix可实行文件的格式,你必要检查下上一步是否精确实行。
接下来,Mac用户还必要开启允许任何泉源APP的权限才可以完全利用。如果你不知道你的电脑是否开启了这个选项,你可以进入体系设置--隐私与安全性--安全性,查看是否是任何泉源选项。
如果你已经开启,请忽略下面的步调,如果不是任何泉源选项,根据下面步调开启。
双击泉源开启。
选择打开。
提示必要输入锁屏密码。输入完毕后按回车。
体现开启成功,可以将终端窗口关掉。
到这里为止,Mac用户利用前的权限都开启了。后续利用无需重复实行以上步调,直接点击启动器启动即可。
双击启动器。弹出的扣问框点击打开。
耐烦等待一会儿,会自动打开一个网页。这就是步调的主界面。
开始操纵
从这里开始,Windows用户和Mac用户的操纵步调是一样的。
分三大步调:
数据集处置惩罚。
模型练习。
推理模型。
数据集处置惩罚
请认真准备数据集!以免背面出现各种报错,和炼出不理想的模型!好的数据集是炼出好的模型的基础!
首先我们必要准备一段音频文件,准备一段人物说话的音频即可。
音频标准:
音频里不要有嘈杂的环境音、噪音、背景音乐等。
音频长度30s-60s。
音频格式为wav。
下面是我用的音频,可以参考下:
原音频参考
如果你的音频里有背景音乐等杂音,必要实行下面步调进行处置惩罚,如果没有请忽略。
音频处置惩罚
勾选此选项,然后会自动进入声音处置惩罚界面。
第一步拖拽必要处置惩罚的音频。第二步根据说明来选择对应的模型,一般选择HP3就足够了。第三步选择导出文件格式为WAV。
然后点击转换,耐烦等待一会儿。
当输出信息这一栏有Success字样就完成了音频的处置惩罚。
可以在项目路径下:output--uvr5_opt文件夹下找到处置惩罚的两个音频文件。一个是伴奏,一个是人声。我们练习必要用到人声部分。
处置惩罚完毕后我们来到主界面将这个选项关闭。
音频切分
这里填入准备好的音频路径。然后点击开启语音切割。
切分好的音频在GPT-SoVITS-main/output/slicer_opt文件夹内。
音频降噪
这一步根据你的音频质量来,如果噪音不大,此步调可以忽略不实行。
这里填入上一步切分好的音频路径。点击开启语音降噪。
降噪完成。
降噪完成的音频文件在GPT-SoVITS-main/output/denoise_opt文件夹内。
音频打标
这一步只必要填写输入文件夹路径。如果你音频降噪过,那么是
GPT-SoVITS-main/output/denoise_opt
文件夹,如果你切分了没有降噪,那么是
GPT-SoVITS-main/output/slicer_opt
文件夹。其他选项保持默认,然后点击
开启离线批量ASR
。
增补:这里模型选项默认是中文,如果你想练习中英肴杂的模型、日文、韩文等其他语言。你必要在ASR模型选项选择Faster Whisper (多语种),ASR语言设置选择auto。
校对标注
这一步比力费时间,如果不追求极致效果,可以忽略这一步。
填入标注文件的路径。
GPT-SoVITS-main/output/asr_opt/denoise_opt.list
勾选是否开启打标WebUI
然后会跳转到打标网页,红框区域是根据音频生成对应的文字。黄框区域是对应的音频。这一步要做的是试听,然后根据音频来修改前面的文字和断句。
好比我们根据音频在句子中增加,来断句。
修改前:
修改后:
修改完后必要点击Submit Text和Save File来保存。
如果你的音频文件很长,你必要进行翻页操纵对每句话进行校对,Previous Index 和 Next Index是上一页和下一页。
当你校对完成后,记得保存,随后关闭这个页面就可以了。回到主界面,关闭勾选。
output目次文件夹先容。没实行过降噪或者是音频处置惩罚就不会有denoise_opt、uvr5_opt文件夹。
模型练习
练习集格式化
接下来开始练习模型,点击GPT-SoVITS-TTS进入新的界面。
选择练习格式化工具这一栏。在练习模型前我们必要对数据集进行修改操纵。
这里填写标注文件的路径
GPT-SoVITS-main/output/asr_opt/denoise_opt.list
点击一键三连。其他开启文本获取、开启ssl提取、开启语义token提取选项不用实行。一键三连会自动实行上述步调。
实行完毕后我们可以看到
GPT-SoVITS-main/logs
文件夹下会生成一个跟模型名一样的文件夹。
(模型名称可以修改,不要用中文)
微调练习
进入微调练习这一栏
这里必要调解SoVITS练习参数和GPT练习参数,每张显卡的batch_size和总练习轮数我这里设置的是
15
,总练习轮数一般设置成
10
。这两个参数根据电脑配置来自行调解。练习轮数千万不能高于
20
。学习率保持默认值。保存频率设置为
5
。其他选项为默认。
然后先点开启SoVITS练习,练习完后再点开启GPT练习,不可以一起练习
(除非你有两张卡)
!如果中途中断了,直接再点开始练习就好了,会从最近的保存点开始练习。
两个练习都完成后我们可以去模型文件夹确认下。两个练习生成的模型分别在GPT-SoVITS-main/SoVITS_weights 和 GPT-SoVITS-main/GPT_weights文件夹内。
模型推理
来到推理界面
点击刷新模型路径。
选择对应的模型,
e代表轮数,s代表步数。
不是轮数越高越好,这里我选择了最低的轮数
5
进行推理。如果你选择轮数为
5
的推理后的音频效果不理想,可以选择更高轮数的模型。
勾选打开推理界面。
推理界面
确认下模型是否跟我们刚才选的一样。
然后上传一段参考音频,建议是数据集中的音频。最好5秒。
参考音频很重要!会学习语速和语气,请认真选择。
这里我选择的是降噪切分后的音频。
参考音频的文本是参考音频说什么就填什么,语种也要对应。
接着就是输入要合成的文本了,留意语种要对应。切分选择凑50字统统,没超过50字的不会切。然后点击合成语音。
生成的语音
生成音频
如果你要合成的文本中有英文,你必要选择对应的语种。
如果你发现选择中英肴杂或者其他语种推理的音频效果不太理想,你的准备音频可以是中英肴杂的,中文掺杂着英文,然后生成标注的时间就选择多语种。
至此,我们练习好了一个声音模型并可以用它生成任何音频。
整合包获取
关注公众号,发送0301关键字获取整合包
常见问题:
怎样练习第二个模型?
将以下几个路径下的文件移走或者删除。否则第二次练习的时间会造成数据肴杂。
标注文件夹
GPT-SoVITS-main/output/asr_opt
噪音音频切分文件夹
GPT-SoVITS-main/output/denoise_opt
音频切分文件夹
GPT-SoVITS-main/output/slicer_opt
如果你第二次不修改模型名字,那你必要将GPT-SoVITS-main/logs/文件夹内的模型同名文件夹移走或删除。也可以直接修改模型名字。
怎样分享我练习的模型?
将下面这两个路径下的文件粘贴到别人的同样的目次下即可。
GPT-SoVITS-main/SoVITS_weights
GPT-SoVITS-main/GPT_weights
怎么样才算练习好一个模型?
这个问题其实没有一个准确答案,模型的练习取决于你的数据集质量、时长,轮数,等因素。每次练习完成后听下看看是否满足你的心里预期。如果你的模型推理出来的效果一直不理想,你应该重点关注下你的数据集是否有问题。
感谢
本次的分享竣事啦,末了感谢樱子老师、阳光老师、贝贝老师、翅膀同学提供的音频素材。
本文出现的全部音频仅供参考,未经授权禁止商用。
如果本文对您有帮助,还请点个赞,感谢您的阅读。
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
回复
使用道具
举报
0 个回复
倒序浏览
返回列表
快速回复
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
or
立即注册
本版积分规则
发表回复
回帖并转播
回帖后跳转到最后一页
发新帖
回复
雁过留声
金牌会员
这个人很懒什么都没写!
楼主热帖
XShell免费版的安装配置教程以及使用教 ...
阿里云体验有奖:如何将 PolarDB-X 与 ...
day02-代码实现01
【如何优化她】教你如何定位不合理的SQ ...
微服务大行其道的今天,Service Mesh是 ...
十年技术进阶路,让我明白了三件要事( ...
常用类-LocalDate、LocalTime、LocalDa ...
无需支付688苹果开发者账号,xcode13打 ...
鸿蒙3.0来了,这次,我真的想批评鸿蒙 ...
Elasticsearch 入门实战(5)--Java API ...
标签云
AI
运维
CIO
存储
服务器
浏览过的版块
DevOps与敏捷开发
虚拟化与私有云
Mysql
MES
.Net
Oracle
快速回复
返回顶部
返回列表