AI绘画数字人之声音克隆:无样本,1分钟样本完善克隆声音,开源!
大家好,我是强哥迩来在搞克隆人,发现一个很好的声音克隆项目,测试了一下,效果真不错,可以直接用,也可以微调后使用,好了废话不多说,直接上干活,哈哈~~
首先这次直接说项目工具:GPT-SoVITS (安装包下载请看下方扫描获取)
项目功能先容:
[*] 零样本文本到语音(TTS): 输入 5 秒的声音样本,即刻体验文本到语音转换。
[*] 少样本 TTS: 仅需 1 分钟的训练数据即可微调模型,提升声音相似度和真实感。
[*] 跨语言支持: 支持与训练数据集不同语言的推理,目前支持英语、日语和中文。
[*] WebUI 工具: 集成工具包罗声音伴奏分离、自动训练集分割、中文自动语音辨认(ASR)和文本标注,帮忙初学者创建训练数据集和 GPT/SoVITS 模型
我给大家预备了一份完整版的AI绘画全套学习资料,已经上传CSDN,朋友们假如需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】
https://img-blog.csdnimg.cn/img_convert/7e6a4e8db41b551812a4c4f0ccd6be54.png
声音克隆训练过程
这里针对win cuda 先容,下载我给你的一键包后点击go-webui.bat,直接启动
https://img-blog.csdnimg.cn/img_convert/419d8647a82faeb5c76fa640702937ea.png
启动后界面如下:
https://img-blog.csdnimg.cn/img_convert/5e7787da5bd1794d61179afbb18065f9.png
首先从数据开始:
假如你想克隆一个人的声音,你可以找到一段这个人的演讲灌音,大概视频,固然不同资源需要不同的处理
假如是视频,可以使用 人声分离,如下图,点击这个就会弹出
https://img-blog.csdnimg.cn/img_convert/bfff2f0a45bbd83597ee1574fd7c5256.png
弹出如下界面,可以对你的视频提取人声
https://img-blog.csdnimg.cn/direct/66a076e4bff3420fa5975284f0d52d0d.png
这个提取部分,作者集成了好几个模型,都可以根据需求选择,简朴说一下
模型分为三类:
1、保留人声:不带和声的音频选这个,对主人声保留比HP5更好。内置HP2和HP3两个模型,HP3可能稍微漏伴奏但对主人声保留比HP2稍微好一丁点;
2、仅保留主人声:带和声的音频选这个,对主人声可能有减弱。内置HP5一个模型;
3、去混响、去耽误模型(by FoxJoy):
(1)MDX-Net(onnx_dereverb):对于双通道混响是最好的选择,不能去除单通道混响;
(234)DeEcho:去除耽误效果。Aggressive比Normal去除得更彻底,DeReverb额外去除混响,可去除单声道混响,但是对高频重的板式混响去不干净。
去混响/去耽误,
我是找了一段互联网大佬的演讲声音,这里就不需要人声分离了,哈哈~
回到主界面,直接举行声音切割
https://img-blog.csdnimg.cn/direct/cf2e70e3b9034a149be1a8be293d37d0.png
首先输入原音频的文件夹路径(不要有中文),假如刚刚颠末了UVR5处理那么就是uvr5_opt这个文件夹。然后建议可以调解的参数有min_length、min_interval和max_sil_kept单位都是ms。min_length根据显存巨细调解,显存越小调越小。min_interval根据音频的匀称间隔调解,假如音频太麋集可以适当调低。max_sil_kept会影响句子的连贯性,不同音频不同调解,不会调的话保持默认。其他参数不建议调解。
接下来是,语音转笔墨,使用ASR,这个地方 ASR模型,你可以选中文大概多语种,多语种用的Faster Whisper,这个作者没有集成,使用时会自动下载
https://img-blog.csdnimg.cn/img_convert/dd32c0faf9a57f2d5aeeec8b1be0b56f.png
输入上一步切割的语音,直接点击启动,然后静待一会
作者还给了 语音文本校对标注工具 假如转换的不对,可以人工校对
https://img-blog.csdnimg.cn/img_convert/ef6dfb3b6689d851f6695401785bea7a.png
选择打开后自动弹出界面,很简朴这里步赘述了,哈哈~
接下来是数据格式化和微调了
https://img-blog.csdnimg.cn/img_convert/5ab582ef60edaddd920d8f7bcb3bdc11.png
如上图,在TTS卡下,给这次训练一个名字,不要中文,不要中文,不要中文,重要的事情说三遍,训练格式化,需要输入,转换的文本和音频数据
然后举行三项处理
https://img-blog.csdnimg.cn/img_convert/9259a096e6161c9ea4d7935253e977fe.png
接下来开始微调训练
https://img-blog.csdnimg.cn/img_convert/1804f9639a3b0d6a6453de376c5a8542.png
注意需要根据你的卡的巨细,选择 bs和epoch,然后开启SoVITS训练,我们只克隆语音,以是没有训练GPT
训练完后,模型会生存在GPT-SoVITS-beta\logs\下,有两个模型,G和D,
测试效果
训练完固然要测试一下,哈哈~
https://img-blog.csdnimg.cn/img_convert/eea1e8b1980398c6bfd9669c9df9203f.png
训练完后,在上图这个地方,点击【革新模型路径】,模型列表中就会有你的新模型了,然后勾选 【是否开启TTS推理webui】,会自动弹出使用界面
https://img-blog.csdnimg.cn/direct/99d75a9ffedf4fe1b00cd25cd102f9f5.png
然后上传一段参考音频,建议是数据集中的音频。最好5秒。参考音频很重要!会学习语速和语气,请认真选择。参考音频的文本是参考音频说什么就填什么,语种也要对应。
然后上传一段参考音频,建议是数据集中的音频。最好5秒。参考音频很重要!会学习语速和语气,请认真选择。参考音频的文本是参考音频说什么就填什么,语种也要对应。
训练后效果:
对比效果还是有一定提升的,主要是我训练轮数也不高,大家可以自己试试,哈哈,~ 效果出乎意料,中英文都可以幺~
安装包下载请看下方扫描获取哦~
学好 AI绘画 不论是就业还是做副业赚钱都不错,但要学会 AI绘画 还是要有一个学习规划。最后大家分享一份全套的 AI绘画 学习资料,给那些想学习 AI绘画 的小同伴们一点资助!
对于0基础小白入门:
假如你是零基础小白,想快速入门AI绘画是可以思量的。
一方面是学习时间相对较短,学习内容更全面更集中。
二方面是可以找到适合自己的学习方案
包罗:Stable diffusion安装包、stable diffusion零基础入门全套PDF,提示词宝典、各种模型插件视频学习教程。带你从零基础体系性的学好AI绘画!
https://img-blog.csdnimg.cn/img_convert/7e6a4e8db41b551812a4c4f0ccd6be54.png 零基础AI绘画学习资源先容
页:
[1]