论坛
潜水/灌水快乐,沉淀知识,认识更多同行。
ToB圈子
加入IT圈,遇到更多同好之人。
朋友圈
看朋友圈动态,了解ToB世界。
ToB门户
了解全球最新的ToB事件
博客
Blog
排行榜
Ranklist
文库
业界最专业的IT文库,上传资料也可以赚钱
下载
分享
Share
导读
Guide
相册
Album
记录
Doing
应用中心
搜索
本版
文章
帖子
ToB圈子
用户
免费入驻
产品入驻
解决方案入驻
公司入驻
案例入驻
登录
·
注册
账号登录
立即注册
找回密码
用户名
Email
自动登录
找回密码
密码
登录
立即注册
首页
找靠谱产品
找解决方案
找靠谱公司
找案例
找对的人
专家智库
悬赏任务
圈子
SAAS
qidao123.com技术社区-IT企服评测·应用市场
»
论坛
›
人工智能
›
人工智能
›
AI绘画数字人之声音克隆:无样本,1分钟样本完善克隆声 ...
AI绘画数字人之声音克隆:无样本,1分钟样本完善克隆声音,开源! ...
张国伟
论坛元老
|
2025-3-25 13:20:13
|
显示全部楼层
|
阅读模式
楼主
主题
1627
|
帖子
1627
|
积分
4881
大家好,我是强哥
迩来在搞克隆人,发现一个很好的声音克隆项目,测试了一下,效果真不错,可以直接用,也可以微调后使用,好了废话不多说,直接上干活,哈哈~~
首先这次直接说项目工具:GPT-SoVITS (安装包下载请看下方扫描获取)
项目功能先容:
零样本文本到语音(TTS): 输入 5 秒的声音样本,即刻体验文本到语音转换。
少样本 TTS: 仅需 1 分钟的训练数据即可微调模型,提升声音相似度和真实感。
跨语言支持: 支持与训练数据集不同语言的推理,目前支持英语、日语和中文。
WebUI 工具: 集成工具包罗声音伴奏分离、自动训练集分割、中文自动语音辨认(ASR)和文本标注,帮忙初学者创建训练数据集和 GPT/SoVITS 模型
我给大家预备了一份完整版的AI绘画全套学习资料,已经上传CSDN,朋友们假如需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】
声音克隆训练过程
这里针对win cuda 先容,下载我给你的一键包后点击go-webui.bat,直接启动
启动后界面如下:
首先从数据开始:
假如你想克隆一个人的声音,你可以找到一段这个人的演讲灌音,大概视频,固然不同资源需要不同的处理
假如是视频,可以使用 人声分离,如下图,点击这个就会弹出
弹出如下界面,可以对你的视频提取人声
这个提取部分,作者集成了好几个模型,都可以根据需求选择,简朴说一下
模型分为三类:
1、保留人声:不带和声的音频选这个,对主人声保留比HP5更好。内置HP2和HP3两个模型,HP3可能稍微漏伴奏但对主人声保留比HP2稍微好一丁点;
2、仅保留主人声:带和声的音频选这个,对主人声可能有减弱。内置HP5一个模型;
3、去混响、去耽误模型(by FoxJoy):
(1)MDX-Net(onnx_dereverb):对于双通道混响是最好的选择,不能去除单通道混响;
(234)DeEcho:去除耽误效果。Aggressive比Normal去除得更彻底,DeReverb额外去除混响,可去除单声道混响,但是对高频重的板式混响去不干净。
去混响/去耽误,
我是找了一段互联网大佬的演讲声音,这里就不需要人声分离了,哈哈~
回到主界面,直接举行声音切割
首先输入原音频的文件夹路径(不要有中文),假如刚刚颠末了UVR5处理那么就是uvr5_opt这个文件夹。然后建议可以调解的参数有min_length、min_interval和max_sil_kept单位都是ms。min_length根据显存巨细调解,显存越小调越小。min_interval根据音频的匀称间隔调解,假如音频太麋集可以适当调低。max_sil_kept会影响句子的连贯性,不同音频不同调解,不会调的话保持默认。其他参数不建议调解。
接下来是,语音转笔墨,使用ASR,这个地方 ASR模型,你可以选中文大概多语种,多语种用的Faster Whisper,这个作者没有集成,使用时会自动下载
输入上一步切割的语音,直接点击启动,然后静待一会
作者还给了 语音文本校对标注工具 假如转换的不对,可以人工校对
选择打开后自动弹出界面,很简朴这里步赘述了,哈哈~
接下来是数据格式化和微调了
如上图,在TTS卡下,给这次训练一个名字,不要中文,不要中文,不要中文,重要的事情说三遍,训练格式化,需要输入,转换的文本和音频数据
然后举行三项处理
接下来开始微调训练
注意需要根据你的卡的巨细,选择 bs和epoch,然后开启SoVITS训练,我们只克隆语音,以是没有训练GPT
训练完后,模型会生存在GPT-SoVITS-beta\logs\下,有两个模型,G和D,
测试效果
训练完固然要测试一下,哈哈~
训练完后,在上图这个地方,点击【革新模型路径】,模型列表中就会有你的新模型了,然后勾选 【是否开启TTS推理webui】,会自动弹出使用界面
然后上传一段参考音频,建议是数据集中的音频。
最好5秒
。
参考音频很重要!
会学习
语速和语气
,请认真选择。参考音频的文本是参考音频说什么就填什么,语种也要对应。
然后上传一段参考音频,建议是数据集中的音频。
最好5秒
。
参考音频很重要!
会学习
语速和语气
,请认真选择。参考音频的文本是参考音频说什么就填什么,语种也要对应。
训练后效果:
对比效果还是有一定提升的,主要是我训练轮数也不高,大家可以自己试试,哈哈,~ 效果出乎意料,中英文都可以幺~
安装包下载请看下方扫描获取哦~
学好 AI绘画 不论是就业还是做副业赚钱都不错,但要学会 AI绘画 还是要有一个学习规划。最后大家分享一份全套的 AI绘画 学习资料,给那些想学习 AI绘画 的小同伴们一点资助!
对于0基础小白入门:
假如你是零基础小白,想快速入门AI绘画是可以思量的。
一方面是学习时间相对较短,学习内容更全面更集中。
二方面是可以找到适合自己的学习方案
包罗:Stable diffusion安装包、stable diffusion零基础入门全套PDF,提示词宝典、各种模型插件视频学习教程。带你从零基础体系性的学好AI绘画!
零基础AI绘画学习资源先容
本帖子中包含更多资源
您需要
登录
才可以下载或查看,没有账号?
立即注册
x
回复
使用道具
举报
0 个回复
倒序浏览
返回列表
快速回复
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
or
立即注册
本版积分规则
发表回复
回帖并转播
回帖后跳转到最后一页
发新帖
回复
张国伟
论坛元老
这个人很懒什么都没写!
楼主热帖
XAF新手入门 - 类型子系统(Types Info ...
MyBatis 查询数据库
JAVA 装箱拆箱--到底指什么呢? ...
[NOI2010] 航空管制
RabbitMQ入门 -- 阿里云服务器安装Rabb ...
ThinkPHP5 远程命令执行漏洞
HarmonyOS(鸿蒙)开发一文入门 ...
基于 Dubbo Admin 实现同机房/区域优先 ...
浅入浅出 1.7和1.8的 HashMap
Prometheus配置Basic Auth进行安全防护 ...
标签云
渠道
国产数据库
集成商
AI
运维
CIO
存储
服务器
快速回复
返回顶部
返回列表