数据人与超自然意识 发表于 2024-6-7 16:32:18

基于函数计算部署GPT-Sovits语音生成模子实现AI克隆声音

GPT-Sovits是一个热门的文本生成语音的大模子,只需要少量样本的声音数据源,就可以实现高度相似的仿真结果。通过函数计算部署GPT-Sovits模子,您无需关心GPU服务器维护和情况设置,即可快速部署和体验模子,同时,可以充分利用函数计算按量付费,弹性伸缩等优势,高效地为用户提供基于GPT-Sovits模子的文本到语音生成服务。
方案概览

https://img2024.cnblogs.com/other/2123714/202406/2123714-20240607143522094-846265199.png
本方案的技术架构包罗以下根本设施和云服务:

[*]函数计算:用于提供GPT-Sovits模子的应用服务。
[*]文件存储 NAS:用于存放预训练的GPT-Sovits模子。
[*]专有网络 VPC:用于设置专有网络,方便函数计算访问文件存储 NAS。
重要

[*]阿里云不对第三方模子的合法性、安全性、准确性举行任何包管,阿里云不对由此引发的任何侵害承担责任。
[*]您应自觉服从第三方模子的用户协议、使用规范和相关法律法规,并就使用第三方模子的合法性、合规性自行承担相关责任。
部署GPT-Sovits模子

1.登录函数计算3.0控制台。
2.请确认访问的控制台是函数计算3.0,否则您需要在右上角单击体验函数计算3.0。
https://img2024.cnblogs.com/other/2123714/202406/2123714-20240607143522393-130047145.jpg
3.在左侧导航栏,单击应用。
4.(可选)在应用页面,单击创建应用。
说明:如果您之前未使用过应用中心,请跳过本步骤,可直接进入下一步。
https://img2024.cnblogs.com/other/2123714/202406/2123714-20240607143522702-1510772100.jpg
5.在应用页面,选择人工智能>语音克隆生成GPT-SoVITS,单击立刻创建。
https://img2024.cnblogs.com/other/2123714/202406/2123714-20240607143523239-1108539104.jpg
6.在创建应用页面,部署类型选择直接部署,角色名称请确认所需要的权限均已获取(若缺失权限请按照页面引导举行操纵),服务状态请确认函数计算FC和文件存储NAS已开通,其他设置保持默认即可,然后单击创建应用。
https://img2024.cnblogs.com/other/2123714/202406/2123714-20240607143523626-1916333824.jpg
7.在活动应用创建提示对话框中,选中函数计算FC和文件存储NAS两个收费项,选中我已经了解上面的内容,并同意上述形貌,单击同意并举行部署。
https://img2024.cnblogs.com/other/2123714/202406/2123714-20240607143524236-1437783353.jpg
8.等待约1分钟,部署状态变为部署乐成,表示应用部署乐成,并生成访问域名,单击访问域名后的链接开始体验应用。
***.devsapp.net域名是CNCF SandBox项目Serverless Devs社区所提供,仅供学习和测试使用,不可用于任何生产使用;社区会对该域名举行不定期地拨测,并在域名下发30天后举行回收,强烈发起您绑定自定义域名以得到更好的使用体验
https://img2024.cnblogs.com/other/2123714/202406/2123714-20240607143524656-376884955.jpg
快速体验

部署完成后,您可以使用已经准备好的DEMO声音样例,举行声音的合成和体验。
我们准备了一些童年经典动画片的台词,您可以合成试试:

[*]既然你诚心诚意的发问了,我们就大发慈悲的告诉你,为了防止天下被破坏,为了保卫天下的宁静,贯彻爱与真实的险恶,可爱又迷人的反派角色,武藏、小次郎!我们是穿梭在银河的火箭队,白洞,白色的明天在等着我们! ——《小精灵》
[*]成为全国第一是我从小的空想,我不会放弃,这点小伤根本不能让我放弃。 ——《灌篮高手》
[*]舒克舒克舒克舒克开飞机的舒克,贝塔贝塔贝塔贝塔开坦克的贝塔。——《舒克和贝塔》
合成操纵步骤

1.选择默认语音模板,输入需要生成的文本,单击合成语音。
https://img2024.cnblogs.com/other/2123714/202406/2123714-20240607143525093-1387503138.jpg
2.等待语音合成之后,可以单击播放。
https://img2024.cnblogs.com/other/2123714/202406/2123714-20240607143525568-1948685221.jpg
声音训练

您可以通过声音源文件微调GPT-Sovits大模子,生成您期望的声音。在微调训练过程中,训练步骤的全部中间产物将置于NAS的output文件夹下。训练将使用默认的UVR5和ASR模子。若需要使用其他的UVR5和ASR模子,可根据官方README下载,并分别置于NAS的tools/asr/models和tools/uvr5/uvr5_weights目次下。
1.数据预处理。准备一个较长的您需要克隆的原始声音,单击数据预处理,输入您需要上传的语音文件,单击开始数据预处理。
https://img2024.cnblogs.com/other/2123714/202406/2123714-20240607143526139-756728230.jpg
2.微调文本。单击训练语音文本校对,调解原始文本的内容。
https://img2024.cnblogs.com/other/2123714/202406/2123714-20240607143526535-420635400.jpg
3.开始训练,单击模子微调,开启SoVITS训练和GPT训练。训练后的模子将存储在NAS下的GPT_weights和SoVITS_weights文件夹内。
https://img2024.cnblogs.com/other/2123714/202406/2123714-20240607143526978-1824450145.jpg
4.训练完之后,在语音克隆&&推流页签,刷新和选择本身训练的模子,再体验合成语音。
https://img2024.cnblogs.com/other/2123714/202406/2123714-20240607143527257-205057771.jpg
清理资源

您部署GPT-Sovits会使用函数计算FC产品,您创建模子管理器使用了文件存储NAS产品。如果您后续不再使用GPT-Sovits可以删除以下两个部分,函数计算不调用不会计费,文件存储NAS只要有模子存储即会付费,因此请您注意删除相关资源。如果您需要长期使用,请忽略此步骤,并随时注意账号扣费情况。
删除GPT-Sovits使用的FC。

1.前往函数计算应用页面。
2.在应用页面,找到您部署的应用,单击右侧操纵列下的删除,根据页面提示删除该应用。
https://img2024.cnblogs.com/other/2123714/202406/2123714-20240607143527572-277664061.jpg
删除模子管理器使用的NAS。

1.登录文件存储控制台,在文件系统列表页面,切换到华东1(杭州)地域,找Alibab-Fc开头到目的文件系统,在操纵列,选择https://img2024.cnblogs.com/other/2123714/202406/2123714-20240607143527788-1350447521.jpg>删除。
说明
本实验文件存储NAS实例所在地域为华东1(杭州)。
https://img2024.cnblogs.com/other/2123714/202406/2123714-20240607143528227-1168110865.jpg
2.在删除文件系统面板,移除挂载点及生效策略,然后单击删除。
https://img2024.cnblogs.com/other/2123714/202406/2123714-20240607143528567-451491352.jpg
https://img2024.cnblogs.com/other/2123714/202406/2123714-20240607143528902-1077513305.jpg
更多内容关注 Serverless 微信公众号(ID:serverlessdevs),汇集 Serverless 技术最全内容,定期举办 Serverless 活动、直播,用户最佳实践。

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
页: [1]
查看完整版本: 基于函数计算部署GPT-Sovits语音生成模子实现AI克隆声音