圆咕噜咕噜 发表于 2024-8-27 15:34:18

阿里开源语音大模型CosyVoice:3秒还原声音,从部署到克隆的完整指南

前言

很久之前就想给各人先容声音克隆开源项目GPT-SoVITS ,但是看到视频教程过于复杂了,最近又出现了一个剪辑《人民的名义》的短视频非常搞笑。
我就找到了一款最新更加强大的声音克隆项目CosyVoice。CosyVoice 是阿里通义实行室在七月初开源的一款专注于天然语音合成的语音大模型,它具备多语言、多音色和细腻的情感控制本领。这个系统支持中文、英文、日文、粤语和韩语五种语言的语音生成,并且在语音合成的结果上远超传统模型。
只需3到10秒的原始音频样本,CosyVoice便能够复刻出相似的音色,包括语调和情感等细节,实现跨语种的语音合成。
CosyVoice的另一个亮点在于它对生成语音情感和韵律的风雅控制,这是通过富文本或天然语言输入实现的。这种控制机制显著提高了合成语音的情感表达本领。这使得生成的语音更加宛在目前,充满情感色彩。
部署

首先必要找到官方项目的开源地点
github.com/FunAudioLLM…
首先克隆官方项目,创建一套独立的Python虚拟情况
git clone https://github.com/FunAudioLLM/CosyVoice.git


conda create -n cosyvoice python=3.8
conda activate cosyvoice


此时已经激活了虚拟情况,现在下载项目依靠的第三方包
pip install -r requirements.txt -i https://mirrors.aliyun.com/pypi/simple/ --trusted-host=mirrors.aliyun.com


必要等待很长时间安装PyTorch
https://img-home.csdnimg.cn/images/20230724024159.png?origin_url=https%3A%2F%2Fqn.tuwei.space%2Fmarkdown%2F1722172543384-d16cd083-9773-48af-9889-e1e7b67b3f74.png%20%22null%22&pos_id=img-5UD2WCSe-1722826744207
接着安装pyini
Pynini是一个基于字符串的流传和转换的库,可以用于各种天然语言处理使命,如词性标注、名词短语提取和依靠句法分析。
conda install -y -c conda-forge pynini==2.1.5

根据文档要提前下载模型,这里不使用阿里的魔搭包下载,而是使用Git下载,条件是安装git lfs 插件:
# git模型下载,请确保已安装git lfs
mkdir -p pretrained_models
git clone https://www.modelscope.cn/iic/CosyVoice-300M.git pretrained_models/CosyVoice-300M
git clone https://www.modelscope.cn/iic/CosyVoice-300M-SFT.git pretrained_models/CosyVoice-300M-SFT
git clone https://www.modelscope.cn/iic/CosyVoice-300M-Instruct.git pretrained_models/CosyVoice-300M-Instruct
git clone https://www.modelscope.cn/iic/CosyVoice-ttsfrd.git pretrained_models/CosyVoice-ttsfrd

模型文件非常大,又必要等待较长时间才能下载完成,但完成后即可成功使用,使用以下下令启动服务:
python3 webui.py --port 50000 --model_dir pretrained_models/CosyVoice-300M

这里有个坑,我这里是局域网访问,必要把webui.py文件中
...
demo.launch(server_port=args.port)
...

改成
...
demo.launch(server_port=args.port, server_name="0.0.0.0")
...

如果是本机访问可以忽略,这时访问局域网IP加端口号50000就能访问到这个由gradio库搭建的WebUI 网页应用了
https://img-home.csdnimg.cn/images/20230724024159.png?origin_url=https%3A%2F%2Fqn.tuwei.space%2Fmarkdown%2F1722180714981-986217d3-6713-4e3d-92fc-050959c9dbde.png%20%22null%22&pos_id=img-6bQuoPiX-1722826744207
测试

这里只简单测试一下,来找一段《还珠格格》中紫薇的语音素材,让它说一段毫无逻辑的台词。 台词内容:
我不敢苟同,因为我个人认为,这个意大利面就应该拌42号混凝土,因为这个螺丝钉的长度,它很容易会直接影响到挖掘机的扭矩你知道吧,你往里砸的时候,一瞬间它就会产生大量的高能蛋白,俗称ufo,会严重影响经济的发展,甚至对整个太平洋以及充电器都会造成一定的核污染,你知道啊?再者说,根据这个勾股定理,你可以很容易地推断出人工饲养的东条英机它是可以捕获野生的三角函数的,所以说这个秦始皇的切面是否具有放射性啊,特朗普的N次方是否含有沉淀物,都不影响这个沃尔玛跟维尔康在南极会合

第一步上传原素材的音频文件(可能必要处理以使结果更好),第二步输入原素材的音频文件对应的字幕,第三步输入想要的生成的语音的文案,最后一步点击生成,耐心等待
https://img-home.csdnimg.cn/images/20230724024159.png?origin_url=https%3A%2F%2Fqn.tuwei.space%2Fmarkdown%2F1722182864342-f20d939f-ef6e-4c6e-9315-cefb05cdcc94.png%20%22null%22&pos_id=img-tD7OATFR-1722826744208
等待了30秒生成了21秒的视频,结果非常不错,生成的语音的结果跟素材非常相似,只是长段的语音文案生成时可能会丢失一部门内容(可以通过本身手动拼接处理这个问题)。
最后

又写了一篇从零开始部署开源大模型项目的文章,之前写了许多有兴趣的同学可以找到我的主页看看,后面也会继续关注相干的内容,如果感兴趣可以继续关注我,大概可以留言告诉我想看什么大模型实测结果。 如果觉得内容不错,欢迎点个关注
https://i-blog.csdnimg.cn/direct/f758b19b6d32452284356058b913f604.jpeg#pic_center
如何学习AI大模型?

我在一线互联网企业工作十余年里,指导过不少偕行后辈。帮助许多人得到了学习和成长。
我意识到有许多履历和知识值得分享给各人,也可以通过我们的本领和履历解答各人在人工智能学习中的许多狐疑,所以在工作繁忙的情况下还是对峙各种整理和分享。但苦于知识流传途径有限,许多互联网行业朋友无法获得精确的资料得到学习提升,故此将并将紧张的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
https://img-blog.csdnimg.cn/direct/1f716c327caf4b2596f981e8b7aaedf7.png
第一阶段: 从大模型系统设计入手,解说大模型的紧张方法;
第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;
第三阶段: 大模型平台应用开辟借助阿里云PAI平台构建电商领域虚拟试衣系统;
第四阶段: 大模型知识库应用开辟以LangChain框架为例,构建物盛行业咨询智能问答系统;
第五阶段: 大模型微调开辟借助以大健康、新零售、新媒体领域构建适合当前领域大模型;
第六阶段: 以SD多模态大模型为主,搭建了文生图小步伐案例;
第七阶段: 以大模型平台应用与开辟为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。
https://img-blog.csdnimg.cn/direct/65fa158ead174be98faffe3be3aeccf6.jpeg#pic_center
页: [1]
查看完整版本: 阿里开源语音大模型CosyVoice:3秒还原声音,从部署到克隆的完整指南