简介
GPT-SoVITS 是一个开源的文本转语音(TTS)项目,旨在通过少量语音数据实现高质量的语音合成。其焦点理念是将基于变换器的模型(如 GPT)与语音合成技术(如 SoVITS,可能指“唱歌语音合成”)结合,特别恰当需要个性化语音但数据有限的场景。
特征
- 零样本 TTS:输入 5 秒的声音样本并体验即时文本到语音的转换。
- 少量 TTS:仅使用 1 分钟的训练数据对模型举行微调,以提高语音相似度和真实感。
- 跨语言支持:使用与训练数据集不同的语言举行推理,目前支持英语、日语、韩语、粤语和中文。
- WebUI 工具:集成语音伴奏分离、主动训练集分割、中文 ASR 和文本标注等工具,资助初学者创建训练数据集和 GPT/SoVITS 模型。
情况配置
- Python 3.9, PyTorch 2.0.1, CUDA 11
- Python 3.10.13, PyTorch 2.1.2, CUDA 12.3
- Python 3.9, PyTorch 2.2.2, macOS 14.4.1 (Apple silicon)
- Python 3.9, PyTorch 2.2.2, CPU devices
复制代码 numba==0.56.4 requires py<3.11
看看结果
相关文献
在线demo:https://huggingface.co/spaces/lj1995/GPT-SoVITS-v2
github地址:https://github.com/RVC-Boss/GPT-SoVITS?tab=readme-ov-file
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。 |