开源TTS项目GPT-SoVITS,支持跨语言合成、支持多语言~

金歌  论坛元老 | 2025-4-19 07:21:11 | 显示全部楼层 | 阅读模式
打印 上一主题 下一主题

主题 1693|帖子 1693|积分 5079

简介

GPT-SoVITS 是一个开源的文本转语音(TTS)项目,旨在通过少量语音数据实现高质量的语音合成。其焦点理念是将基于变换器的模型(如 GPT)与语音合成技术(如 SoVITS,可能指“唱歌语音合成”)结合,特别恰当需要个性化语音但数据有限的场景。
特征



  • 零样本 TTS:输入 5 秒的声音样本并体验即时文本到语音的转换。
  • 少量 TTS:仅使用 1 分钟的训练数据对模型举行微调,以提高语音相似度和真实感。
  • 跨语言支持:使用与训练数据集不同的语言举行推理,目前支持英语、日语、韩语、粤语和中文。
  • WebUI 工具:集成语音伴奏分离、主动训练集分割、中文 ASR 和文本标注等工具,资助初学者创建训练数据集和 GPT/SoVITS 模型。
情况配置

  1. Python 3.9, PyTorch 2.0.1, CUDA 11
  2. Python 3.10.13, PyTorch 2.1.2, CUDA 12.3
  3. Python 3.9, PyTorch 2.2.2, macOS 14.4.1 (Apple silicon)
  4. Python 3.9, PyTorch 2.2.2, CPU devices
复制代码
numba==0.56.4 requires py<3.11
看看结果



相关文献

在线demo:https://huggingface.co/spaces/lj1995/GPT-SoVITS-v2
github地址:https://github.com/RVC-Boss/GPT-SoVITS?tab=readme-ov-file

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

0 个回复

正序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

金歌

论坛元老
这个人很懒什么都没写!
快速回复 返回顶部 返回列表