IT评测·应用市场-qidao123.com

标题: 基于Qwen2.5大模型的Spark-TTS,零样本语音克隆,CPU可运行之本地摆设(Windows篇) [打印本页]

作者: 我爱普洱茶    时间: 2025-3-22 19:33
标题: 基于Qwen2.5大模型的Spark-TTS,零样本语音克隆,CPU可运行之本地摆设(Windows篇)
本文已首发于 秋码记载
微信公众号:你我杂志刊

假如你也想搭建一个与秋码记载一样的网站,可以浏览我的这篇 国内 gitee.com Pages 下线了,致使浩繁站长纷纷改用 github、gitlab Pages 托管平台
秋码记载网站使用的主题是开源的,现在只在github.com开源。
hugo-theme-kiwi开源地点:https://github.com/zhenqicai/hugo-theme-kiwi

结果可浏览 你我杂志刊
在人工智能期间,语音合成(TTS)技术已成为人机交互的焦点组件之一。然而,传统TTS体系长期受限于多阶段架构复杂、语音控制本领弱、跨语言表现差等问题。
基于Qwen2.5大模型的**Spark-TTS**横空出世,依附其创新的BiCodec编码技术、零样本语音克隆本领和细粒度语音控制,迅速成为开源社区的热门。
技术突破:Spark-TTS的三大创新

1、BiCodec:重新界说语音编码 Spark-TTS首创BiCodec单流语音编码器,将语音分解为两类焦点编码:

2、零样本语音克隆:无需训练,秒级复刻
仅需3秒参考音频,Spark-TTS即可生成高度相似的个性化语音,音色一致性(SIM)指标超越同类模型如LLaMA-TTS。其焦点在于结合Qwen2.5的语言理解本领与BiCodec的解码精度,突破了传统TTS依赖大量训练数据的限制。
3、细粒度语音控制:从参数到情感的精准调治

功能实测:性能与结果全解析

本地摆设

那么接下来,我们将在本地电脑摆设这款开源的文本转语音模型,看看结果是否真如官方所宣传的那般。
我还是一如既往的使用python3自带的venv模块来创建python 虚拟情况,当然,你也是可以使用anaconda或着miniconda等软件来搭建python 虚拟情况。
我本地电脑使用python的版本,始终是python 3.10.9,体系则是windows11。
创建python虚拟情况

  1. python -m venv Spark-TTS-env
  2. cd Spark-TTS-env/Scripts
  3. activate
复制代码

clone推理代码

Spark-TTS的推理代码托管于享誉全球的github.com上,倘若你的电脑安装了git,那么直接在Terminal中执行以下命令,便把Spark-TTS推理代码下载到你的电脑硬盘里。
  1. git clone https://github.com/SparkAudio/Spark-TTS.git
复制代码

安装项目所需的依赖

  1. pip install -r requirements.txt
复制代码

安装CUDA版的torch(可选)

这一步是可选的,项目是可以通过CPU来推理的,也就是刚刚安装的torch是CPU版的,假如你想要使用GPU来加速推理,那么,就先卸载CPU版的torch,安装支持GPU的torch。

我们在安装CUDA版torch,其版本尽量于requirements.txt文件中的torch版本一样。
  1. pip install torch==2.5.1 torchvision==0.20.1 torchaudio==2.5.1 --index-url https://download.pytorch.org/whl/cu124
复制代码


下载模型

1、我们在项目根路径下创建一个名为download_model.py文件,输入以下内容。
  1. from huggingface_hub import snapshot_download
  2. import os
  3. # Set download path
  4. model_dir = "pretrained_models/Spark-TTS-0.5B"
  5. # Check if model already exists
  6. if os.path.exists(model_dir) and len(os.listdir(model_dir)) > 0:
  7.     print("Model files already exist. Skipping download.")
  8. else:
  9.     print("Downloading model files...")
  10.     snapshot_download(
  11.         repo_id="SparkAudio/Spark-TTS-0.5B",
  12.         local_dir=model_dir,
  13.         resume_download=True  # Resumes partial downloads
  14.     )
  15.     print("Download complete!")
复制代码

在执行python download_model.py命令之前,你得在Terminal(黑窗口)设置好网络,否则是下载不了模型的。

2、对于国内网友,长期遭受网络限制,可以在hf-mirror.com上下载模型。
  1. mkdir pretrained_models
  2. git clone https://hf-mirror.com/SparkAudio/Spark-TTS-0.5B pretrained_models/Spark-TTS-0.5B
复制代码

运行 webui.py


等加载好模型后,会在我们电脑默认浏览器中的自动打开一页签。
我们先来使用模型自带的声音,来合成声音。

接下来,我们选择voice clone功能,来克隆音色,最终合成声音。
我这里使用的是伊万卡-特朗普一段在综艺频道的声音,当然,你也可以使用其他人的声音,前提是得得到别人授权的,否则的话……。
还有,待克隆的声音的采样率得是16KHZ,wav格式最佳。


免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。




欢迎光临 IT评测·应用市场-qidao123.com (https://dis.qidao123.com/) Powered by Discuz! X3.4