在人工智能和语音合成技能的飞速发展中,文本转语音(TTS)体系正变得越来越智能和高效。然而,传统的TTS模子通常面临着盘算复杂度高、天生速率慢以及语音质量不稳固的挑衅。克日,一项名为Spark-TTS的创新研究引起了广泛关注。该研究提出了一种基于大语言模子(LLM)的高效TTS框架,通过引入单流解耦语音标记(Single-Stream Decoupled Speech Tokens),乐成实现了高质量语音的快速天生。Spark-TTS不但在天生速率上显着优于现有模子,还在语音天然度和多样性方面取得了突破性盼望。本文将深入分析Spark-TTS的焦点技能。
论文:2025.03.03_Spark-TTS: An Efficient LLM-Based Text-to-Speech Model with Single-Stream Decoupled Speech Tokens一种高效的基于 LLM 的文本转语音模子,具有单流解耦语音令牌
论文地点:https://arxiv.org/pdf/2503.01710
代码地点:https://github.com/SparkAudio/Spark-TTS
DEMO:https://sparkaudio.github.io/spark-tts/
https://sparktts.online/
1.配景
标题:传统自回归TTS模子(如Tacotron)推理速率慢,而非自回归模子(如FastSpeech)在天生质量上不如人意。
现有方案范围:基于LLM的TTS模子(如VALL-E)虽使用语言模子的强大天生本领,但直接建模高维语音标记导致盘算服从低下。
论文焦点:通过解耦语音的语义和声学信息,分别由LLM和轻量级声学模子处置惩罚,镌汰LLM的盘算负担,实现高效高质量天生。
2.重要方法
2.1.BiCodec
论文提出BiCodec,将输入音频离散化为①每秒 50 个(TPS) 的语义标记,捕捉语言内容,以及 ②固定长度的全局标记,编码语言者属性和其他全局语音特性。
如上图所示,BiCodec 包罗一个全局标记器和语义标记器。前者从输入音频的梅尔频谱图中提取全局标记。后者使用wav2vec 2.0中的特性作为输入来提取语义标记,也就是对于语音举行分解。下图是BiCodec的具体模子框架:
2.1.1.编码器息争码器
语义标记器Es使用ConvNeXt,全局标记符编码器Eg接纳ECAPA-TDNN。
2.1.2.量化
语义标记器接纳单码本向量量化技能举行量化,先将编码器的输出投射到职位匿伏变量空间,接纳FSQ低落训练风险。
2.2.Spark-TTS模子框架
如上图所示,Spark-TTS语音语言模子接纳解码器转换器架构,接纳与训练文本的大语言模子Qwen作为语音语言模子的骨干网络,BiCodec的解码器直接处置惩罚LM的输出,天生终极的音频。
2.2.1.代币(Tokenizer)
- 文本标记器:接纳字节对编码(BPE)来处置惩罚原始文本。
- 属性标记器:在2个层面举行编码:粗粒度(性别,音调速率等等)和细粒度(属性值可准确调控音调和速率)
- 语音标记器:全局标记器和语义标记器。
2.2.2.训练
解码器语言模子通过最小化标记推测的负对数似然来训练。Zero shot TTS的优化方法如下:
可控语音天生优化如下
现实中,Lzst和Lcontrol在训练过程中是肴杂的,每个音频示例被分为2个训练样本。
2.3.VoxBox数据集
推出VoxBox语音数据集,数据来自于开源数据集,并举行数据清算。
包罗470万音频文件,共102500小时的语音数据。
3.实验与结果
表1证实BiCodec的有用性。
在迩来的TTS模子的随机测试中取得良好结果。
结论
Spark-TTS通过解耦语义与声学标记,团结LLM的高效推理和非自回归声弟子成,在速率与质量间取得均衡,为LLM在TTS中的应用提供了新思绪。其单流筹划确保了天生过程的协同优化,实验验证了其在主流数据集上的良好性。
想要相识更多内容,可在小步伐搜刮🔍AI Pulse,获取更多最新内容。
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。 |