tsx81429 发表于 2024-12-17 15:06:09

语言模型 F5-E2 TTS:音色 & 情绪一键克隆,轻松实现多角色对话

F5-TTS 是由上海交通大学、剑桥大学和吉利汽车研究院(宁波)有限公司于 2024 年共同开源的一款高性能文本到语音 (TTS) 系统,它基于流匹配的非自回归天生方法,联合了扩散变换器 (DiT) 技术。 F5-TTS 的主要功能包括零样本声音克隆、速率控制、情感体现控制、长文本合成以及多语言支持。它的技术原理涉及到流匹配、扩散变换器 (DiT)、ConvNeXt V2 文本表示改进、Sway Sampling 计谋以及端到端的系统计划。
E2 TTS,全称为「Embarrassingly Easy Text-to-Speech」,是一种先辈的文本转语音 (TTS) 系统,它通过简化的流程实现了人类水平的自然度和语言人相似性。E2 TTS 的焦点在于它完全非自回归的特性,这意味着它可以一次性天生整个语音序列,而不必要逐步天生,从而显著提高了天生速率并保持了高质量的语音输出。
教程链接:https://go.openbayes.com/bRbIs
使用云平台:OpenBayes

http://openbayes.com/console/signup?r=sony_0m6v
登录 OpenBayes.com,在「公共教程」页面,选择「F5-E2 TTS 只需 3 秒克隆任何音色」教程。
https://i-blog.csdnimg.cn/direct/343df4ae28c84aee9f037eb437bf48c8.png
页面跳转后,点击右上角「克隆」,将该教程克隆至本身的容器中。
https://i-blog.csdnimg.cn/direct/edbb39faafcf46aab670a5cf99e8c2af.png
页面跳转后,选择「NVIDIA RTX 4090」以及「PyTorch」镜像,OpenBayes 平台上线了新的计费方式,各人可以按照需求选择「按量付费」或「包日/周/月」,点击「继承执行」。可以使用文章开头的约请链接,得到 RTX 4090 使用时长!
https://i-blog.csdnimg.cn/direct/3ca6ecb0fa3d4b9b933ada7745b307e1.png
https://i-blog.csdnimg.cn/direct/1c64ef468b3e483b847f3e279ad0946b.png
稍等半晌,待系统分配好资源,当状态变为「运行中」后,点击「API 地点」边上的跳转箭头,即可跳转至 Demo 页面。
https://i-blog.csdnimg.cn/direct/3852a463d83c4a59822ea6d696b6e691.png
https://i-blog.csdnimg.cn/direct/09f7658215934497bee7bf3645ea1ed5.png
1. 单人语音天生 (Batched TTS)
选择「TTS」,在「Reference Audio」处上传必要克隆的音频(比方:甄嬛的音频),在「Text to Generate」中输入文本提示词( F5-TTS 的主要功能包括零样本声音克隆、速率控制、情感体现控制、长文本合成以及多语言支持。)点击「Synthesize」提交。在「Advanced Settings」下可设置高级参数:


[*] Reference Text:参考文本,留空以自动转录参考音频。假如您输入文本,它将覆盖自动转录。
[*] Remove Silences:移除静音,该模型往往会产生静音,尤其是在较长的音频上。假如必要,我们可以手动删除静音。请留意,这是一个实行性功能,可能会产生奇怪的效果并且增加天生时间。
[*] Custom Split Words:断句符号,输入要分割的自定义单词,以逗号分隔。留空以使用默认列表。
[*] Speed:速率,控制天生的语速。
https://i-blog.csdnimg.cn/direct/6a0b3a7bc3f74aadad871aa64e5960a0.png
https://i-blog.csdnimg.cn/direct/e2114cadece547a0820a3b6403959895.png2. 多人语音天生 (Podcast Generation)
该功能可以通过克隆音频,实现双人对话。选择「Podcast Generation」,在「Speaker 1 Name」输入第一个人的名称 (huan),在「Reference Text (Speaker 1)」输入第一个人的音频;在「Speaker 2 Name」输入第二个人的名称 (hua),在「Reference Text (Speaker 2)」输入第二个人的音频。在「Podcast Script」中按照格式输入对话文本(hua:你今天吃的什么?huan:我今天吃的鱼香肉丝和米饭。)然后选择模型 F5-TTS 或 E2-TTS。最后点击「Generate Podcast」天生。
https://i-blog.csdnimg.cn/direct/d5772d1f87ef49bd8b776020bfa5de80.png
https://i-blog.csdnimg.cn/direct/8df754d56fe94d4babb9b780d2715280.png
3. 多种语音类型天生 (Multiple Speech-Type Generation)
这个功能可以使用模型模仿情绪,根据不同的情绪举行音频天生。选择「Multiple Speech-Type Generation」后,点击「Add Speech Type」添加不同语气类型和音频(比方 Regular 和 Angry),在「Text to Generate」中按照要求的格式输入天生文本 (Angry:You know what, darn you and your little shop, you suck!) 然后选择模型 F5-TTS 或 E2-TTS。最后点击「Generate Emotional Speech」天生。
https://i-blog.csdnimg.cn/direct/acf260dd159c484999344dc0eefdcd03.png

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
页: [1]
查看完整版本: 语言模型 F5-E2 TTS:音色 & 情绪一键克隆,轻松实现多角色对话