Dia-1.6B TTS: 最佳文本对话生成AI模子

前进之路 · 3 天前

音频AI模子正在鼓起。本年我们已经看到许多音频生成模子进入视野。
现在我们有了一个新模子Dia-1.6B，它在会话式AI方面似乎比ElevenLabs和Sesame CSM 1B模子表现更好。
什么是Dia-1.6B？

DIA 1.6B是由Nari Labs开发的开始进的16亿参数文本转语音(TTS)模子，旨在直接从文本转录中生成高度逼真且富有表现力的对话。
与传统的产生僵硬或单调语音的TTS系统差别，DIA擅长捕获自然对话眇小差别，包罗动态情感、语调变革，甚至非语言发声，如笑声、咳嗽和清嗓子。
主要特点与进步

情感与语调控制：DIA答应音频条件设置，意味着用户可以通过提供参考音频片段来引导模子输出，影响语言者的情感表达和语调。
非语言语音生成：除了标准语音合成外，DIA还能无缝解释如(笑声)等标签并将其重现为自然笑声——这是ElevenLabs和Sesame CSM-1B等模子所缺乏的本领，后者需要手动替换（例如"哈哈"&#x

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

		自动登录	找回密码
密码			立即注册

Dia-1.6B TTS: 最佳文本对话生成AI模子

本帖子中包含更多资源

0 个回复

快速回复

楼主热帖

标签云