前进之路 发表于 前天 04:32

Dia-1.6B TTS: 最佳文本对话生成AI模子

https://i-blog.csdnimg.cn/direct/aac008844dbd456ab9eeeac4cc3ed39d.png
音频AI模子正在鼓起。本年我们已经看到许多音频生成模子进入视野。
现在我们有了一个新模子Dia-1.6B,它在会话式AI方面似乎比ElevenLabs和Sesame CSM 1B模子表现更好。
什么是Dia-1.6B?

DIA 1.6B是由Nari Labs开发的开始进的16亿参数文本转语音(TTS)模子,旨在直接从文本转录中生成高度逼真且富有表现力的对话。
与传统的产生僵硬或单调语音的TTS系统差别,DIA擅长捕获自然对话眇小差别,包罗动态情感、语调变革,甚至非语言发声,如笑声、咳嗽和清嗓子。
主要特点与进步



[*] 情感与语调控制:DIA答应音频条件设置,意味着用户可以通过提供参考音频片段来引导模子输出,影响语言者的情感表达和语调。

[*] 非语言语音生成:除了标准语音合成外,DIA还能无缝解释如(笑声)等标签并将其重现为自然笑声——这是ElevenLabs和Sesame CSM-1B等模子所缺乏的本领,后者需要手动替换(例如"哈哈"&#x

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
页: [1]
查看完整版本: Dia-1.6B TTS: 最佳文本对话生成AI模子