功能
| 形貌
|
实时语音辨认 (Streaming Speech Recognition)
| 在语音输入的同时举行处置惩罚和辨认,实用于必要即时反馈的场景,如会媾和语音助手。
|
非实时语音辨认 (Non-Streaming Speech Recognition)
| 在录制完毕后举行处置惩罚,适合必要高准确率的场景,如音频转写和文档天生。
|
文本转语音 (Text-to-Speech, TTS)
| 将文本内容转换为自然语音输出,广泛应用于语音助手和导航系统。
|
说话人分离 (Speaker Diarization)
| 辨认和区分音频流中的差别说话人,常用于集会记载和多说话人对话分析。
|
说话人辨认 (Speaker Identification)
| 确认说话者的身份,分析声纹特征并与数据库举行比对。
|
说话人验证 (Speaker Verification)
| 要求说话者提供声纹以确认身份,常用于安全性较高的场合,如银行系统。
|
口语语言辨认 (Spoken Language Identification)
| 辨认语音中使用的语言,帮助系统在多语言情况中主动切换语言。
|
音频标志 (Audio Tagging)
| 为音频内容添加标签,便于分类和搜刮,常用于音频库管理和内容推荐。
|
语音活动检测 (Voice Activity Detection, VAD)
| 检测音频流中是否存在语音活动,提拔语音辨认准确性并节流带宽和处置惩罚资源。
|
关键词检测 (Keyword Spotting)
| 辨认特定关键词或短语,常用于智能助手和语音控制装备,允许用户通过语音下令与装备交互。
|
官方参考文档: