论文起首论述了当前大多 AI 系统是被动相应式交互,像 Siri、ChatGPT 等,用户提问后系统回答,接着等候下一个提示,这种基于下令的模式对于底子 AI 助手或许够用,但对于真正自主的机器,与人类交互的丰富动态性相差甚远。自主 AI 应能实时评估环境、预判用户需求,并确定以何种方式互动。例如,当用户在街上行走时,AI 可能会提示他们留意未察觉的自行车,大概建议在附近一家隐蔽的咖啡馆停留。而语音作为最自然的交互方式,相比文本,语音能自然地举行留意力吸引、对话发起、紧急环境下的打断或重叠说话等,而且包含丰富的语音线索和情感渺小差别。接着先容了语音 AI 的发展进程,从早期的 Bell Labs 的 Audrey 到如今的 ChatGPT-4o 等,传统语音系统采用复杂模块化管道,现在基于大型语言模子(LLM)的简化管道设计虽能实现开放式对话,但也存在高延迟、丢失语音渺小差别、交互方式仍为被动等局限。于是引出了 Voila,它旨在克服这些挑战,实现实时、自然、灵活的语音交互。
二、相干工作
(一)管道系统
早期语音助手系统,如 Siri、Alexa 和 Google Assistant,采用复杂的多阶段管道。通常先举行叫醒词检测,接着主动语音辨认(ASR)将语音转文本,自然语言理解(NLU)分析文本确定用户意图,再由自然语言生成(NLG)组成回复,末了通过文本转语音(TTS)让助手发声。近期系统集成 LLM 简化管道,但多模块方法会导致延迟大,不得当低延迟实时应用,且音频转文本易丢失关键声学信息。
(二)端到端模子