端到端音频聊天模子论文速读:Voila

[复制链接]
发表于 2025-9-10 17:06:28 | 显示全部楼层 |阅读模式
一、弁言

论文起首论述了当前大多 AI 系统是被动相应式交互,像 Siri、ChatGPT 等,用户提问后系统回答,接着等候下一个提示,这种基于下令的模式对于底子 AI 助手或许够用,但对于真正自主的机器,与人类交互的丰富动态性相差甚远。自主 AI 应能实时评估环境、预判用户需求,并确定以何种方式互动。例如,当用户在街上行走时,AI 可能会提示他们留意未察觉的自行车,大概建议在附近一家隐蔽的咖啡馆停留。而语音作为最自然的交互方式,相比文本,语音能自然地举行留意力吸引、对话发起、紧急环境下的打断或重叠说话等,而且包含丰富的语音线索和情感渺小差别。接着先容了语音 AI 的发展进程,从早期的 Bell Labs 的 Audrey 到如今的 ChatGPT-4o 等,传统语音系统采用复杂模块化管道,现在基于大型语言模子(LLM)的简化管道设计虽能实现开放式对话,但也存在高延迟、丢失语音渺小差别、交互方式仍为被动等局限。于是引出了 Voila,它旨在克服这些挑战,实现实时、自然、灵活的语音交互。
二、相干工作

(一)管道系统

早期语音助手系统,如 Siri、Alexa 和 Google Assistant,采用复杂的多阶段管道。通常先举行叫醒词检测,接着主动语音辨认(ASR)将语音转文本,自然语言理解(NLU)分析文本确定用户意图,再由自然语言生成(NLG)组成回复,末了通过文本转语音(TTS)让助手发声。近期系统集成 LLM 简化管道,但多模块方法会导致延迟大,不得当低延迟实时应用,且音频转文本易丢失关键声学信息。
(二)端到端模子

旨在克服管道系统局限,直接处置惩罚音频表征,然后生成音频相应。一些模子用 Whisper 编码器将语音信号转嵌入,但其需完整输入序列才能处置惩罚,不得当实时流式场景。尚有方法将一连音频信号编码为离散单元(音频令牌),再将这些单元纳入 LLM 词汇表举行训练,但存在需输出完整文本相应后才能生成语音输出导致延迟增长、文本和语音令牌传达相同语义但通常无法逐令牌对齐等题目。
(三)全双工模子

与端到端模子机械式轮流对话不同,全双工模子允许同时双向通信,模拟自然人际互动,可同时收听和说话,为自主互动奠定底子,如 Moshi 模子结合了多种头脑,但其内省机制需特定设置支持不同任务,难以单一模子支持所有应用。而 Voila-autonomous 在集成 LLM 文本能力与新音频能力、易于定制化、同一建模多任务等方面具独特优势。
三、Voila 模子

(一)模子架构

Voila 采用基于条理化多尺度 Transformer 的架构,包括语音语言 LLM 主干和音频 Transformer。此中,LLM 主干用于建模语义信息,音频 Transformer 基于 LLM 的语义输出建模音频令牌,终极由 Voila tokenizer 解码覆信频。Voila-e2e 支持端到端语音对话,Voila-autonomous 则进一步扩展为全双工模子,可同时举行监听、推理和说话。
(二)语音标记化

通过将一连音频信号转换为离散令牌,使 LLM 能通过下一步推测举行训练/微调以理解和生成音频。将语义令牌和声学令牌相结合,采用四级残差矢量量化(RVQ)方法,用 10 万小时音频数据训练 tokenizer,其能将语义信息提取到第一层令牌,其他层学习声学信息。
(三)文本和音频对齐


  • 多任务对齐 :将提取的离散音频令牌整合到 LLM 词汇表中,在主动语音辨认(ASR)、文本转语音(TTS)和指令遵循等任务上训练模子,同一于聊天风格格式,以下一步推测为训练目的。如 ASR 输入输出序列为 “ 音频输入  文本输出 ”,模子生成对应转录;TTS 格式为 “ 文本输入  音频输出 ”,推测音频令牌。
  • 文本 - 音频交织对齐 :采用布局化交织对齐策略,将文本的每个语义单元与对应的音频令牌交替配对。例如,对于口语输入 “Hello I am Voila”,输入序列编码为 “       ”,便于精细对齐,提拔模子生成表达丰富且同步语音的能力。
(四)百万预建声音与定制新声音

Voila 可通过文本指令定义角色特征,还能从音频样本学习语音嵌入,捕捉说话者的独特音色、语调和口音等特征,进而生成语音。训练时用 Wespeaker 提取所有带音频输出训练数据的说话者嵌入,对于涉及音频生成的任务,向系统提示添加三个特殊标记。推理时,可从任意长度的音频剪辑实时提取语音嵌入,结合文本指令创建能自然互动的 AI 角色,目前已预建超百万种不同声音。
四、实行

(一)Voila 基准测试

从五个常用 LLM 评估数据会合采样构建 Voila 基准测试,涵盖多领域,将样本转换为语音输入,用于全面评估语音 - 语言模子。如 MMLU 中各学科随机选样,MATH 数据集各主题选样等,共包含 66 个主题、1580 个样本。评估时,先用 Whisper 系统转录模子生成的语音,再用 GPT-4o 根据题目和参考答案给模子输出打分,效果表现 Voila 在与 SpeechGPT 和 Moshi 的对比中表现更优,尤其在数学和代码领域提拔显著。
(二)ASR 和 TTS 评估


  • ASR :在 LibriSpeech test-clean 数据集上,以词错误率(WER)为指标,Voila 无论是否利用 LibriSpeech 训练数据,均展现出与顶尖 ASR 模子相当的性能,未利用时 WER 为 4.8%,利用时达 2.7%。
  • TTS :遵循 Vall-E 协议,用 HuBERT-Large 转录生成音频,Voila 在两种设置下 WER 分别为 3.2% 和 2.8%,优于其他模子。
五、结论

Voila 是一系列语音 - 语言底子模子,支持口语对话、ASR、TTS 等任务,通过语音标记化、条理化建模和音频 - 文本对齐创新,性能与顶尖模子相当或更优。其基于独特多尺度 Transformer 架构,紧密集成语音和语言能力,允许用户创建多样且富有表现力的语音角色,提拔了交互质量,向着能作为人类活动中的主动和富有同理心的同伴的自主语音 AI 迈进了重要一步,且模子和代码已公开以支持进一步研究。
Voila 论文焦点技术汇总



免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
继续阅读请点击广告

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
回复

使用道具 举报

×
登录参与点评抽奖,加入IT实名职场社区
去登录
快速回复 返回顶部 返回列表