开源语音实时交互新突破:LLaMA-Omni实现大语言模型无缝语音交互 ...

打印 上一主题 下一主题

主题 871|帖子 871|积分 2613

开源语音实时交互新突破:LLaMA-Omni实现大语言模型无缝语音交互

原创 旺知识 旺知识 2024年09月22日 12:20 广东
像 GPT-4o 如许的模型通过语音实现了与大型语言模型(LLMs)的实时交互,与基于文本的传统交相互比,显著提升了用户体验。然而,目前在怎样构建基于开源 LLMs 的语音交互模型方面仍缺乏探索。为相识决这个问题,我们提出了 LLaMA-Omni,这是一个新颖的模型架构,旨在与 LLMs 进行低延迟和高质量的语音交互。LLaMA-Omni 集成了一个预练习的语音编码器、一个语音适配器、一个 LLM 和一个流式语音解码器。它消除了语音转录的须要,并且可以或许直接从语音指令中同时天生文本和语音响应,延迟极低。我们基于最新的 Llama-3.1-8BInstruct 模型构建了我们的模型。为了使模型与语音交互场景保持一致,我们构建了一个名为 InstructS2S-200K 的数据集,此中包罗 200K 条语音指令和相应的语音响应。实验效果表明,与以前的语音-语言模型相比,LLaMA-Omni 在内容和风格上都提供了更好的响应,响应延迟低至 226 毫秒。别的,练习 LLaMA-Omni 仅须要不到 3 天的时间,仅需 4 个 GPU,为未来基于最新 LLMs 的语音-语言模型的高效开发铺平了道路。
我们翻译解读最新论文:与大型语言模型无缝语音交互,文末有论文链接。


作者:张长旺,图源:旺知识
1 弁言
以 ChatGPT(OpenAI, 2022)为代表的大型语言模型(LLMs)已成为功能强大的通用任务求解器,可以或许通过会话交互在一样平常生活中协助人们。然而,目前大多数 LLMs 仅支持基于文本的交互,这限定了它们在文本输入和输出不抱负的场景中的应用。近来,GPT4o(OpenAI, 2024)的出现使得通过语音与 LLMs 交互成为可能,以极低的延迟响应用户的指令,并显著提升了用户体验。然而,开源社区在构建基于 LLMs 的此类语音交互模型方面仍缺乏探索。因此,怎样实现与 LLMs 的低延迟和高质量的语音交互是一个迫切须要办理的挑战。


与 LLMs 实现语音交互的最简单方法是通过基于主动语音识别(ASR)和文本到语音(TTS)模型的级联系统,此中 ASR 模型将用户的语音指令转录成文本,TTS 模型将 LLM 的响应合成为语音。然而,由于级联系统序次输出转录的文本、文本响应和语音响应,整个系统的延迟每每较高。相比之下,一些多模态语音-语言模型已经被提出(Zhang et al., 2023; Rubenstein et al., 2023),它们将语音离散化为标记,并扩展 LLM 的词汇表以支持语音输入和输出。理论上,这种语音-语言模型可以直接从语音指令天生语音响应,而不产生中间文本,从而实现极低的响应延迟。然而,在实践中,由于涉及的复杂映射,直接语音到语音的天生可能具有挑战性,因此通常天生中间文本以实现更高的天生质量(Zhang et al., 2023),只管这牺牲了一些响应延迟。
在本文中,我们提出了一个新颖的模型架构 LLaMA-Omni,它实现了与 LLMs 的低延迟和高质量交互。LLaMA-Omni 由语音编码器、语音适配器、LLM 和流式语音解码器构成。用户的语音指令由语音编码器编码,然后由语音适配器处理,然后输入到 LLM 中。LLM 直接从语音指令解码文本响应,而不是先将语音转录成文本。语音解码器是一个非自回归(NAR)流式 Transformer(Ma et al., 2023),它以 LLM 的输出隐藏状态为输入,并使用毗连时序分类(CTC; Graves et al., 2006a)预测与语音响应相对应的离散单元序列。在推理过程中,随着 LLM 自回归地天生文本响应,语音解码器同时天生相应的离散单元。为了更好地与语音交互场景的特点保持一致,我们通过重写现有文本指令数据和实行语音合成构建了一个名为 InstructS2S-200K 的数据集。实验效果表明,LLaMA-Omni 可以同时天生高质量的文本和语音响应,延迟低至 226 毫秒。别的,与以前的语音-语言模型如 SpeechGPT(Zhang et al., 2023)相比,LLaMA-Omni 显著减少了所需的练习数据和盘算资源,使得基于最新 LLMs 的强大语音交互模型的高效开发成为可能。
2 模型:LLAMA-OMNI
在这一部门,我们介绍了 LLaMA-Omni 的模型架构。如图 2 所示,它由语音编码器、语音适配器、LLM 和语音解码器构成。我们将用户的语音指令、文本响应和语音响应分别表示为 XS、YT 和 YS。


2.1 语音编码器
我们使用 Whisper-large-v32(Radford et al., 2023)的编码器作为语音编码器 E。Whisper 是一个在大量音频数据上练习的通用语音识别模型,其编码器可以或许从语音中提取有意义的表示。具体来说,对于用户的语音指令 XS,编码的语音表示由 H = E(XS) 给出,此中 H = [h1, ..., hN] 是长度为 N 的语音表示序列。在整个练习过程中,我们保持语音编码器的参数不变。
2.2 语音适配器
为了使 LLM 可以或许理解输入的语音,我们引入了一个可练习的语音适配器 A,将语音表示映射到 LLM 的嵌入空间中。按照 Ma et al. (2024c) 的方法,我们的语音适配器首先对语音表示 H 进行下采样以减少序列长度。具体来说,每 k 个一连帧沿特征维度进行毗连:


接下来,H′ 通过一个两层感知器,中间有 ReLU 激活函数,得到最终的语音表示 S。上述过程可以情势化为:


2.3 大型语言模型


我们使用 Llama-3.1-8B-Instruct(Dubey et al., 2024)作为 LLM M,它目前是开始进的开源 LLM。它具有强大的推理能力,并且与人类偏好很好地对齐。提示模板 P(·) 如图 3 所示。将语音表示序列 S 添补到对应于 <speech> 的位置,然后将整个序列 P(S) 输入到 LLM 中。末了,LLM 基于语音指令自回归地天生文本响应 YT = [yT1, ..., yTM],并且使用交叉熵丧失进行练习:


2.4 语音解码器
对于语音响应 YS,我们首先遵循 Zhang et al. (2023) 将语音离散化为离散单元。具体来说,我们使用预练习的 HuBERT(Hsu et al., 2021)模型提取语音的一连表示,然后使用 K-means 模型将这些表示转换为离散的聚类索引。随后,将一连雷同的索引合并为一个单元,得到最终的离散单元序列 YU = [yU1, ..., yUL],yUi ∈ {0, 1, ..., K − 1},∀1 ≤ i ≤ L,此中 K 是聚类的数量,L 是离散单元序列的长度。离散单元可以使用额外的基于单元的声码器 V(Polyak et al., 2021)转换为波形。
为了同时天生文本响应和语音响应,我们在 LLM 后面添加了一个流式语音解码器 D。它由几个标准 Transformer(Vaswani et al., 2017)层构成,与 LLaMA 的架构雷同,每个层都包罗一个因果自注意力模块和一个前馈网络。雷同于 Ma et al. (2024a); Zhang et al. (2024b),语音解码器以非自回归方式运行,它以 LLM 的输出隐藏状态为输入,并天生与语音响应相对应的离散单元序列。具体来说,对应于文本响应的输出隐藏状态表示为 C = [c1, ..., cM],此中 ci = M(P(S), YT<i)。我们首先通过一个因子 λ 上采样每个隐藏状态,得到上采样的隐藏状态序列 ˜C = [˜c1, ...˜cλ·M],此中 ˜ci = c⌊i/λ⌋。接下来,˜C 被输入到语音解码器 D,输出的隐藏状态序列表示为 O = [o1, ..., oλ·M]。我们使用毗连时序分类(CTC; Graves et al., 2006a)将 O 与离散单元序列 YU 对齐。具体来说,CTC 通过添加一个特殊的空缺标记 ϵ 来扩展输出空间:



此中 W ∈ R(K+1)×d 和 b ∈ RK+1 是线性层的权重和偏置,序列 A = [a1, ..., aλ·M] 被称为对齐。为了模拟输入和输出之间的可变长度映射,CTC 引入了一个折叠函数 β(A),它首先合并 A 中所有一连的重复标记,然后消除所有空缺标记 ϵ。例如:β([1, 1, 2, ϵ, ϵ, 2, 3]) = [1, 2, 2, 3]。在练习期间,CTC 通过对所有可能的对齐进行边缘化如下:


此中 β−1(YU) 表示所有可能的长度为 λ·M 的对齐,可以折叠成 YU。对齐以非自回归方式建模。在推理过程中,我们选择最佳对齐 A* = arg maxA P(A|O),并对得到的离散单元序列应用折叠函数 β(A*),然后将其输入声码器以合成波形。
2.5 练习
如图 2 所示,我们接纳两阶段练习策略对 LLaMA-Omni 进行练习。在第一阶段,我们练习模型直接从语音指令天生文本响应。具体来说,语音编码器被冻结,语音适配器和 LLM 使用方程(3)中的目标 LLLM 进行练习。在这个阶段,语音解码器不参与练习。在第二阶段,我们练习模型天生语音响应。在这个阶段,语音编码器、语音适配器和 LLM 都被冻结,只有语音解码器使用方程(5)中的目标 LCTC 进行练习。
2.6 推理
在推理过程中,LLM 基于语音指令自回归地天生文本响应。同时,由于我们的语音解码器使用因果注意力,一旦 LLM 天生了文本响应前缀 YT≤i,相应的上采样隐藏状态 ˜C≤λ·i 就可以输入到语音解码器以天生部门对齐 A≤λ·i,这反过来又产生与天生的文本前缀相对应的离散单元。为了进一步实现语音波形的流式合成,当天生的单元数量达到预界说的块大小 Ω 时,我们将这个单元段输入到声码器以合成语音段,然后立刻播放给用户。因此,用户可以在文本响应完全天生之前就开始听语音响应,确保了不受文本响应长度影响的低响应延迟。算法 1 形貌了上述过程。别的,由于语音解码器使用非自回归建模,每个文本标记 yTi 对应的对齐 Aλ·(i−1)+1:λ·i 在块内并行天生。因此,同时天生文本和语音的解码速度与仅天生文本的速度没有显著差异。
3 构建语音指令数据:INSTRUCTS2S-200K


为了练习 LLaMA-Omni,我们须要由 <语音指令,文本响应,语音响应> 构成的三元组数据。然而,大多数公开可用的指令数据都是文本情势的。因此,我们通过以下过程基于现有的文本指令数据构建语音指令数据:
步调 1:指令重写 由于语音输入与文本输入有不同的特点,我们根据以下规则重写文本指令:(1)向指令中添加得当的添补词(例如“嘿”,“所以”,“嗯”等),以模拟自然语音模式。(2)将指令中的非文本符号(如数字)转换为相应的口语情势,以确保 TTS 精确合成。(3)修改指令,使其相对简洁,没有过多的赘述。我们使用 Llama-3-70BInstruct4 模型根据这些规则重写指令。提示可以在附录 A 中找到。


步调 2:响应天生 在语音交互中,现有的文本指令响应不得当直接用作语音指令响应。这是由于,在基于文本的交互中,模型倾向于天生冗长的响应,使用复杂的句子,并且可能包括非语言元素,如有序列表或括号。然而,在语音交互中,通常更喜欢简洁但信息丰富的响应(Anonymous, 2024)。因此,我们使用 Llama-3-70B-Instruct 模型根据以下规则为语音指令天生响应:(1)响应不应包罗 TTS 模型无法合成的内容,例如括号、有序列表等。(2)响应应该非常简洁,制止冗长的表明。提示可以在附录 A 中找到。


步调 3:语音合成 在得到得当语音交互的指令和响应后,我们须要进一步将它们转换为语音使用 TTS 模型。对于指令,为了使合成的语音听起来更自然,我们使用 CosyVoice-300M-SFT(Du et al., 2024)模型,随机选择每个指令的男性或女性声音。对于响应,我们使用在 LJSpeech(Ito & Johnson, 2017)数据集上练习的 VITS(Kim et al., 2021)模型将响应合成为标准声音。
对于基本的文本指令,我们从 Alpaca 数据集(Taori et al., 2023)中网络了约莫 50K 条指令,涵盖了广泛的主题。别的,我们从 UltraChat 数据集(Ding et al., 2023)中网络了约莫 150K 条指令,主要包罗关于世界的问题。请注意,UltraChat 是一个大规模的多轮对话数据集,但我们只选择前 150K 条记录,并仅使用第一轮指令。使用上述数据集和数据处理流程,我们最终得到了 200K 条语音指令数据,称为 InstructS2S-200K。
4 实验
4.1 实验设置
数据集 对于练习数据,我们使用第 3 节中提到的 InstructS2S-200K 数据集,包罗 200K 条语音指令数据。为了提取与目标语音相对应的离散单元,我们使用了一个预练习的 K-means quantizer9,它从 HuBERT 特征中学习了 1000 个聚类。使用预练习的 HiFi-GAN 声码器(Kong et al., 2020; Polyak et al., 2021)将离散单元合成为波形。对于评估数据,我们从 AlpacaEval(Li et al., 2023)中选择了两个子集:helpful base 和 vicuna,由于它们的问题更得当语音交互场景。我们移除了与数学和代码相关的问题,总共得到 199 条指令。为了得到语音版本,我们使用 CosyVoice-300M-SFT 模型将指令合成为语音。在以下部门中,我们将此测试集称为 InstructS2S-Eval。
模型配置 我们使用 Whisper-large-v3 的编码器作为语音编码器,并使用 Llama-3.1-8B-Instruct 作为 LLM。语音适配器对语音表示进行 5× 下采样。语音解码器由 2 个 Transformer 层构成,与 LLaMA 的架构雷同,具有 4096 维的隐藏维度,32 个注意力头,以及 11008 维的前馈网络。上采样因子 λ 设置为25。对于输入到声码器的最小单元块大小 Ω,我们在主要实验中将 Ω 设置为 +∞,这意味着我们等待整个单元序列天生后,再将其输入到声码器进行语音合成。在后续实验中,我们将分析怎样调解 Ω 的值以控制响应延迟,以及延迟和语音质量之间的权衡。

练习 LLaMA-Omni 遵循两阶段练习过程。在第一阶段,我们使用 32 的批处理大小练习 3 个 epoch 的语音适配器和 LLM。我们使用余弦学习率调度器,在前 3% 的步调中进行预热,峰值学习率设置为 2e-5。在第二阶段,我们练习语音解码器,使用与第一阶段雷同的批处理大小、步数和学习率调度器,但峰值学习率设置为 2e-4。整个练习过程约莫须要 65 小时,在 4 个 NVIDIA L40 GPU 上完成。
4.2 评估
由于 LLaMA-Omni 可以根据语音指令天生文本和语音响应,我们从以下方面评估模型的性能:
ChatGPT 分数 为了评估模型遵循语音指令的能力,我们使用 GPT4o(OpenAI, 2024)对模型的响应进行评分。对于 S2TIF 任务,评分基于语音指令的转录文本和模型的文本响应。对于 S2SIF 任务,我们首先使用 Whisper-large-v3 模型将模型的语音响应转录为文本,然后以与 S2TIF 任务雷同的方式进行评分。GPT-4o 在两个方面给出分数:内容和风格。内容分数评估模型的响应是否充实办理了用户的指令,而风格分数评估模型的响应风格是否得当语音交互场景。详细的提示可以在附录 A 中找到。


语音-文本对齐 为了评估文本响应和语音响应之间的对齐程度,我们使用 Whisper-large-v3 模型将语音响应转录为文本,然后盘算转录文本和文本响应之间的词错误率(WER)和字符错误率(CER)。我们分别将这些指标称为 ASR-WER 和 ASR-CER。
语音质量 为了评估天生的语音质量,我们使用一个称为 UTMOS(Saeki et al., 2022)的平均意见得分(MOS)预测模型,该模型可以或许预测语音的 MOS 分数以评估其自然度。我们将此指标称为 UTMOS 分数。
响应延迟 对于语音交互模型来说,延迟是一个关键指标,指的是从输入语音指令到开始语音响应之间的时间隔断,这对用户体验有紧张影响。别的,我们盘算文本响应中已经天生的单词数量,当语音响应开始时,称为 #lagging word。
4.3 基线系统
我们包括以下语音-语言模型作为基线系统:
SpeechGPT SpeechGPT(Zhang et al., 2023)是一个支持语音输入和输出的语音-语言模型。我们使用原始论文中接纳的级联模态提示进行解码,序次输出基于语音指令的文本指令、文本响应和语音响应。
SALMONN (+TTS) SALMONN(Tang et al., 2024)是一个可以或许担当语音和音频输入并以文本回应的 LLM,可以或许实行 S2TIF 任务。对于 S2SIF 任务,我们在 SALMOON 后面添加一个 VITS TTS 模型,以级联方式天生语音响应。
Qwen2-Audio (+TTS) Qwen2-Audio(Chu et al., 2024)是一个功能强大的通用音频理解模型,可以或许实行各种与音频相关的任务,包括 S2TIF 任务。我们还构建了一个与 Qwen2-Audio 和 VITS 级联的系统,以完成 S2SIF 任务。
4.4 主要效果
表1展示了 InstructS2S-Eval 基准测试上的主要效果。首先,对于 S2TIF 任务,从内容的角度来看,LLaMA-Omni 表现出与以前模型相比的显著改进。这主要是由于 LLaMA-Omni 是基于最新的 Llama-3.1-8BInstruct 模型开发的,使用了其强大的文本指令遵循能力。从风格的角度来看,SALMONN 和 Qwen2-Audio 得到较低的分数,由于它们是语音到文本模型。它们的输出风格与语音交互场景不一致,经常产生格式化的内容,并包罗大量冗余表明。相比之下,SpeechGPT 作为语音到语音模型,得到了更高的风格分数。同样,我们的 LLaMA-Omni 得到了最高的风格分数,表明在经过我们的 InstructS2S-200K 数据集练习后,输出风格已经很好地与语音交互场景对齐。对于 S2SIF 任务,LLaMA-Omni 也在内容和风格分数上优于以前的模型。这进一步证明了 LLaMA-Omni 可以或许有用地以简洁高效的方式通过语音办理用户的指令。


别的,在文本响应和语音响应之间的对齐方面,LLaMA-Omni 达到了最低的 ASR-WER 和 ASR-CER 分数。相比之下,SpeechGPT 在对齐文本和语音响应方面表现不佳,可能是由于它序次天生文本和语音。级联系统,如 SALMONN+TTS 和 Qwen2-Audio+TTS 的语音-文本对齐也不抱负,主要是由于天生的文本响应可能包罗无法合成为语音的字符。与此相比,LLaMA-Omni 达到了最低的 ASR-WER 和 ASR-CER 分数,展示了天生的语音和文本响应之间更高程度的对齐,进一步验证了我们方法在同时天生文本和语音响应方面的优势。
4.5 语音质量和响应延迟之间的权衡
LLaMA-Omni 可以同时天生文本响应和与语音响应相对应的离散单元。如第 2.6 节所述,为了进一步实现流式波形天生,当天生的离散单元数量达到某个块大小 Ω 时,单元块被输入到声码器以合成并播放语音。通过调解 Ω 的值,我们可以控制系统的延迟,较小的 Ω 对应较低的系统延迟。当 Ω = +∞ 时,等同于等待所有单元天生后才开始合成语音。同时,Ω 的值也影响天生的语音质量。较小的 Ω 意味着语音被划分为更多的段进行合成,这可能导致段与段之间的不连贯,从而低落团体的语音连贯性。
为了更好地理解 Ω 的影响,我们探索了在不同 Ω 设置下系统的延迟、文本和语音响应之间的对齐度,以及天生的语音质量。如表 2 所示,当 Ω 设置为 10 时,系统的响应延迟低至 226 毫秒,乃至低于 GPT-4o 平均音频延迟的 320 毫秒。此时,语音响应在开始时平均滞后 1.82 个单词。当 Ω 设置为 +∞ 时,延迟增加到约莫 2 秒。对于 ASR-WER 和 ASR-CER 指标,我们惊奇地发现随着块大小的增加,错误率也在增加。我们认为这可能有两个原因。一方面,声码器可能更可靠地处理短单元序列而不是长序列,由于它通常在较短的序列上进行练习。另一方面,我们使用的 ASR 模型 Whisper-large-v3 具有很强的鲁棒性。即使在较小的 Ω 下语音有些不连贯,对 ASR 识别精度的影响也很小。因此,我们进一步使用 UTMOS 指标评估天生语音的自然度。它表明随着 Ω 的增加,语音的自然度得到改善,由于语音中的不连贯性减少了。总之,我们可以根据不同的情境调解 Ω 的值,以实现响应延迟和语音质量之间的权衡。


4.6 解码时间
表 3 列出了不同模型在 S2TIF 和 S2SIF 任务上的平均解码时间。对于 S2TIF 任务,SpeechGPT 须要先输出文本指令,然后输出文本响应,而 SALMONN 和 Qwen2-Audio 倾向于产生冗长的响应。相比之下,LLaMA-Omni 提供简洁的回复,直接天生,从而显著低落相识码时间,平均每条指令只需 1.49 秒。对于 S2SIF 任务,SpeechGPT 序次输出文本和语音响应,导致解码时间是仅天生文本响应的 6 倍。相比之下,LLaMA-Omni 同时输出文本和语音响应,并接纳非自回归架构天生离散单元。因此,总天生时间只增加了 1.28 倍,展示了 LLaMA-Omni 在解码速度方面的优势。


4.7 案例研究

为了直观地理解不同模型之间的响应差异,我们在表 4 中提供了一个示例。可以观察到 Qwen2-Audio 的响应相当冗长,并包括诸如换行符和括号等无法合成为语音的元素。SALMONN 的响应也有些长。SpeechGPT 的响应风格更得当语音交互场景,但其响应包罗的信息量较少。相比之下,LLaMA-Omni 给出的响应更加详细和有帮助,同时保持了简洁的风格,在语音交互场景中优于以前的模型。




5 相关工作
语音/音频语言模型 随着语言模型在自然语言处理范畴的乐成,研究职员开始探索怎样使用语言模型对语音或音频进行建模。早期的工作尝试在音频的语义标记或声学标记上练习语言模型,使得在不须要文本的情况下天生音频成为可能(Lakhotia et al., 2021; Nguyen et al., 2023; Borsos et al., 2023)。别的,通过联合练习语音标记和文本,像 VALL-E(Wang et al., 2023b)和 VioLA(Wang et al., 2023c)如许的解码器仅模型可以实行语音识别、语音翻译和语音合成等任务。然而,上述模型并非建立在 LLMs 之上。为了使用 LLMs 的力量,许多研究探索了怎样基于 LLMs 构建语音-语言模型,如 LLaMA,这可以进一步细分为两种类型。第一种类型,以 SpeechGPT(Zhang et al., 2023; 2024a)和 AudioPaLM(Rubenstein et al., 2023)为代表,通过向 LLM 的词汇表中添加语音标记,并继续使用语音和文本数据进行预练习,创建原生多模态语音-文本模型。
然而,这种方法通常须要大量的数据和大量的盘算资源。第二种类型通常涉及在 LLM 之前添加语音编码器,并对整个模型进行微调,使其具备语音理解能力(Shu et al., 2023; Deshmukh et al., 2023),例如语音识别(Fathullah et al., 2024a; Yu et al., 2024; Ma et al., 2024c; Hono et al., 2024)、语音翻译(Wu et al., 2023; Wang et al., 2023a; Chen et al., 2024)或其它通用的语音到文本任务(Chu et al., 2023; Tang et al., 2024; Chu et al., 2024; Fathullah et al., 2024b; Das et al., 2024; Hu et al., 2024)。然而,这些方法通常只关注语音或音频理解,而没有天生它们的能力。与以前的工作相比,LLaMA-Omni 为 LLM 配备了语音理解和天生能力,使其可以或许实行通用的语音指令遵循任务。别的,LLaMA-Omni 具有较低的练习成本,便于基于最新 LLMs 进行开发。
6 结论
在本文中,我们提出了一个创新的模型架构 LLaMA-Omni,它实现了与 LLMs 的低延迟和高质量语音交互。LLaMA-Omni 建立在最新的 Llama-3.1-8B-Instruct 模型之上,增加了一个用于语音理解的语音编码器和一个可以同时天生文本和语音响应的流式语音解码器。为了使模型与语音交互场景保持一致,我们构建了一个包罗 200K 条语音指令及相应语音响应的语音指令数据集 InstructionS2S-200K。实验效果表明,与以前的语音-语言模型相比,LLaMA-Omni 在内容和风格上都提供了更优质的响应,响应延迟低至 226 毫秒。别的,练习 LLaMA-Omni 仅需不到 3 天的时间,仅需 4 个 GPU,使得基于最新 LLMs 的语音交互模型的快速开发成为可能。在未来,我们计划探索增强天生语音响应的表达性并提高实时交互能力。


作者:张长旺,图源:旺知识
参考资料
标题:LLAMA-OMNI: SEAMLESS SPEECH INTERACTION WITH LARGE LANGUAGE MODELS
作者:Qingkai Fang, Shoutao Guo, Yan Zhou, Zhengrui Ma, Shaolei Zhang, Yang Feng
单位:Key Laboratory of Intelligent Information Processing, Institute of Computing Technology, Chinese Academy of Sciences (ICT/CAS); Key Laboratory of AI Safety, Chinese Academy of Sciences; University of Chinese Academy of Sciences, Beijing, China
标签:人工智能、自然语言处理、语音交互、大型语言模型、实时交互
概述:LLaMA-Omni 模型通过整合预练习的语音编码器、适配器、大型语言模型和流式语音解码器,实现了与大型语言模型的低延迟、高质量的语音交互。
链接:https://arxiv.org/pdf/2409.06666

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

知者何南

金牌会员
这个人很懒什么都没写!

标签云

快速回复 返回顶部 返回列表