开源语音实时交互新突破:LLaMA-Omni实现大语言模子无缝语音交互 ...

悠扬随风  论坛元老 | 2024-10-1 00:08:34 | 来自手机 | 显示全部楼层 | 阅读模式
打印 上一主题 下一主题

主题 1722|帖子 1722|积分 5166

像 GPT-4o 这样的模子通过语音实现了与大型语言模子(LLMs)的实时交互,与基于文本的传统交相互比,显著提拔了用户体验。然而,现在在如何构建基于开源 LLMs 的语音交互模子方面仍缺乏探索。为了办理这个题目,我们提出了 LLaMA-Omni,这是一个新颖的模子架构,旨在与 LLMs 进行低延长和高质量的语音交互。LLaMA-Omni 集成了一个预练习的语音编码器、一个语音适配器、一个 LLM 和一个流式语音解码器。它消除了语音转录的需要,并且能够直接从语音指令中同时生成文本和语音响应,延长极低。我们基于最新的 Llama-3.1-8BInstruct 模子构建了我们的模子。为了使模子与语音交互场景保持划一,我们构建了一个名为 InstructS2S-200K 的数据集,其中包含 200K 条语音指令和相应的语音响应。实验效果表明,与以前的语音-语言模子相比,LLaMA-Omni 在内容和风格上都提供了更好的响应,响应延长低至 226 毫秒。别的,练习 LLaMA-Omni 仅需要不到 3 天的时间,仅需 4 个 GPU,为未来基于最新 LLMs 的语音-语言模子的高效开发铺平了门路。
我们翻译解读最新论文:与大型语言模子无缝语音交互,文末有论文链接。

1 引言
以 ChatGPT(OpenAI, 2022)为代表的大型语言模子(LLMs)已成为功能强大的通用任务求解器,能够通过会话交互在一样平常生活中协助人们。然而,现在大多数 LLMs 仅支持基于文本的交互,这限制了它们在文本输入和输出不抱负的场景中的应用。近来,GPT4o(OpenAI, 2024)的出现使得通过语音与 LLMs 交互成为大概,以极低的延长响应用户的指令,并显著提拔了用户体验。然而,开源社区在构建基于 LLMs 的此类语音交互模子方面仍缺乏探索。因此,如何实现与 LLMs 的低延长和高质量的语音交互是一个迫切需要办理的挑战。

与 LLMs 实现语音交互的最简单方法是通过基于自动语音辨认(ASR)和文本到语音(TTS)模子的级联体系,其中 ASR 模子将用户的语音指令转录成文本,TTS 模子将 LLM 的响应合成为语音。然而,由于级联体系顺序输出转录的文本、文本响应和语音响应,整个体系的延长每每较高。相比之下,一些多模态语音-语言模子已经被提出(Zhang et al., 2023; Rubenstein et al., 2023),它们将语音离散化为标记,并扩展 LLM 的词汇表以支持语音输入和输出。理论上,这种语音-语言模子可以直接从语音指令生成语音响应,而不产生中间文本,从而实现极低的响应延长。然而,在实践中,由于涉及的复杂映射,直接语音到语音的生成大概具有挑战性,因此通常生成中间文本以实现更高的生成质量(Zhang et al., 2023),尽管这牺牲了一些响应延长。
在本文中,我们提出了一个新颖的模子架构 LLaMA-Omni,它实现了与 LLMs 的低延长和高质量交互。LLaMA-Omni 由语音编码器、语音适配器、LLM 和流式语音解码器组成。用户的语音指令由语音编码器编码,然后由语音适配器处理,然后输入到 LLM 中。LLM 直接从语音指令解码文本响应,而不是先将语音转录成文本。语音解码器是一个非自回归(NAR)流式 Transformer(Ma et al., 2023),它以 LLM 的输出隐藏状态为输入,并使用连接时序分类(CTC; Graves et al., 2006a)预测与语音响应相对应的离散单位序列。在推理过程中,随着 LLM 自回归地生成文本响应,语音解码器同时生成相应的离散单位。为了更好地与语音交互场景的特点保持划一,我们通过重写现有文本指令数据和执行语音合成构建了一个名为 InstructS2S-200K 的数据集。实验效果表明,LLaMA-Omni 可以同时生成高质量的文本和语音响应,延长低至 226 毫秒。别的,与以前的语音-语言模子如 SpeechGPT(Zhang et al., 2023)相比,LLaMA-Omni 显著减少了所需的练习数据和计算资源,使得基于最新 LLMs 的强大语音交互模子的高效开发成为大概。
2 模子:LLAMA-OMNI
在这一部门,我们先容了 LLaMA-Omni 的模子架构。如图 2 所示,它由语音编码器、语音适配器、LLM 和语音解码器组成。我们将用户的语音指令、文本响应和语音响应分别表现为 XS、YT 和 YS。

2.1 语音编码器
我们使用 Whisper-large-v32(Radford et al., 2023)的编码器作为语音编码器 E。Whisper 是一个在大量音频数据上练习的通用语音辨认模子,其编码器能够从语音中提取有意义的表现。详细来说,对于用户的语音指令 XS,编码的语音表现由 H = E(XS) 给出,其中 H = [h1, …, hN] 是长度为 N 的语音表现序列。在整个练习过程中,我们保持语音编码器的参数不变。
2.2 语音适配器
为了使 LLM 能够理解输入的语音,我们引入了一个可练习的语音适配器 A,将语音表现映射到 LLM 的嵌入空间中。按照 Ma et al. (2024c) 的方法,我们的语音适配器首先对语音表现 H 进行下采样以减少序列长度。详细来说,每 k 个一连帧沿特征维度进行连接:

接下来,H′ 通过一个两层感知器,中间有 ReLU 激活函数,得到终极的语音表现 S。上述过程可以形式化为:

2.3 大型语言模子

我们使用 Llama-3.1-8B-Instruct(Dubey et al., 2024)作为 LLM M,它现在是开始进的开源 LLM。它具有强大的推理本领,并且与人类偏好很好地对齐。提示模板 P(·) 如图 3 所示。将语音表现序列 S 填充到对应于 的位置,然后将整个序列 P(S) 输入到 LLM 中。末了,LLM 基于语音指令自回归地生成文本响应 YT = [yT1, …, yTM],并且使用交叉熵丧失进行练习:

2.4 语音解码器
对于语音响应 YS,我们首先遵循 Zhang et al. (2023) 将语音离散化为离散单位。详细来说,我们使用预练习的 HuBERT(Hsu et al., 2021)模子提取语音的一连表现,然后使用 K-means 模子将这些表现转换为离散的聚类索引。随后,将一连相同的索引合并为一个单位,得到终极的离散单位序列 YU = [yU1, …, yUL],yUi ∈ {0, 1, …, K − 1},∀1 ≤ i ≤ L,其中 K 是聚类的数量,L 是离散单位序列的长度。离散单位可以使用额外的基于单位的声码器 V(Polyak et al., 2021)转换为波形。
为了同时生成文本响应和语音响应,我们在 LLM 背面添加了一个流式语音解码器 D。它由几个标准 Transformer(Vaswani et al., 2017)层组成,与 LLaMA 的架构相同,每个层都包含一个因果自注意力模块和一个前馈网络。雷同于 Ma et al. (2024a); Zhang et al. (2024b),语音解码器以非自回归方式运行,它以 LLM 的输出隐藏状态为输入,并生成与语音响应相对应的离散单位序列。详细来说,对应于文本响应的输出隐藏状态表现为 C = [c1, …, cM],其中 ci = M(P(S), YT<i)。我们首先通过一个因子 λ 上采样每个隐藏状态,得到上采样的隐藏状态序列 ˜C = [˜c1, …˜cλ·M],其中 ˜ci = c⌊i/λ⌋。接下来,˜C 被输入到语音解码器 D,输出的隐藏状态序列表现为 O = [o1, …, oλ·M]。我们使用连接时序分类(CTC; Graves et al., 2006a)将 O 与离散单位序列 YU 对齐。详细来说,CTC 通过添加一个特殊的空白标记 ϵ 来扩展输出空间:

其中 W ∈ R(K+1)×d 和 b ∈ RK+1 是线性层的权重和偏置,序列 A = [a1, …, aλ·M] 被称为对齐。为了模仿输入和输出之间的可变长度映射,CTC 引入了一个折叠函数 β(A),它首先合并 A 中全部一连的重复标记,然后消除全部空白标记 ϵ。例如:β([1, 1, 2, ϵ, ϵ, 2, 3]) = [1, 2, 2, 3]。在练习期间,CTC 通过对全部大概的对齐进行边缘化如下:

其中 β−1(YU) 表现全部大概的长度为 λ·M 的对齐,可以折叠成 YU。对齐以非自回归方式建模。在推理过程中,我们选择最佳对齐 A* = arg maxA P(A|O),并对获得的离散单位序列应用折叠函数 β(A*),然后将其输入声码器以合成波形。
2.5 练习
如图 2 所示,我们接纳两阶段练习策略对 LLaMA-Omni 进行练习。在第一阶段,我们练习模子直接从语音指令生成文本响应。详细来说,语音编码器被冻结,语音适配器和 LLM 使用方程(3)中的目标 LLLM 进行练习。在这个阶段,语音解码器不到场练习。在第二阶段,我们练习模子生成语音响应。在这个阶段,语音编码器、语音适配器和 LLM 都被冻结,只有语音解码器使用方程(5)中的目标 LCTC 进行练习。
2.6 推理
在推理过程中,LLM 基于语音指令自回归地生成文本响应。同时,由于我们的语音解码器使用因果注意力,一旦 LLM 生成了文本响应前缀 YT≤i,相应的上采样隐藏状态 ˜C≤λ·i 就可以输入到语音解码器以生成部门对齐 A≤λ·i,这反过来又产生与生成的文本前缀相对应的离散单位。为了进一步实现语音波形的流式合成,当生成的单位数量达到预定义的块巨细 Ω 时,我们将这个单位段输入到声码器以合成语音段,然后立刻播放给用户。因此,用户可以在文本响应完全生成之前就开始听语音响应,确保了不受文本响应长度影响的低响应延长。算法 1 形貌了上述过程。别的,由于语音解码器使用非自回归建模,每个文本标记 yTi 对应的对齐 Aλ·(i−1)+1:λ·i 在块内并行生成。因此,同时生成文本和语音的解码速度与仅生成文本的速度没有显著差异。
3 构建语音指令数据:INSTRUCTS2S-200K

为了练习 LLaMA-Omni,我们需要由 <语音指令,文本响应,语音响应> 组成的三元组数据。然而,大多数公开可用的指令数据都是文本形式的。因此,我们通过以下过程基于现有的文本指令数据构建语音指令数据:
步骤 1:指令重写 由于语音输入与文本输入有不同的特点,我们根据以下规则重写文本指令:(1)向指令中添加适当的填充词(例如“嘿”,“所以”,“嗯”等),以模仿天然语音模式。(2)将指令中的非文本符号(如数字)转换为相应的口语形式,以确保 TTS 精确合成。(3)修改指令,使其相对简洁,没有过多的赘述。我们使用 Llama-3-70BInstruct4 模子根据这些规则重写指令。提示可以在附录 A 中找到。

步骤 2:响应生成 在语音交互中,现有的文本指令响应不适合直接用作语音指令响应。这是因为,在基于文本的交互中,模子倾向于生成冗长的响应,使用复杂的句子,并且大概包括非语言元素,如有序列表或括号。然而,在语音交互中,通常更喜欢简洁但信息丰富的响应(Anonymous, 2024)。因此,我们使用 Llama-3-70B-Instruct 模子根据以下规则为语音指令生成响应:(1)响应不应包含 TTS 模子无法合成的内容,例如括号、有序列表等。(2)响应应该非常简洁,克制冗长的解释。提示可以在附录 A 中找到。

步骤 3:语音合成 在获得适合语音交互的指令和响应后,我们需要进一步将它们转换为语音使用 TTS 模子。对于指令,为了使合成的语音听起来更天然,我们使用 CosyVoice-300M-SFT(Du et al., 2024)模子,随机选择每个指令的男性或女性声音。对于响应,我们使用在 LJSpeech(Ito & Johnson, 2017)数据集上练习的 VITS(Kim et al., 2021)模子将响应合成为标准声音。
对于基本的文本指令,我们从 Alpaca 数据集(Taori et al., 2023)中网络了约莫 50K 条指令,涵盖了广泛的主题。别的,我们从 UltraChat 数据集(Ding et al., 2023)中网络了约莫 150K 条指令,主要包含关于天下的题目。请注意,UltraChat 是一个大规模的多轮对话数据集,但我们只选择前 150K 条纪录,并仅使用第一轮指令。使用上述数据集和数据处理流程,我们终极获得了 200K 条语音指令数据,称为 InstructS2S-200K。
4 实验
4.1 实验设置
数据集 对于练习数据,我们使用第 3 节中提到的 InstructS2S-200K 数据集,包含 200K 条语音指令数据。为了提取与目标语音相对应的离散单位,我们使用了一个预练习的 K-means quantizer9,它从 HuBERT 特征中学习了 1000 个聚类。使用预练习的 HiFi-GAN 声码器(Kong et al., 2020; Polyak et al., 2021)将离散单位合成为波形。对于评估数据,我们从 AlpacaEval(Li et al., 2023)中选择了两个子集:helpful base 和 vicuna,因为它们的题目更适合语音交互场景。我们移除了与数学和代码干系的题目,总共得到 199 条指令。为了获得语音版本,我们使用 CosyVoice-300M-SFT 模子将指令合成为语音。在以下部门中,我们将此测试集称为 InstructS2S-Eval。
模子配置 我们使用 Whisper-large-v3 的编码器作为语音编码器,并使用 Llama-3.1-8B-Instruct 作为 LLM。语音适配器对语音表现进行 5× 下采样。语音解码器由 2 个 Transformer 层组成,与 LLaMA 的架构相同,具有 4096 维的隐藏维度,32 个注意力头,以及 11008 维的前馈网络。上采样因子 λ 设置为25。对于输入到声码器的最小单位块巨细 Ω,我们在主要实验中将 Ω 设置为 +∞,这意味着我们等待整个单位序列生成后,再将其输入到声码器进行语音合成。在后续实验中,我们将分析如何调解 Ω 的值以控制响应延长,以及延长和语音质量之间的权衡。
练习 LLaMA-Omni 遵循两阶段练习过程。在第一阶段,我们使用 32 的批处理巨细练习 3 个 epoch 的语音适配器和 LLM。我们使用余弦学习率调治器,在前 3% 的步骤中进行预热,峰值学习率设置为 2e-5。在第二阶段,我们练习语音解码器,使用与第一阶段相同的批处理巨细、步数和学习率调治器,但峰值学习率设置为 2e-4。整个练习过程约莫需要 65 小时,在 4 个 NVIDIA L40 GPU 上完成。
4.2 评估
由于 LLaMA-Omni 可以根据语音指令生成文本和语音响应,我们从以下方面评估模子的性能:
ChatGPT 分数 为了评估模子遵循语音指令的本领,我们使用 GPT4o(OpenAI, 2024)对模子的响应进行评分。对于 S2TIF 任务,评分基于语音指令的转录文本和模子的文本响应。对于 S2SIF 任务,我们首先使用 Whisper-large-v3 模子将模子的语音响应转录为文本,然后以与 S2TIF 任务相同的方式进行评分。GPT-4o 在两个方面给出分数:内容和风格。内容分数评估模子的响应是否充分办理了用户的指令,而风格分数评估模子的响应风格是否适合语音交互场景。详细的提示可以在附录 A 中找到。

语音-文本对齐 为了评估文本响应和语音响应之间的对齐水平,我们使用 Whisper-large-v3 模子将语音响应转录为文本,然后计算转录文本和文本响应之间的词错误率(WER)和字符错误率(CER)。我们分别将这些指标称为 ASR-WER 和 ASR-CER。
语音质量 为了评估生成的语音质量,我们使用一个称为 UTMOS(Saeki et al., 2022)的平均意见得分(MOS)预测模子,该模子能够预测语音的 MOS 分数以评估其天然度。我们将此指标称为 UTMOS 分数。
响应延长 对于语音交互模子来说,延长是一个关键指标,指的是从输入语音指令到开始语音响应之间的时间隔断,这对用户体验有重要影响。别的,我们计算文本响应中已经生成的单词数量,当语音响应开始时,称为 #lagging word。
4.3 基线体系
我们包括以下语音-语言模子作为基线体系:
SpeechGPT SpeechGPT(Zhang et al., 2023)是一个支持语音输入和输出的语音-语言模子。我们使用原始论文中接纳的级联模态提示进行解码,顺序输出基于语音指令的文本指令、文本响应和语音响应。
SALMONN (+TTS) SALMONN(Tang et al., 2024)是一个能够担当语音和音频输入并以文本回应的 LLM,能够执行 S2TIF 任务。对于 S2SIF 任务,我们在 SALMOON 背面添加一个 VITS TTS 模子,以级联方式生成语音响应。
Qwen2-Audio (+TTS) Qwen2-Audio(Chu et al., 2024)是一个功能强大的通用音频理解模子,能够执行各种与音频干系的任务,包括 S2TIF 任务。我们还构建了一个与 Qwen2-Audio 和 VITS 级联的体系,以完成 S2SIF 任务。
4.4 主要效果
表1展示了 InstructS2S-Eval 基准测试上的主要效果。首先,对于 S2TIF 任务,从内容的角度来看,LLaMA-Omni 显示出与以前模子相比的显著改进。这主要是因为 LLaMA-Omni 是基于最新的 Llama-3.1-8BInstruct 模子开发的,利用了其强大的文本指令遵循本领。从风格的角度来看,SALMONN 和 Qwen2-Audio 获得较低的分数,因为它们是语音到文本模子。它们的输出风格与语音交互场景不划一,常常产生格式化的内容,并包含大量冗余解释。相比之下,SpeechGPT 作为语音到语音模子,获得了更高的风格分数。同样,我们的 LLaMA-Omni 获得了最高的风格分数,表明在经过我们的 InstructS2S-200K 数据集练习后,输出风格已经很好地与语音交互场景对齐。对于 S2SIF 任务,LLaMA-Omni 也在内容和风格分数上优于以前的模子。这进一步证明了 LLaMA-Omni 能够有效地以简洁高效的方式通过语音办理用户的指令。

别的,在文本响应和语音响应之间的对齐方面,LLaMA-Omni 达到了最低的 ASR-WER 和 ASR-CER 分数。相比之下,SpeechGPT 在对齐文本和语音响应方面表现不佳,大概是因为它顺序生成文本和语音。级联体系,如 SALMONN+TTS 和 Qwen2-Audio+TTS 的语音-文本对齐也不抱负,主要是因为生成的文本响应大概包含无法合成为语音的字符。与此相比,LLaMA-Omni 达到了最低的 ASR-WER 和 ASR-CER 分数,展示了生成的语音和文本响应之间更高水平的对齐,进一步验证了我们方法在同时生成文本和语音响应方面的上风。
4.5 语音质量和响应延长之间的权衡
LLaMA-Omni 可以同时生成文本响应和与语音响应相对应的离散单位。如第 2.6 节所述,为了进一步实现流式波形生成,当生成的离散单位数量达到某个块巨细 Ω 时,单位块被输入到声码器以合成并播放语音。通过调解 Ω 的值,我们可以控制体系的延长,较小的 Ω 对应较低的体系延长。当 Ω = +∞ 时,等同于等待全部单位生成后才开始合成语音。同时,Ω 的值也影响生成的语音质量。较小的 Ω 意味着语音被划分为更多的段进行合成,这大概导致段与段之间的不连贯,从而降低团体的语音连贯性。
为了更好地理解 Ω 的影响,我们探索了在不同 Ω 设置下体系的延长、文本和语音响应之间的对齐度,以及生成的语音质量。如表 2 所示,当 Ω 设置为 10 时,体系的响应延长低至 226 毫秒,甚至低于 GPT-4o 平均音频延长的 320 毫秒。此时,语音响应在开始时平均滞后 1.82 个单词。当 Ω 设置为 +∞ 时,延长增长到约莫 2 秒。对于 ASR-WER 和 ASR-CER 指标,我们惊奇地发现随着块巨细的增长,错误率也在增长。我们认为这大概有两个原因。一方面,声码器大概更可靠地处理短单位序列而不是长序列,因为它通常在较短的序列上进行练习。另一方面,我们使用的 ASR 模子 Whisper-large-v3 具有很强的鲁棒性。即使在较小的 Ω 下语音有些不连贯,对 ASR 辨认精度的影响也很小。因此,我们进一步使用 UTMOS 指标评估生成语音的天然度。它表明随着 Ω 的增长,语音的天然度得到改善,因为语音中的不连贯性减少了。总之,我们可以根据不同的情境调解 Ω 的值,以实现响应延长和语音质量之间的权衡。

4.6 解码时间
表 3 列出了不同模子在 S2TIF 和 S2SIF 任务上的平均解码时间。对于 S2TIF 任务,SpeechGPT 需要先输出文本指令,然后输出文本响应,而 SALMONN 和 Qwen2-Audio 倾向于产生冗长的响应。相比之下,LLaMA-Omni 提供简洁的答复,直接生成,从而显著降低了解码时间,平均每条指令只需 1.49 秒。对于 S2SIF 任务,SpeechGPT 顺序输出文本和语音响应,导致解码时间是仅生成文本响应的 6 倍。相比之下,LLaMA-Omni 同时输出文本和语音响应,并接纳非自回归架构生成离散单位。因此,总生成时间只增长了 1.28 倍,展示了 LLaMA-Omni 在解码速度方面的上风。

4.7 案例研究
为了直观地理解不同模子之间的响应差异,我们在表 4 中提供了一个示例。可以观察到 Qwen2-Audio 的响应相当冗长,并包括诸如换行符和括号等无法合成为语音的元素。SALMONN 的响应也有些长。SpeechGPT 的响应风格更适合语音交互场景,但其响应包含的信息量较少。相比之下,LLaMA-Omni 给出的响应更加详细和有资助,同时保持了简洁的风格,在语音交互场景中优于以前的模子。

5 干系工作
语音/音频语言模子 随着语言模子在天然语言处理领域的成功,研究人员开始探索如何使用语言模子对语音或音频进行建模。早期的工作尝试在音频的语义标记或声学标记上练习语言模子,使得在不需要文本的环境下生成音频成为大概(Lakhotia et al., 2021; Nguyen et al., 2023; Borsos et al., 2023)。别的,通过连合练习语音标记和文本,像 VALL-E(Wang et al., 2023b)和 VioLA(Wang et al., 2023c)这样的解码器仅模子可以执行语音辨认、语音翻译和语音合成等任务。然而,上述模子并非建立在 LLMs 之上。为了利用 LLMs 的力量,许多研究探索了如何基于 LLMs 构建语音-语言模子,如 LLaMA,这可以进一步细分为两种类型。第一种类型,以 SpeechGPT(Zhang et al., 2023; 2024a)和 AudioPaLM(Rubenstein et al., 2023)为代表,通过向 LLM 的词汇表中添加语音标记,并继承使用语音和文本数据进行预练习,创建原生多模态语音-文本模子。
然而,这种方法通常需要大量的数据和大量的计算资源。第二种类型通常涉及在 LLM 之前添加语音编码器,并对整个模子进行微调,使其具备语音理解本领(Shu et al., 2023; Deshmukh et al., 2023),例如语音辨认(Fathullah et al., 2024a; Yu et al., 2024; Ma et al., 2024c; Hono et al., 2024)、语音翻译(Wu et al., 2023; Wang et al., 2023a; Chen et al., 2024)或其它通用的语音到文本任务(Chu et al., 2023; Tang et al., 2024; Chu et al., 2024; Fathullah et al., 2024b; Das et al., 2024; Hu et al., 2024)。然而,这些方法通常只关注语音或音频理解,而没有生成它们的本领。与以前的工作相比,LLaMA-Omni 为 LLM 配备了语音理解和生成本领,使其能够执行通用的语音指令遵循任务。别的,LLaMA-Omni 具有较低的练习成本,便于基于最新 LLMs 进行开发
6 结论
在本文中,我们提出了一个创新的模子架构 LLaMA-Omni,它实现了与 LLMs 的低延长和高质量语音交互。LLaMA-Omni 建立在最新的 Llama-3.1-8B-Instruct 模子之上,增长了一个用于语音理解的语音编码器和一个可以同时生成文本和语音响应的流式语音解码器。为了使模子与语音交互场景保持划一,我们构建了一个包含 200K 条语音指令及相应语音响应的语音指令数据集 InstructionS2S-200K。实验效果表明,与以前的语音-语言模子相比,LLaMA-Omni 在内容和风格上都提供了更优质的响应,响应延长低至 226 毫秒。别的,练习 LLaMA-Omni 仅需不到 3 天的时间,仅需 4 个 GPU,使得基于最新 LLMs 的语音交互模子的快速开发成为大概。在未来,我们计划探索增强生成语音响应的表达性并进步实时交互本领。

参考资料
标题:LLAMA-OMNI: SEAMLESS SPEECH INTERACTION WITH LARGE LANGUAGE MODELS
作者:Qingkai Fang, Shoutao Guo, Yan Zhou, Zhengrui Ma, Shaolei Zhang, Yang Feng
单位:Key Laboratory of Intelligent Information Processing, Institute of Computing Technology, Chinese Academy of Sciences (ICT/CAS); Key Laboratory of AI Safety, Chinese Academy of Sciences; University of Chinese Academy of Sciences, Beijing, China
链接:https://arxiv.org/pdf/2409.06666

如何学习大模子

现在社会上大模子越来越遍及了,已经有很多人都想往这里面扎,但是却找不到适合的方法去学习。
作为一名资深码农,初入大模子时也吃了很多亏,踩了无数坑。现在我想把我的经验和知识分享给你们,资助你们学习AI大模子,能够办理你们学习中的困难。
我已将重要的AI大模子资料包括市面上AI大模子各大白皮书、AGI大模子体系学习路线、AI大模子视频教程、实战学习,等录播视频免费分享出来,需要的小同伴可以扫取。
一、AGI大模子体系学习路线
很多人学习大模子的时候没有方向,东学一点西学一点,像只无头苍蝇乱撞,我下面分享的这个学习路线希望能够资助到你们学习AI大模子。

二、AI大模子视频教程

三、AI大模子各大学习册本

四、AI大模子各大场景实战案例

五、竣事语
学习AI大模子是当前科技发展的趋势,它不仅能够为我们提供更多的机会和挑战,还能够让我们更好地理解和应用人工智能技术。通过学习AI大模子,我们可以深入了解深度学习、神经网络等焦点概念,并将其应用于天然语言处理、计算机视觉、语音辨认等领域。同时,掌握AI大模子还能够为我们的职业发展增长竞争力,成为未来技术领域的领导者。
再者,学习AI大模子也能为我们自己创造更多的价值,提供更多的岗位以及副业创收,让自己的生活更上一层楼。
因此,学习AI大模子是一项有前景且值得投入的时间和精力的重要选择。

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

悠扬随风

论坛元老
这个人很懒什么都没写!
快速回复 返回顶部 返回列表