西河刘卡车医 发表于 2024-8-28 12:19:28

NVIDIA把Llama-3的上下文长度扩展16倍,长上下文理解能力超越GPT-4

在 Llama-3.1 模子发布之前,开源模子与闭源模子的性能之间不绝存在较大的差距,尤其是在长上下文理解能力上。
   大模子的上下文处置惩罚能力是指模子能够处置惩罚的输入和输出 Tokens 的总数。这个长度有一个限制,高出这个限制的内容会被模子忽略。一般而言,开源大模子的上下文长度普遍较短,例如 Llama3 的上下文长度为 8K;而闭源模子的上下文长度则要比开源模子长的多,例如 OpenAI 的 GPT-4 Turbo 支持 128K 的上下文长度。这意味着闭源模子能够一次处置惩罚更多的信息,从而在复杂任务中表现出更强的能力。
迩来 NVIDIA 研究团队在开源模子 Llama-3 的底子上,通过一系列创新技术,将其上下文长度从原来的 8K 扩展到了 128K,将 Llama-3 的上下文长度扩展到原始的 16 倍。在长上下文理解能力上,扩展之后的 Llama3-ChatQA-2-70B 模子甚至超越了 GPT-4。
研究团队利用经过处置惩罚的 SlimPajama 数据集生成了 100 亿个 token 的 128K 长度的数据集。为了顺应较长的上下文,研究人员将 RoPE 的基频从 500K 提升到了 150M。在后训练阶段,研究团队设计三阶段的指令微调过程,加强模子的指令遵照能力、检索加强生成(RAG)性能和长上下文理解能力。
通过将这些技术结合,NVIDIA 将 Llama-3 的上下文长度从 8K 扩展到了 128K,极大提升了模子的理解能力。
论文标题:ChatQA 2: Bridging the Gap to Proprietary LLMs in Long Context and RAG Capabilities
论文链接:https://arxiv.org/pdf/2407.14482

https://img-blog.csdnimg.cn/img_convert/505fd56f4e095ced0572e41aa668df54.png
为什么要提升大模子的上下文长度?

我们知道,大模子的上下文长度越长,其计算过程中消耗的资源也就越多,看起来扩展大模子的上下文是一件耗时耗力的工作。许多读者就会好奇,为什么要扩展大模子的上下文长度呢?

https://img-blog.csdnimg.cn/img_convert/6f4a6b7f8cc98f5575fe738b3c033756.png
扩展上下问长度具有以下上风:


[*] 提升长文本理解能力:更长的上下文使模子能够处置惩罚和理解更长的文档、对话和代码段,对于文档摘要、长篇对话分析等任务至关重要。
[*] 加强多步调推理:长上下文允许模子在单次推理中保持更多信息,有助于解决复杂的多步调问题,例如数学证实或者复杂的逻辑推理任务。
[*] 进步生成内容的连贯性:对于长文本生成任务,更长的上下文让模子能够保持更好的主题划一性和逻辑连贯性。
[*] 淘汰信息丢失:短上下文模子在处置惩罚长文本时须要多次切分和处置惩罚,容易造成信息丢失。长上下文可以淘汰这种信息丧失。
总之,扩展大模子的上下文长度能够让模子处置惩罚面对复杂任务时得心应手。
然而,开源模子和闭源模子在上下文长度上存在显着差距。例如开源的Llama-3 只支持 8K 的上下文长度,而闭源的 GPT-4 Turbo 已经到达了 128K。

https://img-blog.csdnimg.cn/img_convert/27e106c34b4ff2c0d37c7de53cc2ebe6.png
为了缩小这一差距,NVIDIA 研究团队以开源模子 Llama-3 为底子,通过一系列技术创新,将其上下文长度从 8K 扩展到了 128K,使 Llama-3 的上下文长度得到了 16 倍的提升。
研究人员为扩展之后的模子定名为 Llama3-ChatQA-2-70B,该模子在长上下文理解能力上到达了 GPT-4 的程度,在某些任务上甚至高出了 GPT-4。
除此之外,研究团队还探索了长上下文模子和检索加强生成(RAG) 技术的结合,为不同应用场景提供了更机动的选择。
如何提升模子上下文长度?

NVIDIA团队采取了一系列创新技术来扩展Llama-3的上下文长度。
研究团队起首对模子进行继续预训练。味了提升预训练质量,其在 SlimPajama 数据集上采样并生成了总计 100 亿个 Token 的 128K 长度训练数据。
为了顺应更长的上下文,研究人员将 RoPE 的基频从 500K 提升到 150M。
经过研究发现利用特别字符 <s> 来分割不同文档比利用传统的 <BOS> 和 <EOS> 更有用。

https://img-blog.csdnimg.cn/img_convert/7c8315b1394e50424a5c8edf3aefa57b.png
在后训练(post-training)阶段,研究团队设计了一个三阶段的指令微调过程:

[*] 利用高质量的指令遵照数据集微调模子;
[*] 利用对话 QA 数据集微调模子;
[*] 专注于长上下文数据集,涵盖 32K 以下及 32K-128K。
为了进一步提升模子在现实应用中的表现,团队还探索了长上下文检索器与长上下文模子的结合。他们利用 E5-mistral embedding 模子作为检索器,通过实验发现,在总token数固定的环境下,利用更大的块巨细(chunk size)能够得到更好的效果。

https://img-blog.csdnimg.cn/img_convert/9c996a24d2ae5a3a25cfdfa119b7027c.png
通过这些技术,NVIDIA 将 Llama-3 的上下文长度从 8K 提升到了 128K,弥补了开源模子在上下文长度方面和闭源模子的差距。不仅如此,扩展上下文长度之后,Llama3-ChatQA-2-70B 在上下文理解能力上的表现甚至超越了 GPT-4。
实验结果

NVIDIA 团队设计了一系列全面的实验来评估 Llama3-ChatQA-2-70B 模子的性能。这些实验涵盖了不同长度的上下文任务,从短文本到超长文本,并与多个顶级模子进行了对比。
起首,在"大海捞针"测试中,Llama3-ChatQA-2-70B 在 128K token 长度内实现了 100% 的精确率,证实了其出色的长上下文检索能力。

https://img-blog.csdnimg.cn/img_convert/7bf02537853b5c31d6abf31878980205.png
对于高出 100K token 的长上下文任务,团队利用了 InfiniteBench 基准测试,在长文本摘要(En.Sum)、长文本问答(En.QA)、长文本多项选择(En.MC)和长文本对话(En.Dia)四个任务上进行测试。

https://img-blog.csdnimg.cn/img_convert/7ec6d906e5f0ed4217ed06fd7991e215.png
Llama3-ChatQA-2-70B 的平均得分为34.11,优于 GPT-4-Turbo-2024-04-09(33.16)和 Claude 2(33.96),仅略低于 Qwen2-72B-Instruct(34.88)。特别是在 En.QA 任务中,Llama3-ChatQA-2-70B 以 44.22 的得分领先于其他模子。
初次之外,研究团队还在 32K 以内的中等长度上下文任务上进行测试。Llama3-ChatQA-2-70B 的平均得分为 47.37,虽然低于 GPT-4-Turbo-2024-04-09(51.93)和 Qwen2-72B-Instruct(49.94),但仍优于 Llama-3-70B-Instruct-Gradient-262k(40.51)。

https://img-blog.csdnimg.cn/img_convert/2df772aeaa9ca39e3fa3533bbfb68e70.png
对于4K以内的短文本任务,团队利用了 ChatRAG Bench。Llama3-ChatQA-2-70B 高出了 GPT-4-Turbo-2024-04-09和 Qwen2-72B-Instruct。

https://img-blog.csdnimg.cn/img_convert/2147f513e13d927090ddac73cdb37a05.png
团队还比较了检索加强生成(RAG)与直接利用长上下文模子的效果。在32K以内的任务中,直接利用长上下文模子略优于 RAG 方法。

https://img-blog.csdnimg.cn/img_convert/f52ddeee4b3167c0fb60c4170d954a86.png
然而对于高出100K的任务,RAG 方法优于直接利用长上下文模子。

https://img-blog.csdnimg.cn/img_convert/926e9684bca0937ea6eec4cbc11aea04.png
总结

长上下文对于提升大模子的理解能力有重要的作用,NVIDIA 通过将多种技术结合将 Llama-3 的上下文长度从 8K 扩展到 128K,弥补了在上下文长度层面与闭源模子的差距。
扩展长度之后的模子 Llama3-ChatQA-2-70B 在长上下文理解任务上超越了 GPT-4等闭源模子。同时研究也揭示了在特定场景下 RAG 技术的上风,为不同应用提供了更机动的选择。

https://img-blog.csdnimg.cn/img_convert/602ea950d288537cdb1e1243399c2963.png


免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
页: [1]
查看完整版本: NVIDIA把Llama-3的上下文长度扩展16倍,长上下文理解能力超越GPT-4