论文笔记:Buffer of Thoughts: Thought-Augmented Reasoning with Large L
1. Motivation大型语言模子(LLMs)如GPT-4、PaLM和LLaMA在各种推理任务中展现出了令人印象深刻的性能。除了通过扩大模子规模来进步推理性能外,还有更有效的提示方法可以进一步增强LLMs的功能和性能。然而,现有的单查询推理(single-query reasoning)和多查询推理(multi-query reasoning)方法都面对一些局限性,如缺乏普遍性和泛化能力、盘算密集型、以及忽视从先前任务中提取一般性和高条理的指导思想或思维。为了办理这些限制,论文提出了一种新的方法。
[*]单查询推理包括有:CoT(在输入查询后附加“Let’s think step by step”),和few-shot Prompting(提供与任务相关的demonstrations来帮助天生答案)
[*]多查询推理:使用多个 LLM 查询来得出不同的公道推理路径,从而将一个复杂的问题分解为一系列更简单的子问题。如Least-to-Most,ToT,GoT
2. Contribution
[*]提出了一种新的方法:Buffer of Thoughts (BoT)来进步基于 LLM 的推理的准确性、效率和稳健性。
[*]计划了元缓冲区(meta-buffer)来存储从不同问题中提取的信息丰富的高层思想(thought-template),并针对每个问题顺应性地实例化这些思想模板。
[*]计划了缓冲区管理器(buffer-manager),用于从各种办理方案中提取思想模板,并随着办理更多任务而不断提拔元缓冲区的能力。
[*]对 10 项具有挑战性的推理密集型任务举行广泛的实行。与之前的 SOTA 方法相比, BoT 实现了显着的性能改进:在 Game of 24 上进步了 11%,在 Geometric Shapes 上进步了 20%,在 Checkmate-in-One 上进步了 51%,而平均本钱仅为多查询提示方法的 12%。
3. Buffer of Thoughts
Overview
给定一个特定任务,使用问题蒸馏器(problem-distiller)来提取关键的特定于任务的信息并具有相关的约束条件。根据提炼的信息,在包罗一系列高级思想(thought-template)的元缓冲区(meta-buffer)中举行搜索,并检索与任务最相关的思想模板(thought-template)。随后,用更多特定于任务的推理结构实例化检索到的思维模板并举行推理过程。最后,我们使用缓冲区管理器(buffer-manager)来总结整个问题办理过程,并提炼高层思想以增加元缓冲区的容量。
https://i-blog.csdnimg.cn/direct/aaba429776a14c3a8a65f57045df37fb.png
3.1 Problem Distiller
作者计划了一个元提示 φ 来起首提取和形式化任务信息。提取的任务信息可以表现为:
https://i-blog.csdnimg.cn/direct/24c86c97157045a69033d37701276302.png
此中 x 是任务说明。
https://i-blog.csdnimg.cn/direct/1feb96f826bd4c0faed5611a62816f6b.png
Problem Condensation and Translation
使用问题蒸馏器从输入任务中提取关键元素,重点关注:(1)办理问题的基本参数和变量; (2)输入任务的目的及其相应的约束。然后,将这些提炼出来的信息重新构造成清晰、易于明白的格式,以供后续推理阶段使用。然后将详细问题转化为高级概念和结构。这种翻译过程将复杂的实际问题(比方复杂的数学应用场景)分解为更简单的多步骤盘算,从而更轻易检索高级思想。
3.2 Thought-Augmented Reasoning with Meta Buffer
人类在办理问题时往往会总结并归纳出更高条理的指导方针,然后应用于相关问题。受此开导,作者提出了元缓冲区,这是一个轻量级库,此中包罗一系列用于办理各种类型问题的高级思想(思想模板)。 BoT 旨在为各种任务提供通用的推理方法,因此相应地将思维模板分为六类:文本明白、创造性语言天生、知识推理、数学推理、代码编程和应用程序调度。这种思维模板的分类可以方便模板检索,以找到针对不同问题的最合适的办理方案。作者将思想模板、模板形貌及其对应的类别表现为(Ti, DTi , Ck),此中i表现元模板的索引,k ∈ Z+且1 ≤ k ≤ 6,这意味着Ck属于六个中的一个类别,DTi是思维模板的形貌。
https://i-blog.csdnimg.cn/direct/0e15346dd4c64e2ea33f3b92af622c95.png
https://i-blog.csdnimg.cn/direct/3433d515292c43ee83695c8159ebd732.png
Template Retrieval
对于每个任务, BoT 通过盘算形貌 DTi 和 xd 之间的嵌入相似度来检索与蒸馏问题 xd 高度相似的思想模板 Ti。检索过程可以表述为:
https://i-blog.csdnimg.cn/direct/401a065420c6425ea39f5be807dc4662.png
Instantiated Reasoning
对于每个特定任务,根据当前任务是否是新任务来讨论实例化推理的两种环境:
[*]第一种环境是乐成检索该任务的思维模板 Tj。在这种环境下,思想增强推理将通过我们计划的实例化提示自顺应地实例化为合适的推理结构。
https://i-blog.csdnimg.cn/direct/820904b61acc4060aeffdbf2b45f552e.png
[*]在第二种环境下,该任务被辨认为新任务。为了实现精确的实例化推理,准备了三个通用的粗粒度思维模板以供使用。根据提取的任务信息 xd,我们的 BoT 会自动为推理过程分配合适的思维模板。
https://i-blog.csdnimg.cn/direct/20554a93a8db45159ef40caad7b9ab9a.png
3.3 Buffer Manager
提出缓冲区管理器来总结从每个问题办理过程中得到的高级指南和思想。它可以将每个详细办理方案推广到更多问题,以思想模板的形式将关键的提炼知识存储在元缓冲区中。与为每个问题临时天生示例或指令的方法相比,缓冲区管理器可以确保基于 LLM 的推理的准确性、效率和稳健性方面的永久进步。
Template Distillation
为了提取通用的思维模板,提出了一个三步方法:(1)核心任务总结:辨认和形貌问题的基本类型和核心挑战; (2)办理步骤形貌:总结办理问题的一般步骤; (3)通用答题模板:根据上述分析,提出可广泛应用于雷同问题的解答模板或方法。此外,为了进步模板蒸馏的泛化能力和稳定性,经心计划了两种类型的上下文示例来天生思维模板——任务内示例和跨任务示例。跨任务意味着选择从一项任务中提炼出来的模板来办理其他任务的问题,比方用与代码相关的思维模板来办理数学问题。从输入任务 x 中提取的新模板用到的prompt:
https://i-blog.csdnimg.cn/direct/111e8e3117564ef995514117c48cc7f0.png
Dynamic Update of Meta-Buffer
模板蒸馏后,须要考虑是否应该将蒸馏后的模板更新到元缓冲区中。假如初始化一个空的元缓冲区或碰到没有精确思想模板的问题,则蒸馏后的思想模板将直接存储在元缓冲区中。假如用检索到的思维模板来办理问题,那么在特定思维模板的实例化过程中大概会出现新的见解。因此,为了克制元缓冲区的冗余,同时保持新天生的信息思想,将盘算 DTnew 和 {DTi }n i=0 的嵌入向量之间的相似度,并使用以下规则更新元缓冲区:
https://i-blog.csdnimg.cn/direct/164b1c78fe89466c90be59583b2c002e.png
否则,这意味着元缓冲区已经拥有办理该任务所需的知识,不须要实行更新。如许的动态更新策略有效地淘汰了模板检索的盘算负担,同时确保了元缓冲区的轻量级属性。
4. Experiments
在多个任务和数据集上的实行表明,BoT在各种复杂的基准测试中持续逾越所有先前的提示方法,特别是在“24点游戏”和“一步棋”等复杂推理任务上取得了显著的准确性提拔。
https://i-blog.csdnimg.cn/direct/b2731f6af2e94badada3566fb8cbc412.png
此外,BoT在推理效率上与单查询方法相当,远高于传统的多查询方法,并且具有更高的推理鲁棒性。
https://i-blog.csdnimg.cn/direct/5c55d1e30cad4b1db89922458c802eff.png
论文还分析了思想模板的分布和时间本钱:
https://i-blog.csdnimg.cn/direct/5eccb8682435421fac5819cc4f1bfb34.png
并探究了模子大小与性能之间的权衡,发现配备BoT的较小模子能够展现出靠近乃至逾越较大模子的能力。
https://i-blog.csdnimg.cn/direct/5278243e66834d9bbd61b7e11b40103f.png
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
页:
[1]