论文翻译 | ReWOO: 高效增强语言模型的解耦推理

打印 上一主题 下一主题

主题 821|帖子 821|积分 2463


摘要 

        增强语言模型(ALMs)将大型语言模型(LLMs)的推理能力与答应知识检索和操纵实验的工具混合在一起。现有ALM系统触发LLM思维过程,同时以交错的方式从这些工具中提取观察结果。详细来说,LLM调用外部工具的原因,停息以获取工具的响应,然后根据前面的所有响应令牌决定下一个操纵。这种范例固然简单且易于实现,但由于冗余提示和重复实验,通常会导致巨大的计算复杂性。本研究初次解决了这些挑衅,提出了一种模块化范式ReWOO(无观察推理),将推理过程与外部观察分离,从而显着淘汰了令牌消耗。对六个公共NLP基准和一个精心筹谋的数据集的综合评估显示,我们提出的方法具有同等的性能增强。值得注意的是,ReWOO在HotpotQA(一个多步骤推理基准)上实现了5倍的令牌效率和4%的准确率提升。别的,ReWOO还展示了工具故障场景下的鲁棒性。除了快速高效之外,将参数模块从非参数工具调用中解耦可以使指令微调将llm卸载到更小的语言模型中,从而大大淘汰模型参数。我们的示例工作将推理能力从175B GPT3.5转移到7B LLaMA,展示了真正高效和可扩展的ALM系统的巨大潜力。完整的代码、模型和数据被发布以供复制。 
1 引言

        有一种趋势范式[1; 2; 3; 4; 5; 6; 7; 8]是将大型语言模型(LLMs)与外部插件或工具相结合,使LLMs能够与环境[9; 10]互动并获取最新知识。这种工具增强的LLMs,通常被称为增强型语言模型(ALMs),推动了如Auto-GPT [11]等自主实验任务的流行应用。
        现有的ALMs研究大多基于类似于ReAct [1]的提树模式,这种范式将言语推理和工具调用连续交替举行。
        然而,这种范式引入了LLMs频繁的实验和停息,以及在令牌消耗上可能产生巨大的本钱。LLMs根据前文上下文生成令牌。在与外部工具交互时,LLM必须停息以等候工具响应。别的,像ChatGPT如许的黑盒LLMs的API是无状态的。为了恢复令牌生成,所有汗青令牌(包括上下文提示、示例、所有之前的推理痕迹和观察结果)都必要重新输入LLM,导致提示内容大量重复。OpenAI提供的商业LLM服务按令牌消耗收费。因此,提示内容的重复给平凡用户带来了巨大的费用。然而,据我们所知,尚无先前研究探索淘汰ALMs的令牌消耗。

图1:ReWOO的工作流程给定一个问题,Planner在工具响应之前编写一个相互关联的筹划的综合蓝图。蓝图指示工人使用外部工具并网络证据。最后,筹划和证据被配对并提供给求解器以得到答案。 


图2:在(a)依靠于观察的推理中,从用户请求的任务首先用上下文提示和示例举行包装,然后将其输入LLM以启动推理过程。LLM生成一个想法(T)和一个动作(a),然后等候来自工具的观察(O)。观察结果被堆叠到提示汗青中,以启动下一个LLM调用。在ReWOO (b)中,Planner立刻生成一个相互依靠的筹划(P)列表,并调用Worker从工具中获取证据(E)。P和E与任务结合在一起,然后输入到求解器中得到最终答案。请注意,在(a)中,上下文和范例被反复输入LLM,导致即时冗余。

         本文提出了ReWOO,这是一种针对ALMs的新颖提树模式。如图1所示,ReWOO将ALM的关键组件:逐步推理、工具调用和总结,划分为三个独立的模块:规划器、工作者和解决者。规划器分解任务并订定相互依靠的筹划蓝图,每个筹划分配给工作者。工作者从工具中检索外部知识以提供证据。解决者将所有筹划和证据综合起来,生成对初始任务的最终答案。如图2所示,ReWOO将LLMs的推理过程与外部工具分离,避免了在观察依靠推理中交替提示的重复,从而明显淘汰了令牌使用并提高了提示效率。为了全面评估ReWOO,我们在六个多步骤且知识麋集型的NLP基准测试和一个精选数据集上举行了实验。ReWOO的评价基准包括两种非ALM提示方法,直接提示和思维链提示(CoT)[12],以及一种流行的ALM范式,ReAct [1],特点是观察依靠推理。图3提供了表2中基准测试的均匀性能,显示了ReWOO在观察依靠对应方上的连续效率提升。别的,我们通过指令调整[13]和专业化[14]展示了ReWOO在系统参数效率方面的潜力。我们观察到,用少量周期举行微调的LLaMa 7B在零样本设置中可以与GPT3.5相媲美,凸显了ReWOO在促进轻量级和可扩展ALM摆设方面的能力。
        贡献:我们对ALM领域的贡献可以概括如下:(1)我们识别并评估了LLMs在没有显式观察的环境下举行推理的能力(称为可预见推理)。大量实验表明,可预见推理可以用来促进提示高效的ALMs。(2)我们引入了一个模块化框架ReWOO,旨在使用语言模型的可预见推理能力。综合测试表明,与流行的思想-办法-观察风格的ALMs相比,ReWOO在明显淘汰令牌使用的同时,可以实现相称或更优的性能。别的,ReWOO在现实世界场景中体现出更强的鲁棒性。(3)我们展示了一个流程,将LLMs的可预见推理能力卸载到更小的语言模型中,使小模型能够在零样本设置中使用未见过的工具。这项研究突显了ReWOO在可扩展和参数高效ALM方面的潜力。
2 方法 

        人类的一项明显能力是预测将要举行的办法可能产生的结果。办法的可预见结果通常对下一步的顺应和规划具有充足的指导意义。类似地,我们计划了一个框架,如下所述。 
2.1 筹划-工作-解决模式的ReWOO 

        规划器使用LLMs的可预见推理来编写解决方案蓝图。详细来说,它包含连续的元组(筹划,#E),此中筹划表示当前步骤的形貌性信息,而以步骤数s为下标的#E是一个特殊令牌,用于存储相应指定的工作者[指令]中可能正确的证据。这种范式使ReWOO能够处理多步骤和复杂任务,特别是那些后续步骤依靠于先前步骤观察的任务,通过在给工作者的指令中引用先前步骤的#E来实现。
        工作者使ReWOO能够通过工具调用与环境互动。一旦规划器提供了蓝图,指定的工作者就会被指令输入调用,并用真实的证据或观察结果填充#E。
        解决者处理所有筹划和证据,以形成对原始任务或问题的解决方案,例如在问答任务中提供答案或对于办法请求返回工作状态。我们注意到,提示解决者在使用提供的筹划和证据时要“谨慎”可以提高ReWOO的团体性能。我们将这种改进归因于解决者固有的推理能力,以解决简单任务或部门补偿规划器或工作者中的失败。
2.2 提示冗余淘汰

        ALM系统基于交织推理和观察遭受不良促使冗余如图2所示(一个),思量一个典范的observation-dependent ALM解决一个问题
推理步骤,推导出最终响应
.从上下文提示
和一组n范本
, ALM迭代生成元组的思想,办法,和观察(TAOs)表示
,
。设
表示文本序列p的令牌数量。输入令牌的总数可按公式(1)计算。 
 

        上面的公式表明,重复和相同的提示被冗余地用作输入。由于
通常黑白平常的,因此输入令牌会随着步骤k的增加而二次增长,这通常会导致令牌限制过剩、计算量和时间开销高得离谱。相反,ReWOO避免了如图2 (b)所示的这种交错模式。详细设
, j∈[1,k]为筹划、证据变量#E和步骤j的证据响应,ReWOO的总输入令牌为:
 

        如果没有提示设置的明确知识,很难定量地衡量两种方法之间的差别。然而,如果我们经验地使#TAOs与#PEs相称,则Eq.(1)与Eq.(2)的差别在于Q, C,S的大小是线性的,而在于T, A, O到k的大小是二次的。这种分析直接表明,当发送给ALM的任务变得越来越复杂,从而引入更多的推理步骤时,ReWOO可以在ALM系统中节省大量的计算本钱。注意,一些基于LLM的工具可能会引入额外的令牌消耗。这些代币在我们的实验中也被计算在内。 
 2.3 特殊化参数效率

        增强型语言模型(ALMs)的一个常见问题是,将参数化语言模型和非参数化工具调用结合起来会使得端到端练习变得复杂[2]。为了减轻这个问题,Toolformer [15] 通过在工具增强语料库上以自监督的方式举行微调,来优化语言模型。同样,ReAct 试图通过在 HotpotQA [16] 网络的推理轨迹上举行微调来优化推理能力。然而,这些方法仅在有限的设置中举行测试。
        详细来说,Toolformer 在工具的独立采样上受到限制,因此在多步骤推理任务上无法发挥作用。ReAct 在微调完成思想-办法-观察轨迹的方法尚未被证明能够很好地泛化到未见任务或工具集。
        ReWOO 将推理与工具调用解耦,答应在规划器模块上优化可预见推理的通用能力,因为在微调过程中没有袒露工具响应。受到近来的专门化框架 [14] 的启发,我们试图从 GPT-3.5 中引出可预见推理,并将其卸载到 LLaMa 7B [17] 上,如图4所示。我们首先使用 text-davinci-003 在 HotpotQA 和 TriviaQA 的混合练习数据上推断 4000 个(筹划,#E)蓝图。按照引导方法 [18],我们采样那些导致正确答案的蓝图,产生了大约 2000 个规划器指令数据。一个预练习的 LLaMa 7B 在 52k 自指令数据集上举行指令微调,产生了 Alpaca [13] 7B,它近似于 text-davinci-003 的通用能力。随后,我们进一步在规划器指令数据上微调 Alpaca-7B,以得到一个专门用于可预见推理的 7B 规划器模型。最后,我们评估专门化在多个基准测试上的潜力,用 GPT-3.5、Alpaca 7B 和规划器 7B 更换 ReWOO 规划器。
3 实验 

        我们根据开始进的提树模例在广泛的NLP基准中评估ReWOO。为了强调使用外部工具的必要性,我们筹谋了一个数据集,此中回答问题必要最新的外部知识。值得注意的是,ReWOO不仅连续淘汰令牌的使用,而且在所有任务中都能匹配乃至超过ReAct。 
3.1 设置 

        任务和数据集。(a)常识和推理。如许的任务既必要特定领域的知识,也必要逻辑推理。四个数据集被用于评估。HotpotQA[16],多域多跳推理QA任务;TriviaQA[19],阅读理解,然后是挑衅性问答,我们隐藏阅读上下文以鼓励搜索。SportsUnderstanding[20], BigBench[21]对深度体育领域知识的事实性QA基准;以及StrategyQA[22],这是一个开放领域的QA任务,其答案必要推理步骤。(b)算术和科学推理。这些任务包括包含小学数学问题的GSM8K[23]和包含高中物理问题的PhysicsQuestions[24]。(c)筹谋。为了用最新的知识挑衅ALMs,我们创建了一个关于2023年国情咨文的QA数据集,标记为SOTUQA。例如,“本年的众议院议长比去年老吗?”盼望ALMs从提供的SOTU文件中找到2023年的众议院议长,从网上搜索中找到2022年的众议院议长,然后比较年龄。除了SOTUQA,我们还筹谋了一系列与现实世界ALM应用步伐同等的任务(见附录),包括餐馆推荐、股票交易、人工智能画图等。
        基线。我们思量以下提树模式a)直接提示:一个尺度的零样本范式,提示LLM直接解决任务或回答问题。这个基线反映了语言模型在没有明确推理或工具使用的环境下的基本性能。(b)思维链(CoT):用一个范例来演示中级口头推理格式,促使LLM“一步一步地思考”。该方法体现了模型的显式推理能力,无需调用工具。(c) ReAct:如图2所示,是alm中流行的提树模例。
        与原始实现略有差别,我们在上下文提示中附加了提供的工具的简短形貌,以实现零样本评估。
        示例。对于 ReWOO 规划器,我们手动从 HotpotQA、TriviaQA 和 GSM8K 的练习数据中分别制作了 i = {6, 1, 1} 个轨迹。这些示例包括覆盖信息检索("找出 ...", "搜索 ...")、比较("比较 ... 与 ... 在 ... 上")、方程求解("令 ... 为 x,求解 ...”)和计算("计算 ...”)的推理模板。对于 PhysicsQuestions、SportsUnderstanding 和 StrategyQA,我们将兴趣转向系统性的泛化能力,因此只提供了来自不干系基准的 1 个示例。示例中的推理步骤数 k 通常为 2 或 3。ReWOO 规划器中使用的所有示例问题都以思想-办法-观察的方式划一提供给 ReAct。ReAct 发布了在 HotpotQA 上使用的示例。为了公平比较,我们继续使用与 ReAct 相同的示例举行 ReWOO。
        动作空间。我们提供了一系列工具来协助 LLMs 获取额外知识和与环境互动,包括:(1)Wikipedia[查询],一个用于维基百科的搜索引擎,功能与原始 ReAct 实现中的 search[实体] 相同。(2)Google[查询],来自谷歌搜索引擎结果页的搜索结果片断。(3)WolframAlpha[查询],来自 Wolfram Alpha API 的搜索/计算结果。(4)LLM[提示],一个独立的单个 LLM。(5)Calculator[提示],一个步伐辅助的 LLM [25]。(6)SearchDoc[查询],对私人文档的索引搜索。对于涉及更多样化和复杂现实世界互动的筹谋任务,我们还提供了一套工具,如 Location[查询],Stock[查询],Twitter[查询],Yelp[查询],Email[请求],TradeStock[请求] 和 Draw[提示](详见附录中的示例)。差别基准测试可用的工具如表 1 所示。为了确保公平比较,我们使 ReWOO 和 ReAct 提供的所有可用工具保持同等。

 表1:差别基准测试中ALM可用的工具。

    评估指标。我们的实验接纳了常见的性能指标,如准确匹配(EM)和字符级 F1 分数。别的,如 [1] 中观察到的,一些基准问题的正确答案不是唯一的。例如,对于地面真实值 "California",回答 "CA." 也应被视为正确。因此,使用基于 GPT-4 的评分器来衡量答案的语义准确性。另一方面,效率可以通过 LLMs 中的总令牌使用量(包括由基于 LLM 的工具消耗的令牌)、推理步骤数和均匀每 1k 查询的令牌费用(美元)来衡量。
        微调。我们想法在单个 RTX4090 上使用 LoRA [26] 对基于 7B LLaMa 的模型举行微调。Alpaca 7B 和 Planner 7B 的详渺小调参数见附录。
3.2 结果与观察 

3.2.1 提树模式的比较 

        ReWOO 在所有基准测试中始终优于 ReAct。表 2 显示了基于 gpt-3.5-turbo 的公共基准测试和筹谋数据集的重要评估结果。在 ALM 设置下,我们观察到 ReWOO 在所有基准测试中都对 ReAct 取得了压倒性的胜利。在六个公共基准测试的均匀结果中,ReWOO 能够淘汰 64% 的令牌使用量,同时绝对准确率提高了 4.4%。这些结果暗示了 ReWOO 在激发 LLMs 的可预见推理能力方面的乐成,以及 ReWOO 相对于流行的依靠观察的 ALM 系统在效率上的明显提升。

表2:公共NLP基准的评估结果。对于HotpotQA, TriviaQA和GSM8K,提示配置了来自相同基准的工具和示例;其他任务与实际场景同等,此中我们使用静态的任务外示例来指导输出格式(可以视为零射击),以及一个通用的大型工具集。N为样本数。†:任务外范例。下划线:体现最好的范例。Bold:体现最好的ALM。 

        ALMs 在筹谋任务上体现良好。如表 2(SOTUQA)所示,ReWOO 和 ReAct 在外部工具的辅助下,明显优于直接提示(Direct Prompting)和链式思维(CoT)。ReWOO 的绝对准确率比 ReAct 高 8%,同时令牌消耗淘汰了 43%。我们相信,对文档 QA 如 SOTUQA 的评估比先前的公共 NLP 基准测试更靠近现实世界的 ALM 应用。别的,我们在附录中展示了几个 ReWOO 轨迹,特点是现实世界的 ALM 应用,如餐厅推荐和 AI 绘画。
        外部工具损害了 ALM 的性能。从表 2 中的另一个发现是,在没有提供任何外部工具的直接提示和链式思维中,它们的体现优于两种 ALM 范式。这一观察引导我们举行了一项消融研究,探讨在 ALMs 中增加工具的影响。我们从 HotpotQA 的相同设置开始,逐渐向 ReWOO 和 ReAct 添加一个额外的工具。图 5 显示,尽管像 Google 如许的强大工具临时提高了准确率,但当我们引入更多的工具时,总体趋势是下降的。从质量上讲,我们调查了 20 个问题,此中 2 工具的 ReWOO 乐成,而 7 工具的 ReWOO 失败,观察到此中 17 个轨迹涉及工具误用,例如使用 Yelp[查询] 来搜索名人。这个实验表明,不必要的工具可能会通过引入无关内容而对 ALMs 造成伤害。
ReWOO 在工具故障时相对妥当。在 ALM 系统中,工具出现故障并返回错误是常见的。为了比较 ReWOO 和 ReAct 在这种环境下的妥当性,我们强制所有工具响应“未找到证据。”表 3 表明,当中间工具失败时,类似 ReAct 的 ALM 系统非常脆弱。另一方面,ReWOO 在工具故障时的体现受损较小,代价也较小。

表3:HotpotQA在(1)所有工具返回“No evidence found”(2)更换LLM时的性能变革。


        在 ALM 中对话对齐的 RLHF。为了探索 RLHF 的效果,我们用 text-davinci-003 更换了在 HotpotQA 中使用的基于 gpt-3.5-turbo 的 LLMs。表 3 显示,text-davinci-003 在较少的步骤和令牌使用量上优于 gpt-3.5-turbo,这意味着对话 RLHF 稍微损害了 ALMs 的常识推理能力。
 3.3 LLM的微调和专业化

        遵循图 4 中的专业化框架,我们得到了 Alpaca 7B 和 Planner 7B,它们分别近似于 GPT3.5 的一样平常能力和可预见推理。两个语言模型都在零样本设置中与原始 GPT-3.5 的性能举行了比较。图 6 反映出,当这些方法被插入到规划器模块中时,在 HotpotQA、TriviaQA 和 StrategyQA 中与 25 倍大的 GPT-3.5 相匹配。别的,从 Alpaca 7B 到 Planner 7B 的一样平常准确率提升暗示了专业化的有效性。从质量上讲,固然练习指令数据集只展示了 Wikipedia[query] 和 LLM[prompt],我们惊讶地观察到,如果与上下文形貌配对,Planner 7B 比起 Alpaca,在使用 Google[query] 和 Calculator[prompt] 举行推理方面越来越夺目。进一步的努力是推动专业化的极限,我们将这一目标留待未来的研究。最重要的是,我们的结果表明了 ReWOO 范式在将一样平常可预见推理卸载到蒸馏后的小型语言模型中的潜力,从而明显提高了系统的参数效率和可扩展性。
 

图4:将可预见的推理从GPT-3.5卸载到Alpaca 7B。一个小型LLaMa LM对GPT-3.5生成的自指示数据举行微调,产生了具有一样平常推理能力的羊驼。然后,Alpaca在GPT-3.5生成的蓝图上进一步微调,从而产生规划师7B,这是一个专门从事可预见推理的模型。 

4 限制和未来的工作 

        我们注意到,对于某些关于环境的上下文很少的任务,完全依靠可预见的推理变得不切实际。思量以下来自AlfWorld[27]的任务: 
 

        因为Planner对环境没有先验知识,以是他必须列举所有可能导致花瓶的筹划。在这类任务中,Planner的推理步数相称于观察依靠推理的最坏环境复杂度。 
        上述示例暗示,一个健壮的增强型语言模型(ALM)系统不应该创建在单一实体上——将差别的LLMs节点、工具和子模型毗连成一个有向无环图(DAG)看起来很有前景,如许每个节点都能为其预定任务有机地发挥作用。进一步改进这类ALM系统的效率和性能的四个方向包括:(1) 将专门能力从基础LLMs卸载到更小的模型中。第3.3节展示了小型语言模型在一样平常可预见推理中的专门化可能性[14]。我们预计,随着开放领域指令数量的增加,可预见推理可以更加全面地卸载。DAG中的其他参数化节点,如解决者,也可以类似地举行微调。(2) 工具表示学习。在HotpotQA的许多案例中,维基百科和谷歌都能导向正确答案,这表明这些工具之间存在肯定程度的相似性。我们可以创建一个模型来最小化功能相似的工作者之间的能量。工具表示使我们能够参数化整个ALM系统,从而实现端到端的练习。(3) 图优化。别的,我们应该能够通过多种图和并发算法来优化DAG的实验。
 5 干系工作

        工具增强的LLMs。在适当提示下,LLMs展现出使用证据和逻辑解决问题的推理能力,如常识推理、数学推理和符号推理[2]。一些工作通过注入多样化的工具到中间推理步骤中,使LLMs能够检索最新的世界知识并解决更复杂的任务。使用搜索API来避免幻觉并提供更全面的信息,以生成更值得信任的文本[1; 10; 29]。高级呆板人API被用来指导呆板人完成物理世界的任务[9; 30; 31; 32]。计算器[23]、代码解释器[25]和数学证明器[33]分别用于修正计算错误、实验生成的代码和证明复杂的数学理论。另有一些工作使用多种工具来解决各种自然语言处理和计算机视觉任务,如Toolformer [15]和Visual ChatGPT [34]。别的,任务可以被分解,使用多步骤推理和办法可以更好地解决问题,如ReAct [1]、ART [35]、MM-ReAct [3]和TaskMatrix.AI [4]。我们的工作为大规模现实世界应用中的工具增强LLMs提出了一个新的视角:ReWOO在淘汰令牌开销的同时,实现了相称乃至更好的性能。
        高效的LLMs。高效LLMs是一个长期的 research 主题,特别是随着ChatGPT的流行。已经提出了各种方法[26; 36; 37; 13; 38; 39; 40; 41; 42]来低落微调和摆设LLMs的本钱。一个流行的方向是减小模型规模,例如,使用指令调整[37; 13]来使一个小型且当地托管的LLM与大型黑盒LLM的协助保持同等。通过LoRA[26]、适配器[40; 41]、提示调整[39; 38]等,可以在调整期间进一步淘汰计算本钱。然而,这些方法通常涉及修改模型结构和解锁模型参数,这阻碍了它们在黑盒LLMs上的应用。相比之下,固然很少研究,但高效LLMs的提示工程是机动且直接的。它不要求LLMs的内部信息,可以轻松应用于任何现成的黑盒语言模型,如OpenAI的ChatGPT和Google的PaLM。沿着这个方向,我们的工作是初次探索高效工具增强LLMs的提示。
6 结论 

         我们提出了ReWOO,一个模块化的ALM框架,通过将推理与工具反馈和观察分离,有效地解决多步骤推理任务。提示令牌的理论分解创建了ReWOO能够大大淘汰当前思想-办法-观察ALM系统中的提示冗余。在公共NLP基准测试和精心计划的任务上举行的综合实验显示,ReWOO在以更少的代币消耗实现更高性能方面体现出色。一项附带研究还表明,ReWOO在工具失效环境下具有相对妥当的性能。我们的研究进一步揭示了通过指令调优和专门化实现通用推理卸载的潜力。除了基于ReWOO的ALM系统之外,未来的改进还包括模块化的LLM微调、工具表示学习以及系统图学习和优化。我们证明了我们的工作为这些进步奠定了坚实的基础,使我们离真正可扩展的AGI更近了一步。
 


 
 
 
 

      


免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

伤心客

金牌会员
这个人很懒什么都没写!

标签云

快速回复 返回顶部 返回列表