从0开始学习大模子--Day03--Agent规划与记忆

登录 · 发表于 2025-9-17 19:05:09

规划（planning）

规划，可以为明确观察和思考。如果用人类来类比，当我们接到一个任务，我们的头脑模式大概会像下面如许:
·1、起首会思考怎么完成这个任务。
2、然后会审阅手头上所拥有的工具，以及怎样利用这些工具高效地告竣目标。
3、再会把任务拆分成子任务。(就像咱们做头脑导图一样。)
4、在实行任务的时间，我们会对实行过程举行反思和完善，吸取教导以完善将来的步骤。
5、实行过程中思考任务何时可以停止。
这是人类的规划本领，我们盼望智能体也拥有如许的头脑模式，因此可以通过 LLM 提示工程，为智能体赋予如许的头脑模式。在智能体中，最告急的是让 LLM 具备两种本领：子任务拆解和反思与改进

子任务拆解

通过LLM使得智能体可以把大型任务分解为更小的、更可控的子任务，从而可以或许有用完成复杂的任务。
头脑链(Chain of Thoughts,CoT)：头脑链已经是一种比力尺度的提示技术，能显著提拔LLM完成复杂任务的效果。当我们对LLM要求“think step by step”，会发现LLM会把题目分解成多个步骤，一步一步思考题目和怎样办理，能使得输出的效果更加正确，这是一种线性的头脑模式。
头脑树（Tree-of thought,ToT)：对CoT的进一步扩展，在头脑链的每一步，推理出多个分支，拓扑睁开成一棵头脑树，利用启发方式评估每个推理分支对题目办理的贡献，选择搜索算法，利用广度优先搜索（BFS）或深度优先搜索（DFS）等算法来探索头脑树，并举行前瞻和回溯）。

头脑链和头脑树的差别思考过程

反思与改进

Agent对已往的举措举行自我品评和反思，从错误中学习并改进将来的步骤，从而进步最闭幕果的质量。
在现实任务中，试错是不可克制的，而自我反思在这个过程中起着至关告急的作用。它答应 Agent 通过改进已往的举措决议和改正以前的错误来举行迭代改进。
反思是 Agent 对事情举行更高条理、更抽象思考的效果。反思是周期性生议的，当gent感知到的最新变乱的告急性评分之和凌驾肯定阈值时，就会天生反思。这可以类比为我们常用的成语“三思而后行"，做重大决议的时间，我们会反思自己先前的决议。
究竟上，有没有这种雷同头脑模式的框架，对于大模子的给出的答案，质量与泯灭的时间区别是显而易见的，无论是只有尺度，仅推理照旧仅举措，都会在肯定程度上限制答案，相当于是在闭门造车，而如果用对了框架，像前面所说的一样，先规划，做出举措后思考是否公道，再去决定下一步举措，如许给出的答案相比之下就会更完善，在办理题目上也会更高效。像是我们比力经常会说到的就是LLM偶然会由于幻觉而给出很荒谬的答案，就是由于没有交互，也没有观察答案的反馈，直接就给出答案。
记忆（memory）

生存中的记忆机制

感觉记忆(Sensory Memory):这是记忆的最早阶段，提供在原始刺激结束后保存感官信息(视觉、听觉等)的印象的本领。感觉记忆通常只连续几秒钟。
短期记忆(或工作记忆):这是一种连续时间较短的记忆，可以或许暂时存储和处置惩罚有限数目标信息。例如，记着一个电话号码直到拨打完毕。
恒久记忆:这是一种连续村间较长的记忆，可以存储大量信息，从几分钟到一生。恒久记忆可以进一步分为显性记忆和隐性记忆。显性记忆，可以有意识地回忆和表达的信息，显性记忆又可以分为景象记忆(个人经历的具体变乱)和语义记忆(一样平常知识和概念)。隐性记忆，这种记忆通常是偶然识的，涉及技能和风俗，如骑自行车或打字。

智能体中的记忆机制

形成记忆:大模子在大量包罗天下知识的数据集上举行预训练。在预训练中，大模子通过调解神经元的权重来学习明确和天生人类语言，这可以被视为“记忆"的形成过程。通过利用深度学习和梯度降落等技术，大模子可以不停进步基于猜测或生产文本的本领，进而形整天下记忆或恒久记忆
短期记忆:在当前任务实行过程中所产生的信息，比如某个工具或某个子任务实行的效果，会写入短期记忆中。记忆在当前任务过程中产生和暂存，在任务完结后被清空。
恒久记忆:恒久记忆是长时间保存的信息。一样平常是指外部知识库，通常用向量数据库来存储和检索。

学习泉源于B站教程：【进阶篇】05.Agent记忆(memory)_哔哩哔哩_bilibili

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

继续阅读请点击广告

从0开始学习大模子--Day03--Agent规划与记忆

本帖子中包含更多资源

浏览过的版块

麻花痒