民工心事 发表于 2025-1-14 07:11:01

大模型驱动的自动代理(AI Agent):将语言模型的能力变成通用能力的一种方

当前大模型本质是一种大语言模型(Large Language Models, LLM),其焦点能力是对语言的处理。精良的意图辨认和文本生成能力让LLM逾越了之前的模型,有了巨大的实用价值。但是,现实问题涉及了很多逾越语言模型之外的能力,如基于最新数据的文本择要、向用户提供实时数据分析和可视化结果、为代码提供debugging等。现在,让LLM解决这些问题的一个最有前景的方向就是建立大模型驱动的自动代理。也就是让LLM作为焦点控制者来学会使用差别工具,进而完成最终任务。
那么,建立如许一个AI Agent到底包含了哪些内容,可以提供什么样的能力?在6月份,OpenAI的Safety团队的负责人Lilian Weng发布了一篇6000字的博客先容了AI Agent,并认为这将使LLM转为通用问题解决方案的途径之一。本文将根据这篇博客总结一下关于AI Agent的相关内容。
AI Agent简介

所谓AI Agent就是一个以LLM为焦点控制器的一个代理系统。业界开源的项目如AutoGPT、GPT-Engineer和BabyAGI等,都是类似的例子。LLM的潜力不但仅是生成写得很好的副本、故事、散文和步伐;它可以被框架为一个强大的一样平常问题解决者。
也就是说,AI Agent本质是一个控制LLM来解决问题的代理系统。LLM的焦点能力是意图明白与文本生成,如果能让LLM学会使用工具,那么LLM本身的能力也将大大拓展。AI Agent系统就是如许一种解决方案。
以AutoGPT为例,一个经典的案例是对大模型输入一个问题:找出一个投资机会。那么,正常情况下一个LLM是无法给出具体的操作的。AutoGPT的思绪是起首告诉LLM,这个问题LLM一样平常可以咋解决这个问题,给出几个选择,然后LLM会挑选一个方法,大概是浏览雅虎财经,也大概是阅读某个文件,然后AutoGPT本身就可以根据选择的结果继续执行,这种执行大概是用谷歌搜索,也大概直接访问某个文件,但这些都是LLM无法做到的。AutoGPT完成这些任务之后继续带上之前的记录发给LLM,继续扣问新的解决方案。这就是一个简朴的AI Agent的案例。
AI Agent构成部分

那么,为了完成上述能力,现实上一个AI Agent系统需要包含几个重要的部分。Lilian Weng认为一个AI Agent系统应当包含如下图所示的几个部分:
https://i-blog.csdnimg.cn/direct/e8da453649da4b19a8f57eeef22d1287.png
规划(Planning)

子目标和分解:代理将大型任务分解为更小、易于管理的子目标,从而实现复杂任务的高效处理。
反思和提炼:代理可以对过去的行为举行自我批评和自我反思,从错误中汲取教训,并为未来的步骤改进它们,从而进步最闭幕果的质量。
记忆(Memory)

短期记忆:所有的上下文学习(参见提示工程:https://lilianweng.github.io/posts/2023-03-15-prompt-engineering/ )都是使用模型的短期记忆来学习。
恒久记忆:这为代理提供了在很长一段时间内保存和调用(无穷)信息的能力,通常是通过使用外部矢量存储和快速检索。
工具使用(Tool Use)

代理学会调用外部API以获取模型权重中缺少的额外信息(在预练习后通常难以更改),包罗当前信息、代码执行能力、对专有信息源的访问等。
下面临每个部分举行具体的解释。
规划(Planning)

复杂的任务通常涉及许多步骤。AI Agent需要知道他们是什么,并提前筹划。
任务分解(Self-Reflection)

任务分解重要是的目的是将复杂的任务分解成简朴的小任务,如许LLM可以更简朴地解决问题。这里先容2类方法:
思维链已成为加强复杂任务模型性能的尺度提示技术(Prompt Technology)。大抵就是让模型“一步一步地思索”,使用更多的测试时间计算将困难任务分解为更小、更简朴的步骤。CoT将大型任务转化为多个可管理的任务,并对模型的思维过程举行了阐释。
思想树(姚等人2023年)通过在每一步探索多种推理大概性来扩展CoT。它起首将问题分解为多个思维步骤,并每一步生成多个思维,创建一个树结构。搜索过程可以是BFS(广度优先搜索)或DFS(深度优先搜索),每个状态都由分类器(通过提示)或多数票评估。
自我反省(Self-Reflection)

自我反省是一个重要的方面,它允许AI Agent通过完善过去的举措决策和纠正以前的错误来迭代地改进。它在现实天下中发挥着至关重要的作用,在现实天下中,试错是不可避免的。
这里也包含几种方法:
ReAct(姚等人2023年)通过将动作空间扩展为特定于任务的离散动作和语言空间的组合,将推理和行为集成在LLM中。前者使LLM能够与情况交互(比方使用维基百科搜索API),而后者则提示LLM以天然语言生成推理跟踪。
https://i-blog.csdnimg.cn/direct/33186d48b61945459484bf690167db09.png
Reflexion(Shinn & Labash 2023)是一个为代理配备动态记忆和自我反思能力以进步推理能力的框架。Reflexion 具有尺度的强化学习(Reinforcement Learning,RL)设置,此中奖励模型提供简朴的二进制奖励,而举措空间则沿用 ReAct 中的设置,即在特定任务的举措空间中加入语言,以实现复杂的推理步骤。每次举措后,AI Agent会计算一个启发式的值,然后根据自我反思的结果决定重置情况以开始新的试验。
Chain of Hindsight(CoH;Liu 等人,2023 年)通过向模型明白展示一系列过去的输出结果,鼓励模型改进自己的输出结果。
https://i-blog.csdnimg.cn/direct/cbb10b162aed4ce1bfc0bb5063707e46.png
记忆(Memory)

记忆是类似多轮对话中记着之前的输入和设定的一种能力。在当前的大模型架构中,随着对话的增长,要记着之前用户的输入内容再输出需要消耗大量的硬件资源。大多数模型支持的上下文长度都黑白常有限的(当前开源模型重要是2K上下文长度:开源领域上下文长度超过2K模型列表)。超过这个长度之后大多数模型的性能都会极具降落或者是不支持。但是长上下文是解决现实问题中必须要面临的。如代码生成、故事续写、文本择要等场景,支撑更长的输入通常意味着更好的结果。
在这里,Lili Weng起首总结了一下人类的记忆分类总结,然后对应到大模型上分别是什么样的。
记忆范例

记忆可以定义为用于获取、存储、保存和检索信息的过程。人类大脑中有几种范例的记忆。
感官记忆(Sensory Memory): 这是记忆的最早阶段,能够在原始刺激竣事后保存对感官信息(视觉、听觉等)的印象。感官记忆通常只能连续几秒钟。其子种别包罗图标记忆(视觉)、回声记忆(听觉)和触觉记忆(触觉)。
短时记忆(Short-Term Memory,STM)或工作记忆: 它存储我们当前意识到的信息,以及执行学习和推理等复杂认知任务所需的信息。
长时记忆(Long-Term Memory,LTM): 长时记忆可以将信息存储很长时间,从几天到几十年不等,存储容量基本上是无穷的。长时记忆有两种亚型:
显性/陈述性记忆: 这是对事实和事件的记忆,指那些可以有意识地回忆起的记忆,包罗外显记忆(事件和履历)和语义记忆(事实和概念)。
内隐/步伐性记忆: 这种记忆是偶然识的,涉及自动执行的技能和例行步伐,如骑车或在键盘上打字。
https://i-blog.csdnimg.cn/direct/cb67b9b5dee24fd3b0cc4732875e4ca0.png
我们可以大抵思量将上面的记忆范例对应到下面几个部分:

[*]感官记忆是类似大模型学习原始输入(包罗文本、图像或其他模式)的嵌入表征;
[*]短时记忆可以明白为大模型的上下文学习,类似于prompt。由于受到 Transformer
有限上下文窗口长度的限制,它是短暂和有限的,但是可以每次输入都引入。
[*]恒久记忆一样平常就是大模型之外作为外部向量存储的数据了,AI Agent可在查询时加以关注,并可通过快速检索举行访问。
那么,在外部数据检索的时候也需要思量一些方法。这里提供一种经典的方法。
最大内积搜索(MIPS)

外部存储器可以缓解有限留意力的限制。尺度的做法是将信息的嵌入表示保存到向量存储数据库中,该数据库可支持快速的最大内积搜索(MIPS)。为了优化检索速度,通常选择近似近邻(ANN)算法来返回近似的前 k 个近邻,从而以损失的少量精度调换巨大的速度提升。
工具使用(Tool Use)

LLM本身最强的是文本辨认、意图明白等,但是对于计算等操作大概还不如传统计算器。因此,为LLM配备一些工具可以大大提升LLM的能力,这里先容几个相关的研究(产品)。
MRKL(Karpas等人,2022 年)是 “模块化推理、知识和语言 “的简称,是一种用于自主代理的神经符号架构。MRKL 系统包含一系列 “专家 “模块,通用 LLM 用作路由器,将查询路由到最合适的专家模块。这些模块可以是神经模块(如深度学习模型),也可以是符号模块(如数学计算器、钱币转换器、天气 API)。
Karpas等人使用算术作为测试案例,对LLM举行了微调实验,以调用计算器。他们的实验表明,解决口述数学问题比解决明白陈述的数学问题更难,由于LLM(7B Jurassic1-large model)无法可靠地提取基本算术的精确参数。这意味着当外部符号工具能够可靠地工作时,了解何时以及怎样使用这些工具至关重要,这取决于 LLM 的能力。
TALM(工具加强语言模型;Parisi 等人,2022 年)和 Toolformer(Schick 等人,2023 年)都对 LM 举行了微调,使其学会使用外部工具API。数据集根据新添加的API调用注释是否能进步模型输出的质量举行扩展。
ChatGPT Plugins 和 OpenAI API 函数调用是加强工具使用能力的 LLM 在实践中发挥作用的精良范例。工具 API 的集合可以由其他开发职员提供(如插件),也可以自行定义(如函数调用)。
HuggingGPT(Shen 等人,2023 年)是一个使用 ChatGPT 作为任务规划器的框架,可根据模型描述选择 HuggingFace 平台中可用的模型,并根据执行结果总结响应。
https://i-blog.csdnimg.cn/direct/e48c743c2b644f58a693e535d42fd6ef.png
HuggingGPT包含四个步骤:任务规划、模型选择、任务执行和响应生成。具体参考:“GPT”的模型太多无法选择?让大模型帮你选择大模型!浙江大学发布HuggingGPT!
API-Bank(Li 等人,2023 年)是评估工具加强 LLM 性能的基准。它包含 53 种常用的 API 工具、一个完备的工具加强 LLM 工作流程以及 264 个注释对话,此中涉及 568 次 API 调用。API 的选择相当多样化,包罗搜索引擎、计算器、日历查询、智能家居控制、日程管理、健康数据管理、账户认证工作流程等。由于 API 数量众多,LLM 起首可以访问 API 搜索引擎,找到要调用的 API,然后使用相应的文档举行调用。
怎样学习大模型 AI ?

由于新岗位的生产效率,要优于被代替岗位的生产效率,所以现实上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“开始把握AI的人,将会比较晚把握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的原理。
我在一线互联网企业工作十余年里,引导过不少同行后辈。帮助很多人得到了学习和发展。
我意识到有很多履历和知识值得分享给各人,也可以通过我们的能力和履历解答各人在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识流传途径有限,很多互联网行业朋友无法获得精确的资料得到学习提升,故此将并将重要的AI大模型资料包罗AI大模型入门学习思维导图、佳构AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
这份完备版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】
https://i-blog.csdnimg.cn/direct/8860f19e62134f058ae4494199266f1f.png
https://img-blog.csdnimg.cn/direct/80dfd54ec491457faa956c46afad1163.png#pic_center
第一阶段(10天):初阶应用

该阶段让各人对大模型 AI有一个最前沿的认识,对大模型 AI 的明白超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。


[*]大模型 AI 能干什么?
[*]大模型是怎样获得「智能」的?
[*]用好 AI 的焦点心法
[*]大模型应用业务架构
[*]大模型应用技术架构
[*]代码示例:向 GPT-3.5 灌入新知识
[*]提示工程的意义和焦点思想
[*]Prompt 典型构成
[*]指令调优方法论
[*]思维链和思维树
[*]Prompt 攻击和防范
[*]…
第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完备的基于 agent 对话机器人。把握功能最强的大模型开发框架,捉住最新的技术希望,得当 Python 和 JavaScript 步伐员。


[*]为什么要做 RAG
[*]搭建一个简朴的 ChatPDF
[*]检索的基础概念
[*]什么是向量表示(Embeddings)
[*]向量数据库与向量检索
[*]基于向量检索的 RAG
[*]搭建 RAG 系统的扩展知识
[*]混淆检索与 RAG-Fusion 简介
[*]向量模型本地部署
[*]…
第三阶段(30天):模型练习

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能练习 GPT 了!通过微调,练习自己的垂直大模型,能独立练习开源多模态大模型,把握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?


[*]为什么要做 RAG
[*]什么是模型
[*]什么是模型练习
[*]求解器 & 损失函数简介
[*]小实验2:手写一个简朴的神经网络并练习它
[*]什么是练习/预练习/微调/轻量化微调
[*]Transformer结构简介
[*]轻量化微调
[*]实验数据集的构建
[*]…
第四阶段(20天):商业闭环

对环球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种情况下部署大模型,找到得当自己的项目/创业方向,做一名被 AI 武装的产品经理。


[*]硬件选型
[*]带你了解环球大模型
[*]使用国产大模型服务
[*]搭建 OpenAI 代理
[*]热身:基于阿里云 PAI 部署 Stable Diffusion
[*]在本地计算机运行大模型
[*]大模型的私有化部署
[*]基于 vLLM 部署大模型
[*]案例:怎样优雅地在阿里云私有部署开源大模型
[*]部署一套开源 LLM 项目
[*]内容安全
[*]互联网信息服务算法备案
[*]…
学习是一个过程,只要学习就会有挑衅。天道酬勤,你越努力,就会成为越精良的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的精确特征了。
这份完备版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

https://i-blog.csdnimg.cn/direct/8860f19e62134f058ae4494199266f1f.png

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
页: [1]
查看完整版本: 大模型驱动的自动代理(AI Agent):将语言模型的能力变成通用能力的一种方