【谷歌发布】40页AI Agent白皮书:简单易懂的智能体认知架构,附下载链接!
https://i-blog.csdnimg.cn/img_convert/9fffcddb1044c55377cdc4c2c722df2c.png[*] 简单易懂,谷歌发布生成式AI智能体白皮书
[*] 谷歌终于发布了官方AI Agent白皮书,快来一起研读
[*] 谷歌发布的AI Agent白皮书,相识智能体一定不要错过
[*] 谷歌官方出品的AI Agent白皮书,简单易懂的智能体认知架构
[*] 2025智能体商用元年来袭,谷歌40页AI Agent白皮书深度认知行业
全文约4500字,阅读时间8分钟 文/王吉伟
随着AI Agent市场的越发火爆,为了让用户全面相识AI Agent并积极参与生态构建,一些公司相继推出了官方智能体相关的解读及白皮书。
继Anthropic之后,就在这几天,谷歌发也发布了本身的AI Agent白皮书。
这份名字简单到只有一个单词《Agents》的白皮书,从谷歌角度探究了生成式AI Agent(智能体)的概念、架构和应用,阐明白Agent区别于单纯模型的关键在于其能够使用工具访问外部信息,并进行自主推理和行动规划,而非仅仅依赖训练数据进行单次预测。
白皮书详细介绍了Agent的三个核心组成部分:模型(Language Model)、工具(Extensions, Functions, Data Stores)和编排层(Orchestration Layer)。
https://i-blog.csdnimg.cn/img_convert/236c232ad4f3978284cfeb095c4cf63a.png
编排层使用各种推理框架(如ReAct, Chain-of-Thought, Tree-of-Thoughts)引导Agent的决策过程。工具则赋予Agent与外部世界交互的能力:Extensions连接Agent与API,Functions答应客户端控制API调用,Data Stores则提供对外部数据的访问,支持RAG等应用。
该白皮书还介绍了在LangChain和Vertex AI平台上构建和部署Agent的方法,并讨论了怎样通过各种学习方法(如上下文学习、基于检索的上下文学习和微调)提拔模型性能。
白皮书旨在系统性地讲解生成式AIAgent的原理、架构和应用实践,为开发者提供构建更强盛、更灵活的AI系统的引导。
如果你还不相识AI Agent及其工作原理,谷歌这份白皮书是必读的。它涵盖了你需要相识的关于AI Agent概念、它怎样工作、LLMS 和 langchain 实现的所有内容,初学者和高级玩家都能从中受益。建议大家好好研读该白皮书,对于深入理解AI Agent有很好的资助。
【PS:赠书福利见文末】
一、Agents概述
从最根本的意义上讲,生成式AI Agents(智能体)可以被定义为一种应用程序,它通过观察世界并使用其可支配的工具来采取行动,以实现某个目标。
智能体具有自主性,可以独立于人类干预而行动,尤其是在被赋予了它们要实现的得当目标或目标时。智能体在实现目标的方法上也可以采取积极自动的态度。纵然在没有人类明确指令的环境下,智能体也可以推理出为实现其最终目标而应采取的下一步行动。
固然AI中的智能体概念相当普遍且强盛,但白皮书重点关注的是在发布时生成式AI模型能够构建的特定范例的智能体。
为了理解智能体的内部工作原理,白皮书介绍了驱动智能体举动、动作和决策的基础组件。这些组件的组合可以形貌为一种认知架构,通过混合和匹配这些组件,可以实现许多这样的架构。聚焦于核心功能,如图1所示,智能体的认知架构中有三个根本组件:模型、编排层和工具。
https://i-blog.csdnimg.cn/img_convert/d98f18bcbb9b7254dfdae74ca6187bb5.png图1:通用agent架构及其组件
在agent的范围内,模型指的是将作为agent流程的集中决策者使用的语言模型(LM)。agent使用的模型可以是一个或多个LM,其大小可以是任何规模(小/大),能够遵循基于指令的推理和逻辑框架,如ReAct、头脑链(Chain-of-Thought)或头脑树(Tree-of-Thoughts)。
生成式AI Agent扩展了语言模型的功能,使用工具获取实时信息、建议实际世界行动,并自主规划和执行复杂任务。Agent可以使用一个或多个语言模型来决定何时以及怎样进行状态转换,并使用外部工具完成模型自身难以或无法完成的各种复杂任务。
Agent的核心是编排层,它是一种认知架构,用于构建推理、规划、决策并引导其行动。各种推理技能,例如 ReAct、头脑链和头脑树,为编排层提供了接收信息、执行内部推理以及生成明智决策或响应的框架。
工具(如扩展程序、函数和数据存储)充当Agent通往外部世界的钥匙,使其能够与外部系统交互并获取训练数据之外的知识。扩展程序在Agent和外部API之间架起桥梁,支持执行 API 调用和检索实时信息。函数通过分工提供更过细的开发者控制,答应Agent生成可在客户端执行的函数参数。数据存储为Agent提供对结构化或非结构化数据的访问,从而实现数据驱动的应用程序。
二、 Agent与模型的比较
特性模型Agent知识范围受限于训练数据通过工具连接外部系统扩展知识推理模式基于用户查询进行单次推理/预测,缺乏会话历史或一连上下文管理管分析话历史(例如聊天记载),答应多轮推理/预测,并根据用户查询和编排层中的决策进行调解工具支持无原生工具实现原生支持工具实现逻辑层无原生逻辑层。
https://i-blog.csdnimg.cn/img_convert/a77282fe01fd045463051895f9ecba1a.pngAgents与模型的区别
用户需通过简单问题或推理框架(CoT、ReAct 等)构建提示来引导模型预测具有原生认知架构,使用推理框架(如 CoT、ReAct)或其他预构建Agent框架(如LangChain)。
三、认知架构:Agent怎样运作
Agent如同一位繁忙的厨师,其目标是为顾客制作美味好菜。他们需要经历计划、执行和调解的循环:
[*] 搜集信息,如顾客的订单和厨房里的食材。
[*] 根据网络到的信息,进行内部推理,思考可以制作哪些菜肴和口胃。
[*] 采取行动制作菜肴:切菜、混合香料、煎肉。
Agent使用认知架构,通过迭代处理信息、做出明智的决策以及根据先前输出改进后续行动来实现其最终目标。
https://i-blog.csdnimg.cn/img_convert/1ec36f3395a3127be2eb97c9d90b8100.png图2:在编排层采用ReAct推理的实例agent
Agent认知架构的核心是编排层,负责维护记忆、状态、推理和规划。它使用快速发展的提示工程领域和相关框架来引导推理和规划,使Agent能够更有效地与其环境交互并完成任务。
四、工具:通往外部世界的钥匙
固然语言模型擅长处理信息,但它们缺乏直接感知和影响实际世界的能力。工具弥合了这一差距,使Agent能够与外部数据和服务交互,并解锁模型本身无法实现的更广泛的行动。
工具有多种情势,复杂程度各不雷同,但通常与常见的 Web API 方法(如 GET、POST、PATCH 和 DELETE)一致。例如,工具可以更新数据库中的客户信息,或获取天气数据以影响Agent向用户提供的观光建议。
截至本文发布之日,Google 模型能够与三种重要工具范例进行交互:扩展程序、函数和数据存储。通过为Agent配备工具,我们开释了它们理解世界并采取行动的巨大潜力,为无数新的应用和大概性打开了大门。
https://i-blog.csdnimg.cn/direct/251e804238f54087baca124c47b1aa94.jpeg#pic_center
五、扩展程序
扩展程序以标准化方式弥合了 API 和Agent之间的差距,使Agent能够无缝执行 API,而无需思量其底层实现。例如,在航班预订用例中,用户大概会说“我想预订从奥斯汀飞往苏黎世的航班”。在这种环境下,自定义代码办理方案需要从用户查询中提取“奥斯汀”和“苏黎世”作为相关实体,然后实验进行 API 调用。
https://i-blog.csdnimg.cn/img_convert/2304ddafc6e37cced853f36f61fc476a.png图3:agents怎样与外部API进行交互
但是,如果用户说“我想预订飞往苏黎世的航班”而从未提供出发城市,该怎么办?如果没有所需数据,API 调用将失败,并且需要实现更多代码来捕获此类边沿环境和极端环境。这种方法不可扩展,并且很轻易在任何超出已实现自定义代码的场景中瓦解。
扩展程序通过以下方式弥合了Agent和 API 之间的差距:
[*] 使用示例辅导Agent怎样使用 API 端点。
[*] 辅导Agent乐成调用 API 端点所需的参数。
https://i-blog.csdnimg.cn/img_convert/e1a0b029ba41390de17e6e8eca875176.png图5:Agents、扩展和API之间的1对多关系
扩展程序可以独立于Agent制作,但应作为Agent配置的一部分提供。Agent在运行时使用模型和示例来决定哪个扩展程序(如果有)适合办理用户的查询。这突出了扩展程序的一个关键优势,即其内置示例范例,它答应Agent动态地选择最适合该任务的扩展程序。
六、函数
在软件工程领域,函数被定义为自包含的代码模块,它们完成特定的任务,并且可以根据需要重复使用。当软件开发职员编写程序时,他们通常会创建许多函数来执行各种任务。他们还将定义何时调用 function_a 与 function_b 的逻辑,以及预期的输入和输出。
函数在Agent世界中的工作方式非常相似,但我们可以用模型替换软件开发职员。模型可以获取一组已知函数,并根据其规范决定何时使用每个函数以及函数需要哪些参数。函数与扩展程序的区别重要体现在以下几个方面:
[*] 模型输出一个函数及其参数,但不会进行实时 API 调用。
[*] 函数在客户端执行,而扩展程序在Agent端执行。
https://i-blog.csdnimg.cn/img_convert/50e1bd793d9182596a2c117be069a4a8.png图7:函数怎样与外部API进行交互
使用函数的一个关键点是,它们旨在让开发职员能够更好地控制 API 调用的执行,以及整个应用程序中的整个数据流。在示例中,开发职员选择不将 API 信息返回给Agent,由于它与Agent大概采取的未来行动无关。
但是,根据应用程序的架构,将外部 API 调用数据返回给Agent大概是故意义的,以便影响未来的推理、逻辑和行动选择。最终,由应用程序开发职员来选择最适合特定应用程序的方法。
七、数据存储
数据存储通过提供对更动态和最新信息的访问来办理这一限制,并确保模型的响应基于究竟和相关性。
数据存储答应开发职员以其原始格式向Agent提供额外的数据,从而无需进行耗时的数据转换、模型再训练或微调。数据存储将传入的文档转换为一组向量数据库嵌入,Agent可以使用这些嵌入来提取补充其下一步操作或对用户响应所需的信息。
https://i-blog.csdnimg.cn/img_convert/d39acfaf81f78336d1cae3ee210eab31.png图11:数据存储将agents与各种范例的新实时数据源连接起来
在生成式 AI Agent的上下文中,数据存储通常被实现为开发职员希望Agent在运行时访问的向量数据库。固然我们不会在这里深入介绍向量数据库,但要理解的关键点是,它们以向量嵌入的情势存储数据,向量嵌入是一种提供的数据的高维向量或数学表现。
https://i-blog.csdnimg.cn/img_convert/ea2a2d039803d94bf55be48de3fbb022.pngAgent工具范例:扩展、函数和数据存储构的区别
总的来说,扩展、函数和数据存储构成了agent在运行时可以使用的几种不同工具范例。每种工具都有其特定用途,并且可以根据agent开发者的意愿,选择一起使用或单独使用。
八、用目标学习加强模型性能
有效使用模型的一个关键方面是它们在生成输出时选择正确工具的能力,尤其是在生产中大规模使用工具时。固然通用训练有助于模型发展这种技能,但实际世界的场景通常需要超出训练数据的知识。
为了资助模型得到这种特定知识,存在几种方法:
**上下文学习:**此方法在推理时为广义模型提供提示、工具和少样本示例,使其能够“动态”学习怎样以及何时将这些工具用于特定任务。ReAct 框架是这种方法在自然语言中的一个例子。
**基于检索的上下文学习:**此技能通过从外部内存中检索最相关的信息、工具和相关示例来动态填充模型提示。Vertex AI 扩展程序中的“示例存储”或前面提到的数据存储 RAG 架构就是一个例子。
**基于微调的学习:**此方法涉及在推理之前使用更大的特定示例数据集来训练模型。这有助于模型在接收任何用户查询之前相识何时以及怎样应用某些工具。
九、使用 LangChain快速入门Agent
为了提供Agent实际运行的可执行示例,我们将使用 LangChain 和 LangGraph 库构建一个快速原型。这些流行的开源库答应用户通过将逻辑、推理和工具调用的序列“链接”在一起来构建客户Agent,以答复用户的查询。
固然这是一个相当简单的Agent示例,但它展示了模型、编排和工具等根本组件怎样协同工作以实现特定目标。在末了一节中,我们将探究这些组件怎样在 Google 规模的托管产品(如 Vertex AI Agent和 Generative Playbooks)中组合在一起。
十、使用Vertex AI Agent的生产应用程序
固然本白皮书探究了Agent的核心组件,但构建生产级应用程序需要将它们与其他工具(如用户界面、评估框架和一连改进机制)集成在一起。
Google 的 Vertex AI 平台通过提供一个完全托管的环境(包含前面介绍的所有根本元素)来简化此过程。使用自然语言界面,开发职员可以快速定义其Agent的关键元素(目标、任务说明、工具、用于任务委托的子Agent以及示例),以轻松构建所需的系统举动。
https://i-blog.csdnimg.cn/img_convert/46af259696ad45d7fd26d3e6fbd6e1f2.png图15:基于Vefiex AI平台构建的端到端agent架构示例
此外,该平台还配备了一套开发工具,答应进行测试、评估、测量Agent性能、调试以及改进已开发Agent的团体质量。这使得开发职员能够专注于构建和改进其Agent,而平台本身则负责管理基础设施、部署和维护的复杂性。
总结
Agent的未来充满了令人兴奋的进步,我们才刚刚开始触及大概的外貌。随着工具变得越来越复杂,推理能力得到加强,Agent将能够办理越来越复杂的问题。此外,“Agent链接”的战略方法将继续得到发展势头。
通过将专门的Agent(每个Agent都擅长于特定领域或任务)组合在一起,我们可以创建一种“Agent专家混合”方法,能够在各个行业和问题领域提供卓越的效果。
重要的是要记住,构建复杂的Agent架构需要迭代方法。实验和改进是为特定业务案例和构造需求找到办理方案的关键。由于构成其架构基础的根本模型的生成性子,没有两个Agent是完全雷同的。
但是,通过使用每个根本组件的优势,我们可以创建有影响力的应用程序,扩展语言模型的功能并推动实际世界的价值。
全文完
https://i-blog.csdnimg.cn/direct/5b26bfd0ff7a40e39c4a1c903ee6d788.jpeg#pic_center
怎样学习AI大模型?
我在一线互联网企业工作十余年里,引导过不少偕行子弟。资助很多人得到了学习和发展。
我意识到有很多履历和知识值得分享给大家,也可以通过我们的能力和履历解答大家在人工智能学习中的很多困惑,以是在工作繁忙的环境下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋侪无法得到正确的资料得到学习提拔,故此将并将重要的AI大模型资料包括AI大模型入门学习头脑导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
https://i-blog.csdnimg.cn/blog_migrate/26837cac94c3b677bad169b26a9e1e46.png
第一阶段: 从大模型系统设计入手,讲解大模型的重要方法;
第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;
第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域捏造试衣系统;
第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;
第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;
第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;
第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。
https://i-blog.csdnimg.cn/blog_migrate/542f58910ba9a5939dc266222e08e2ce.jpeg#pic_center
页:
[1]