大型模子智能体:最先辈的互助范式、安全与隐私以及未来趋势 ...

打印 上一主题 下一主题

主题 777|帖子 777|积分 2331


摘要—大型模子智能体(LM agents),由如 GPT-4 和 DALL-E 2 等大型基础模子驱动,代表了实现人工通用智能(AGI)的告急一步。LM 智能体展示了自主性、具身性和连接性等关键特征,使其可以或许在物理、假造和混淆现实环境中无缝与人类、其他智能体及周围环境互动。本文提供了对 LM 智能体最前沿技能的全面调查,重点讨论其架构、互助范式、安全性、隐私和未来远景。具体而言,我们起首探讨 LM 智能体的基础原则,包括一般架构、关键组件、使能技能**和现代应用。随后,我们从数据、盘算和知识的角度讨论 LM 智能体的现实互助范式,以促进其连接智能。此外,我们体系分析了与 LM 智能体相关的安全漏洞和隐私泄露,特别是在多智能体环境中。我们还探讨了其底层机制,并回首现有和潜在的对策。末了,我们概述了构建稳健和安全的 LM 智能体生态体系的未来研究方向。
关键词—大型模子、人工智能智能体、具身智能、多智能体互助、安全、隐私。


I. 弁言
**A. 大型模子智能体的背景
在1950年代,艾伦·图灵提出了著名的图灵测试,以评估机器是否可以或许体现出与人类相当的智能,为人工智能(AI)的发展奠基了基础。这些被称为“智能体”的人工实体,是AI体系的核心组件。一般来说,AI智能体是可以或许理解并相应人类输入、感知环境、做出决议并在物理、假造或混淆现实环境中采取行动以实现其目标的自主实体[1]。AI智能体的范围从遵照预定义规则的简朴机器人到通过经验学习和适应的复杂自主实体[2]。它们可以是基于软件的或物理实体,可以或许独立运行或与人类或其他智能体互助。
自20世纪中叶以来,AI智能体的发展取得了显著希望[3]–[5],如深蓝、AlphaGo和AlphaZero**,如图1所示。只管取得了这些希望,之前的研究告急集中在精细化专业能力上,如符号推理或在特定使命(如围棋或国际象棋)中体现优秀,往往忽视了在AI模子中培养通用能力,如恒久规划、多使命泛化和知识保留。创造可以或许灵活适应广泛使命和复杂环境的AI智能体的挑衅仍然在很大程度上未得到探索。为了进一步推动AI智能体的边界,开发强大的基础模子以整合这些关键属性是至关告急的,为下一代AI智能体提供多功能的基础。
随着大型模子(LMs)的鼓起,也称为大型基础模子,如OpenAI的GPT-4、Google的PaLM 2和Microsoft的Copilot,LMs为全面增强AI智能体的内在能力开发了新可能性[6][7]。如图2所示,一个LM智能体,无论是软件形式还是具身形式,通常由四个关键组件构成:规划、行动、记忆和互动。这些智能体可以或许在物理、假造或混淆现实环境中无缝操纵[1][8]–[10]。特别是,LMs作为AI智能体的“大脑”,赋予它们在人机互动(HMI)、复杂模式识别、知识保留、推理、恒久规划、泛化和适应性方面强大的能力[9]。此外,通过先辈的推理和少量/零样本规划技能,如头脑链(CoT)[11]、头脑树(ToT)[12]和反思[13],LM智能体可以或许形成复杂的逻辑连接,有用办理复杂的多面使命。比方,AutoGPT[14],一个有出息的LLM智能体原型,可以将复杂使命分解为几个可管理的子使命,从而促进布局化和高效的题目办理。将LM与检索增强天生(RAG)技能[15]结合,进一步使智能体可以或许访问外部知识源,并基于检索的信息进步其相应的准确性。此外,LM智能体可以灵活集成多种LM,包括大型语言模子(LLM)和大型视觉模子(LVM),以实现多方面的能力。
LM智能体被视为实现人工通用智能(AGI)的一告急步调,并广泛应用于网络搜索[16]、保举体系[17]、假造助手[18][19]、元宇宙游戏[20]、机器人技能[21]、主动驾驶汽车[22]和电子设计主动化(EDA)[23]等范畴。据MarketsandMarkets[24]陈诉,2023年全球自主AI和自主智能体市场的估值为480亿美元,预计到2028年将以43%的年均增长率增长,达到285亿美元。LM智能体引起了全球关注,包括Google、OpenAI、Microsoft、IBM、AWS、Oracle、NVIDIA和百度等领先科技巨头正在进入LM智能体行业。

B. LM智能体的蹊径图和关键特征
图3描绘了LM智能体的未来愿景,其特征为三个关键属性:自主性、具身性和连接性,为实现AGI铺平道路。

  • 自主智能。LM智能体的自主智能指的是它们独立运行的能力,可以或许在没有连续人类输入的情况下主动做出决议。如图2(a)所示,LM智能体可以维护一个内部记忆,随着时间的推移积聚知识,以指导未来的决议和行动,使其可以或许在动态环境中连续学习和适应[25]。此外,LM智能体可以自主使用各种工具(比方,搜索引擎和外部API)收集信息或创建新工具来处理复杂使命[26]。通过与人类或其他智能体互助或竞争,LM智能体可以有用提升其决议能力[27]。
  • 具身智能。只管比年来取得了一些希望,LM通常被动地相应人类在文本、图像或多模态范畴的命令,而不直接与物理世界互动[7]。而具身智能体可以主动感知和作用于其环境,无论是数字、机器人还是物理环境,使用传感器和实行器[21][25]。向LM赋能的智能体的转变涉及创建可以或许理解、学习和办理现实世界挑衅的具身AI体系。如图2(b)所示,LM智能体主动与环境互动,并根据及时反馈调解行动。比方,一台负责清洁的家庭机器人LM智能体可以通过分析房间布局、表面类型和停滞物来天生量身定制的策略,而不光仅是遵照通用指令。
  • 连接智能。连接的LM智能体逾越了单个智能体的能力,在应对复杂的现实使掷中发挥关键作用[28]。比方,在主动驾驶中,作为LM智能体的连接主动驾驶汽车共享及时传感数据,和谐活动,并在交叉路口协商通行,以优化交通流量并进步安全性。如图3所示,通过将浩繁LM智能体互联成“LM智能体互联网”,连接的LM智能体可以自由分享感知数据和使命导向知识。通过充分使用各种专业LM的盘算能力,它促进了互助决议和集体智能。因此,跨数据、盘算和知识范畴的协作增强了各个智能体的性能和适应性。此外,这些互动使得LM智能体可以或许形成社会接洽和属性,助力智能体社会的发展[29][30]。
C. 保障连接LM智能体的动机
只管LM智能体的未来光明,但安全和隐私题目仍然是其广泛采用的重大停滞。在LM智能体的整个生命周期中,可能会出现多种漏洞,从对抗样本[31]、智能体中毒[32]、LM幻觉[33]到普遍的数据收集和记忆[34]。

  • 安全漏洞。LM智能体容易出现“幻觉”,即其基础LM天生似是而非但不符合现实的输出[33]。在多智能体环境中,幻觉现象可能传播错误信息,陵犯决议,导致使命失败,并对物理实体和人类构成风险。此外,维护用于训练和推理的感知数据和提示的完整性和真实性至关告急,因为偏见或受损的输入可能导致禁绝确或不公平的效果[35]。诸如对抗性操控[31]、中毒[36]和后门[37]等攻击进一步威胁LM智能体,答应恶意行为者操控输入并欺骗模子。在协作环境中,智能体中毒行为[32],即恶意智能体粉碎其他智能体的行为,可能粉碎协作体系。此外,将LM智能体集成到网络物理社会体系(CPSS)中,扩大了攻击面,使对手可以或许使用互联体系中的漏洞。
  • 隐私泄露。LM智能体广泛的数据收集和记忆过程带来了严重的数据泄露和未经授权访问的风险。这些智能体通常处理大量个人和敏感的商业信息,涉及面向消耗者(ToC)和面向企业(ToB)应用,增加了对数据存储、处理、共享和控制的担忧[38]。此外,LMs可能无意中记住训练数据中的敏感细节,可能在互动过程中袒露私人信息[34]。在多智能体互助中,隐私风险进一步加剧,LM智能体在通信和使命实行过程中可能无意中泄露有关用户、其他智能体或其内部操纵的敏感信息。

D. 相关调查与贡献
比年来,LM智能体在学术界和工业界引起了广泛关注,导致多角度探索其潜力的各种研究。该范畴的一些告急综述论文如下:Andreas等人[29]提出了AI智能体构建的玩具实验和关于建模交换意图、信念和愿望的案例研究。Wang等人[39]识别了基于LLM的自主智能体的关键构成部门(即,个人资料、记忆、规划和行动)以及主观和客观评估指标。此外,他们讨论了LLM智能体在工程、天然科学和社会科学中的应用。Xi等人[9]提出了一个LLM智能体的一般框架,包括大脑、行动和感知。此外,他们探讨了在单智能体、多智能体和人机协作以及智能体社会中的应用。Zhao等人[2]提供了LLM的体系综述,涵盖了预训练、适应调优、使用和能力评估。此外,介绍了背景信息、主流技能和LLM的关键应用。Xu等人[40]对移动网络中的边缘云AI天生内容(AIGC)服务的关键概念、架构和指标进行了教程,并识别了若干用例和实行挑衅。Huang等人[1]提供了假造/物理环境中AI智能体的分类,讨论了AI智能体的认知方面,并调查了AI智能体在机器人、医疗保健和游戏中的应用。Cheng等人[10]回首了LLM智能体的关键构成部门(包括规划、记忆、行动、环境和反思)及其潜在应用。还回首了多智能体体系中的规划类型、多脚色关系和沟通方法。Masterman等人[8]提供了工业项目中单智能体和多智能体架构的概述,并展示了现有研究的见解和局限性。Guo等人[41]讨论了基于LLM的多智能体体系的四个构成部门(即接口、建模、通信和能力获取),并在题目办理和世界模仿方面提出了两条应用线。Durante等人[42]介绍了多模态LM智能体及其训练框架,包括学习、行动、认知、记忆、行动和感知。他们还讨论了智能体的差别脚色(比方,具身、模仿和知识推断),以及在游戏、机器人、医疗保健、多模态使命和天然语言处理(NLP)等差别应用中的潜力和实验效果。Hu等人[20]概述了基于LLM的游戏智能体的六个关键构成部门(即感知、头脑、记忆、学习、行动和脚色饰演),并回首了六种类型游戏中现有的基于LLM的游戏智能体。Xu等人[43]提供了关于游戏中LM智能体的启用架构和挑衅的全面综述。Qu等人[44]对将移动边缘智能(MEI)与LLM整合进行了全面综述,强调在网络边缘部署LLM的关键应用以及在边缘LLM缓存、传输、训练和推理中的最新技能。

  • 现有的LM智能体调查告急集中在单个LLM智能体和多智能体体系的一般框架设计及其在特定应用中的潜力上。本综述差别于上述现有调查,重点关注LM智能体的网络方面,包括一般架构、启用技能和互助范式,以构建在物理、假造或混淆现实环境中联网的LM智能体体系。此外,随着LM智能体的希望,研究它们在未来AI智能体体系中的安全性和隐私性变得迫不及待。本研究全面回首了LM智能体的安全和隐私题目,并讨论了现有和潜在的防御机制,这些内容在现有调查中常被忽视。表I比力了本调查与LM智能体范畴先前相关调查的贡献。
  • 在本文中,我们体系性地回首了单个和连接的LM智能体的最新希望,重点关注安全和隐私威胁、现有和潜在的对策以及未来趋势。我们的调查旨在:1)提供对LM智能体如何工作以及如何在多智能体场景中互动的更广泛理解;2)审视与LM智能体及其互动相关的安全和隐私挑衅的范围和影响;3)强调有用的策略和办理方案,以防御这些威胁,掩护LM智能体在各种智能应用中的安全。该工作的告急贡献有四个方面:
  • 我们全面回首了LM智能体构建的最新希望,包括一般架构、关键组件(即规划、记忆、行动、互动和安全模块)以及启用技能。还讨论了LM智能体的工业原型和潜在应用。
  • 我们体系地对LM智能体的互动模式(即智能体-智能体、智能体-人类和智能体-环境互动)及其互动类型(即互助、部门互助和竞争)进行了分类。我们探讨了LM智能体在数据互助、盘算互助和知识互助方面的现实互助范式。
  • 我们全面分析了现有和潜在的安全和隐私威胁、其根本机制、分类及单个和连接的LM智能体面临的挑衅。我们还回首了最新的对策,并查验其在掩护LM智能体方面的可行性。
  • 末了,我们讨论了开放的研究题目,并从能源高效和绿色LM智能体、公平和可解释的LM智能体、网络物理社会安全智能体体系、智能体生态体系的价值网络等角度指出未来的研究方向,旨在提升LM智能体的效率和安全性。
E. 论文组织
本文其余部门组织如下。第二节讨论单个LM智能体的工作原理,第三节介绍连接LM智能体的互助范式。第四节和第五节分别介绍LM智能体的安全和隐私威胁的分类,以及最新的对策。第六节概述LM智能体范畴的开放研究题目和未来方向。末了,第七节给出结论。图4描绘了本综述的组织布局。

II. 大型模子智能体:工作原理
在本节中,我们起首介绍现有的LM智能体标准。然后,讨论连接LM智能体的一般架构,包括关键组件、通信模式、告急特征和启用技能。接下来,介绍典型原型并讨论LM智能体的现代应用。

  • LM智能体的操纵体系(OS):根据[45],[46],LM智能体的操纵体系架构由三层构成:应用层、内核层和硬件层。


  • 应用层承载智能体应用(如观光、编码和机器人智能体),并提供抽象体系调用的SDK,简化智能体开发。
  • 内核层包括普通的操纵体系内核和额外的LM智能体内核,重点在于不改变原始操纵体系布局。LM智能体内核中的关键模块包括使命规划和优先级调治的智能体调治器、LM状态管理的上下文管理器、短期数据的记忆管理器、恒久数据保留的存储管理器、外部API交互的工具管理器,以及隐私控制的访问管理器。
  • 硬件层包罗物理资源(CPU、GPU、内存等),通过操纵体系体系调用间接管理,因为LM内核不直接与硬件交互。

  • LM智能体的构建模块:根据[1],[8]–[10],LM智能体一般有五个构建模块:规划、行动、记忆、互动和安全模块(详细见节II-C)。这些模块共同使LM智能体可以或许高效、安全地感知、规划、行动、学习和互动于复杂动态环境中。


  • 通过大型模子,规划模块使用记忆模块天生策略和行动计划,实现知情决议[7],[10]。
  • 行动模块实行这些具体的行动,根据及时环境反馈调解行动,以确保上下文适当的相应[9],[42]。
  • 记忆模块作为累积知识(如已往经验和外部知识)的存储库,促进连续学习和改进[10]。
  • 互动模块使智能体与人类、其他智能体和环境之间实现有用的沟通与协作。
  • 安全模块贯穿于LM智能体的操纵中,确保主动防护威胁并维护数据和过程的完整性和机密性。

  • LM智能体的引擎:LM智能体的引擎由一系列前沿技能驱动,包括大型基础模子、知识相关技能、互动、数字双胞胎和多智能体协作(详细见节II-D)。


  • 大型基础模子如GPT-4和DALL-E 2作为LM智能体的大脑,使其具备高级模式识别、复杂推理和智能决议能力,提供认知能力[6],[7]。
  • 知识相关技能通过整合知识图谱、知识库和RAG体系增强LM智能体,使其可以或许访问、使用和管理大量外部知识源,确保知情和上下文相关的行动[47]。
  • HMI技能通过天然语言处理、多模态接口以及增强/假造/混淆现实(AR/VR/MR)实现人类与智能体之间的无缝互动,促进动态和自适应的交互[48]。
  • 数字双胞胎技能通过智能体内部的通信实现物理身段和数字大脑之间的数据和状态的高效同步[49]。
  • 多智能体协作技能使LM智能体可以或许高效协同工作,分享数据、资源和使命,通过智能体间的通信订定互助、竞争和互助竞争策略,办理复杂题目[28]。

  • LM智能体的通信模式:每个LM智能体由两个部门构成:(i)位于云端、边缘服务器或终端设备的LM赋能大脑,以及(ii)相应的物理身段,如自主车辆。每个LM智能体可以主动与其他LM智能体、假造/现实环境和人类互动。对于连接的LM智能体,存在两种典型的通信模式:内部通信用于智能体内大脑与物理身段之间的无缝数据/知识同步,外部通信则用于LM智能体之间的高效和谐。表III总结了这两种通信模式的比力。


  • 内部通信是指单个LM智能体内部的数据/知识交换。这种通信确保LM智能体的差别组件(包括规划、行动、记忆、互动和安全模块)协同工作。比方,LM智能体通过其物理身段收集多模态感知数据,然后将解释的信息转达给LM赋能的大脑。大脑中的规划模块订定相应或行动计划,随后由行动模块实行。这种信息的无缝流动对于维持LM智能体在及时动态场景中的功能性、一致性和相应性至关告急。
  • 外部通信涉及多个LM智能体之间的信息和知识交换。它促进了智能体之间的协同使命分配、资源共享和和谐行动,推动集体智能的发展。比方,在智能都会应用中,管理交通信号灯、公共交通和应急服务的各种LM智能体共享及时数据,以优化都会流动性和安全性。有用的外部通信依赖于标准化协议,以确保兼容性和互操纵性,从而促进LM智能体网络的高效和同步操纵。

  • 人类世界与LM智能体之间的信息流:人类通过天然语言、移动智能设备和可穿戴技能与LM智能体互动,使LM智能体可以或许理解人类指令并有用办理现实题目。LM智能体反过来从人类输入中获取新知识和数据,帮助其连续改进和学习。这连续续更新和优化模子的过程,使LM智能体可以或许提供越来越准确和有用的信息。在AR和VR环境中,LM智能体可以或许在假造场景中与人类用户协作,如构筑设计,提升团体效率和创造力[50]。
  • 物理世界与LM智能体之间的信息流:得益于数字双胞胎技能,LM智能体可以或许在其物理身段和数字大脑之间同步数据和状态,形成无缝互动循环。LM智能体还可以监控并对环境的及时输入作出反应。这种双向同步使LM智能体可以或许以高精度和相应性感知和应对其周围环境,无论是假造还是现实,从而弥合数字与物理范畴之间的差距。通过不断从环境反馈中学习,LM智能体可以或许积聚知识并理解物理法则,从而办理复杂的现实世界题目。这一迭代学习过程确保LM智能体不光对即时刺激作出反应,还能随着时间推移不断优化其具体行动,达到更复杂和有用的办理方案。
  • 网络世界与LM智能体之间的信息流:在网络世界中,LM智能体通过高效的云-边缘网络连接到LM智能体互联网,促进无缝数据和知识共享,推动多智能体协作。通过在云和边缘基础办法中部署大型模子,LM智能体可以或许使用云和边缘盘算的优势,优化性能和相应能力[51]。云提供强大的盘算能力和存储,支持处理大量数据和训练复杂模子。同时,边缘提供靠近数据源的及时数据处理能力,淘汰耽误,确保及时决议。在LM智能体互联网中,LM智能体可以及时共享数据、知识和学习经验,构建一个跨多个范畴的强大自适应智能网络。比方,在智能都会中,分布在差别位置的具身LM智能体可以通过共享及时数据和和谐行动,协作优化交通流、管理能源资源并增强公共安全。

如何体系的去学习大模子LLM ?

大模子时代,火爆出圈的LLM大模子让程序员们开始重新评估自己的本领。 “AI会取代那些行业?”“谁的饭碗又将不保了?”等题目热议不断。
事实上,抢你饭碗的不是AI,而是会使用AI的人。
继科大讯飞、阿里、华为等巨头公司发布AI产物后,许多中小企业也连续进场!超高年薪,挖掘AI大模子人才! 如今大厂老板们,也更倾向于会AI的人,普通程序员,另有应对的机会吗?
与其焦急……

不如成为「把握AI工具的技能人」,毕竟AI时代,谁先实验,谁就能占得先机!
但是LLM相关的内容许多,如今网上的老课程老教材关于LLM又太少。以是如今小白入门就只能靠自学,学习成本和门槛很高。
针对所有自学遇到困难的同学们,我帮各人体系梳理大模子学习脉络,将这份 LLM大模子资料 分享出来:包括LLM大模子册本、640套大模子行业陈诉、LLM大模子学习视频、LLM大模子学习蹊径、开源大模子学习教程等,

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

0 个回复

正序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

前进之路

金牌会员
这个人很懒什么都没写!

标签云

快速回复 返回顶部 返回列表