ToB企服应用市场:ToB评测及商务社交产业平台

标题: 中科院主动化所万字长文最新综述!当无人机遇上大模型:低空机动性智能体的 [打印本页]

作者: 美丽的神话    时间: 2025-2-20 19:14
标题: 中科院主动化所万字长文最新综述!当无人机遇上大模型:低空机动性智能体的


主要贡献


先容



无人机(UAVs)的快速发展及其机动性显著提拔了智能系统的感知与决策本领,为升级传统系统并进步运营服从提供了强盛手段。
尽管UAVs具有诸多优势,但大多数UAVs仍依赖于人类操作员的控制。这种依赖不仅增加了劳动力成本,还带来了安全风险。此外,由于操作员的感知范围和灵敏度受限于机载传感器,这限制了UAVs在复杂情况中的可扩展性,从而阻碍了其广泛应用。
比年来,人工智能(AI)领域,尤其是底子模型(FMs)如ChatGPT、SORA以及各种AI天生内容(AIGC)框架的进展,为UAVs的智能化提供了新的途径。大型语言模型(LLMs)显现出了靠近人类水平的知识推理和泛化本领,能够在多样化应用中实现高级明白、机动适应和实时相应。
本文旨在探索础模型与UAVs的集成方式,并提供一个系统全面的综述,以促进对这一跨学科融合领域的明白。通过提供底子概述,论文在为研究人员和从业者提供一个参考框架,借助LLMs的本领来推进UAVs的自主性,进而扩大无人低空移动系统的应用潜力。
UAVs系统概述

UAVs功能模块



UAVs系统中各个功能模块扮演着差别的脚色,共同协作,以实现特定的任务目标。
UAVs范例



UAVs有着差别的设置范例,每种范例都有其独特的几何结构和应用场景。
UAVs集群

UAVs集群通过多个UAV协作来完成共享的目标,具有冗余、可扩展和高效的优势。

底子大模型



论文对底子模型(Foundation Models, FMs)进行了概述,重点先容了大语言模型(LLMs)、视觉底子模型(VFM)和视觉语言模型(VLMs)的核心特性和技能优势。
大语言模型(LLMs)

视觉语言模型(VLMs)

视觉底子模型(VFMs)



UAVs数据集与仿真平台

UAVs研究相干的公开数据集和仿真平台是推动基于底子模型(FMs)的UAVs系统研究的紧张资源。


通用领域数据集

特定领域数据集

3D 仿真平台

基于底子模型的UAVs系统进展

将大型语言模型(LLMs)、视觉底子模型(VFM)和视觉语言模型(VLMs)等底子模型(FMs)集成到UAVs系统,可以加强UAVs系统的智能性,显著提拔其在复杂任务中的表现。


视觉感知

对象检测

对象检测是UAVs应用中的关键任务之一,但面对着多种挑战,包括飞行高度和视角的变化、动态情况条件以及场景的多样性。
传统的对象检测算法在处置惩罚这些复杂情况时表现出色,但仍旧存在一些题目:
为了应对这些挑战,研究者们采用了多种方法来加强模型的鲁棒性和适应性:

具体研究中,Li等人联合CLIP和传统目标跟踪模块来实现UAVs的自然语言跟踪任务。Ma等人通过集成Grounding DINO和CLIP来加强UAVs图像中的门路场景检测正确性。
Limberg等人利用YOLO-World和GPT-4V实现UAVs的零样本人体检测和动作识别。Kim等人使用LLaVA-1.5天生天气形貌,联合视觉特征和语言提示进行天气感知的对象查询。
语义分割

语义分割是计算机视觉任务之一,UAVs系统在该任务上面对着与对象检测类似的挑战,如对对抗性视觉条件的适应本领和对手动标注数据的依赖。VLMs和VFMs的引入为该领域注入了新的技能动力:

COMRP方法通过联合Grounding DINO和CLIP提取门路相干地区,并使用SAM主动生身分割掩码。CrossEarth方法通过地球风格注入和多任务训练来加强跨域泛化本领。
深度估计

深度估计是UAVs感知系统的核心功能之一,用于天生地形和自然情况的3D几何表示。
比年来,基于神经辐射场(NeRF)和3D高斯散射(3DGS)的方法在该任务上取得了显著进展,但在大规模场景中仍面对挑战。单目深度估计(MDE)逐渐成为更有利的办理方案:

视觉形貌和VQA

视觉形貌和VQA属于计算机视觉和自然语言处置惩罚的交叉领域,关注图像和视频内容的语义明白和自然语言表示。
传统方法通常基于深度学习框架,但在复杂场景、开放域题目和细粒度形貌天生方面存在局限性。VLMs和VFMs通过团结表示学习显著加强了其明白复杂跨模态信息的本领:

研究主要集中在两个方向:选择或联合现有的VLMs和VFMs以适应UAVs任务场景,或训练或微调VLMs或VFMs以构建专门针对UAVs垂直应用的模型。
这些研究旨在进一步加强UAVs在复杂情况中的视觉感知、语义推理和任务执行本领,提供对智能和用户友好的机器交互的强盛支持。
视觉语言导航

室内情况

室内情况下的UAVs视觉语言导航(VLN)任务主要依赖于视觉输入和自然语言指令的联合。室内导航需要考虑更复杂的3D空间感知和推理。典范的方法包括:

室外情况

室外情况下的UAVs VLN任务更为复杂,涉及更大的开放空间和动态情况变化。主要方法包括:

视觉语言跟踪

视觉语言跟踪(VLT)任务旨在通过多模态输入实现一连的目标跟踪,并动态调整飞行路径以应对目标遮挡和情况干扰。主要方法包括:

目标搜刮

目标搜刮任务联合了多模态目标感知和智能任务规划,是一种复杂的高层次自主UAVs任务。主要方法包括:

规划

传统方法的挑战

传统的UAVs任务规划算法在复杂动态情况中面对适应性差、协调困难等题目。多UAVs系统的任务规划需要综合考虑每架UAVs的本领、限制和传感模式,同时满足能耗、避障等束缚。
然而,现有方法在实时适应情况动态、处置惩罚不测情况和未定义故障模式方面存在不足。
LLMs的应用

LLMs通过思维链(Chain of Thought, CoT)框架将复杂任务分解为一系列清晰可执行的子任务,提供了明确的规划路径和逻辑框架。
LLMs的优势在于其上下文学习和少样本学习本领,使其能够机动适应差别的任务需求,快速天生高效的规划策略。
飞行控制

单UAV飞行控制

单UAV的飞行控制通常依赖于模仿学习和强化学习方法,这些方法在提拔控制策略的智能化方面表现出巨大潜力。然而,这些方法通常需要大规模的标注数据,而且在实时性能和安全性方面存在局限。

UAVs集群飞行控制

UAVs集群的飞行控制涉及多UAVs之间的协作任务,如编队飞行、任务分配和动态避障。多智能体强化学习和图神经网络(GNNs)提供了强盛的建模本领,但在通讯延迟、计算复杂性和全局优化本领方面仍面对挑战。

底子平台

高质量的数据资源和完满的处置惩罚工作流程对于UAVs系统中LLMs、VLMs和VFM技能的应用至关紧张。
这些资源不仅为多模态任务提供了坚固的底子,还支持相干领域的技能创新和方法论进步。具体包括:

UAVs应用场景



监控

监控是UAVs应用的紧张领域一个,涉及交通场景、城市情况和监管任务。传统的监控方法主要依赖于机器学习技能,而联合FMs(尤其是LLMs和VLMs)可以显著提拔UAVs的情况感知本领和任务执行服从。

物流

在物流领域,UAVs可以实现整个物流链的智能化,从决策到门路规划和最终递送。FMs的应用为办理UAVs物流中的挑战提供了新途径。

应急相应

UAVs在应急相应和灾害救援任务中具有固有优势,能够快速适应大多数紧急场景。联合FMs可以进一步进步UAVs的实时决策本领和任务执行服从。

UAVs智能体:底子模型与UAVs系统集成流程



论文提出了整合大型语言模型(LLMs)和视觉语言模型(VLMs)于UAVs系统的一样平常框架,称为“Agentic UAV”。该框架旨在通过联合FMs来加强UAVs的自主性和智能化水平。
数据模块

数据模块是关于如何准备和适配UAVs相干数据以供底子模型(FMs)进行微调和训练。
数据准备

数据模块的主要目标是创建或适配数据,使其适合于微调和训练专为UAVs任务设计的FMs。UAVs数据通常包括多模态传感器数据和操作员提供的自然语言指令。

自然语言指令天生

自然语言指令的天生是数据模块的关键部分。这通常涉及使用图像标注模型或其他工具来创建形貌性或基于题目标解释,以便为传感器数据提供上下文。

数据集构建

构建UAVs特定的数据集对于训练和微调模型至关紧张。这些数据集通常用于导航、地理定位和遥感等任务。

底子模型模块

底子模型选择

底子模型模块第一步是模型选择,涉及根据任务范例确定使用的语言模型或视觉语言模型。选择合适的模型是确保UAVs系统能够有效处置惩罚复杂任务的关键。

模型优化

在选择了底子模型之后,优化过程旨在进步模型在UAVs特定任务中的性能。

知识模块

论文先容了如何通过检索加强天生(Retrieval-Augmented Generation, RAG)技能来加强UAVs系统的决策本领和任务执行服从。
RAG技能概述

RAG技能联合了检索和天生本领,通过从外部知识库中检索相干信息并将其与天生模型的输出融合,从而进步天生结果的质量和领域适应性。RAG的核心功能包括:

在UAVs系统中的应用

在UAVs系统中,RAG技能可以应用于多个方面,以进步系统的智能化和自主性:

优势与应用前景

RAG技能的优势在于其机动性和实时性,能够根据UAVs的具体任务需求动态调整和优化。这种模块化的架构允许独立更新知识库和天生模型,确保信息的时效性和正确性。
通过联合RAG技能,UAVs系统能够在复杂和动态的情况中实现更智能和自主的操作,为未来的UAVs应用提供了广阔的前景。
工具模块

工具模块包括通用工具和任务特定工具,可以加强UAVs的功能,以应对各种任务需求。
通用工具

通用工具专注于提供多模态功能,以加强UAVs的感知和交互本领。这些工具通常包括视觉语言模型(VLMs)和视觉底子模型(VFMs),它们在处置惩罚视觉任务时表现出色。

任务特定工具

任务特定工具是为UAVs特定任务设计的,主要用于飞行控制和任务执行。这些工具通常包括开源的飞行控制器和任务规划软件。

工具模块的应用

工具模块的应用旨在进步UAVs系统的整体性能和任务执行服从。通过联合通用工具和任务特定工具,UAVs能够在复杂情况中实现更智能和自主的操作。

智能体模块

智能体模块是关于如何在UAVs系统中实现智能决策和任务执行本领的模块。该模块通过集成高层协调和任务特定智能体工作流,优化UAVs在复杂任务中的操作。
管理者智能体

管理者智能体负责UAVs集群的高级任务协调和调度。其主要职责包括:

UAVs智能体工作流

每个UAVs都遵照一个自主的智能体工作流,该工作流包括一系列处置惩罚感知、规划和控制任务的智能体。这些智能体按顺序操作,以确保UAVs能够有效地处置惩罚必要的数据和执行任务目标。

智能体协作与适应性

智能体模块夸大UAVs之间以及UAVs与全局智能体之间的协作和适应性。这种协作确保了UAVs群在复杂任务中的协同工作。

总结

论文探索了将底子模型与UAVs联合的潜力,夸大了LLMs在提拔UAVs自主性和智能化方面的作用。
通过系统综述现有方法和数据资源,提出了实现具有自主智能的UAV的参考门路图。
未来的研究方向包括进一步整合知识和工具模块,以创建能够处置惩罚复杂任务和动态情况的UAVs系统。



免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。




欢迎光临 ToB企服应用市场:ToB评测及商务社交产业平台 (https://dis.qidao123.com/) Powered by Discuz! X3.4