ToB企服应用市场:ToB评测及商务社交产业平台

标题: 中科院主动化所万字长文最新综述！当无人机遇上大模型：低空机动性智能体的 [打印本页]

作者: 美丽的神话 时间: 2025-2-20 19:14
标题: 中科院主动化所万字长文最新综述！当无人机遇上大模型：低空机动性智能体的

作者：Yonglin Tian, Fei Lin, Yiduo Li, Tengchao Zhang, Qiyao Zhang, Xuan Fu, Jun Huang, Xingyuan Dai, Yutong Wang, Chunwei Tian, Bai Li, Yisheng Lv, Levente Kovacs, Fei-Yue Wang
单元：中科院主动化所多模态人工智能系统国家重点实行室，澳门科技大学创新工程学院工程科学系，北京理工大学主动化学院，西北工业大学软件学院，湖南大学机械与车辆工程学院，布达佩斯奥布达大学冯·诺伊曼信息学院
原文链接：UAVs Meet LLMs: Overviews and Perspectives Toward Agentic Low-Altitude Mobility (https://arxiv.org/pdf/2501.02341)
项目主页：https://github.com/Hub-Tian/UAVs_Meet_LLMs

主要贡献

论文提供了UAVs的全面概述，包括功能模块以及具体设置，有助于明白UAV的核心组件。
系统地回首了比年来关于LLMs与UAVs集成的最新研究，包括了关键方法、多样化应用和主要挑战。
提出了UAVs智能体框架，概述了实现自主感知、推理、记忆和工具利用的必要架构和本领。
详细列举了支持UAVs智能发展的公开数据集资源，夸大了这些数据在训练、评估和支持智能UAVs系统开发中的关键作用。
对UAVs和LLMs汇聚的关键任务和应用场景进行了分类和分析，提供了实际应用的视角。

先容

无人机（UAVs）的快速发展及其机动性显著提拔了智能系统的感知与决策本领，为升级传统系统并进步运营服从提供了强盛手段。
尽管UAVs具有诸多优势，但大多数UAVs仍依赖于人类操作员的控制。这种依赖不仅增加了劳动力成本，还带来了安全风险。此外，由于操作员的感知范围和灵敏度受限于机载传感器，这限制了UAVs在复杂情况中的可扩展性，从而阻碍了其广泛应用。
比年来，人工智能（AI）领域，尤其是底子模型（FMs）如ChatGPT、SORA以及各种AI天生内容（AIGC）框架的进展，为UAVs的智能化提供了新的途径。大型语言模型（LLMs）显现出了靠近人类水平的知识推理和泛化本领，能够在多样化应用中实现高级明白、机动适应和实时相应。
本文旨在探索础模型与UAVs的集成方式，并提供一个系统全面的综述，以促进对这一跨学科融合领域的明白。通过提供底子概述，论文在为研究人员和从业者提供一个参考框架，借助LLMs的本领来推进UAVs的自主性，进而扩大无人低空移动系统的应用潜力。
UAVs系统概述

UAVs功能模块

UAVs系统中各个功能模块扮演着差别的脚色，共同协作，以实现特定的任务目标。

感知模块：
- 负责网络和表明来自多种传感器的数据，以实现对周围情况的全面明白。传感器包括RGB摄像头、事件相机、热像仪、3D摄像头、LiDAR、雷达和超声波传感器等。
- 感知模块提供情境感知，支持安全自主飞行，并在多UAVs协同任务中支持检测和跟踪其他UAVs。
- 使用先进的计算机视觉和机器学习技能来加强对象检测、语义分割和运动估计的正确性和鲁棒性。
- 通过传感器融合方法联合互补的数据源，以应对不断变化的情况条件。
导航模块：
- 负责将规划的轨迹转换为正确的飞行路径，通过一连估计和调整UAVs的位置、方向和速度来实现。
- 依赖于GPS、惯性丈量单元（IMU）、视觉里程计和睦压计等多种传感器，使用传感器融合算法来加强状态估计的可靠性和正确性。
- 在GPS受限或复杂情况中，采用同时定位与舆图构建（SLAM）技能来提供鲁棒的定位和情况映射。
规划模块：
- 负责将高层任务目标转化为具体的飞行轨迹和动作，依赖于输入的感知数据来确保安全导航。
- 使用路径规划算法计算可行且优化的门路，涵盖启发式算法（如A*算法、遗传算法、模拟退火、粒子群优化）和机器学习方法（如神经网络、深度强化学习）。
- 在多UAVs或集群操作中，规划模块还负责协调飞行门路，确保碰撞避免和群体行为的一致性。
控制模块：
- 负责天生低级下令来调节UAVs的执行器（如电机、伺服和其他控制面），以维持稳定和飞行。
- 通过闭环控制确保UAVs遵照盼望的轨迹和任务目标，使用经典和当代控制策略来管理潜伏的干扰和不确定性。
通讯模块：
- 支持UAVs与地面控制站、卫星和其他外部实体之间的数据互换，确保关键信息的无缝传输。
- 通讯方法包括短距离射频系统、Wi-Fi链路、4G/5G网络和卫星链路等，选择合适的通讯方法以满足特定的任务需求。
交互模块：
- 促进UAVs与操作员或其他智能体之间的无缝通讯和协作，包括语音下令、手势识别、加强现实或假造现实表现等。
- 提供用户界面和交互范式，以加强操作员的情境感知和用户体验。
载荷模块：
- 负责UAVs携带的装备或货品，以实现特定的任务目标。载荷模块需要处置惩罚电源供应、数据传输、机械支持和稳定等题目。
- 设计机动的模块化办理方案，以适应差别的任务需求。

UAVs范例

UAVs有着差别的设置范例，每种范例都有其独特的几何结构和应用场景。

固定翼UAVs（Fixed-Wing UAVs）：
- 具有固定的机翼形状，通过机翼产生升力以实现进步运动。
- 优点包括高速、长续航和稳定的飞行，适合长时间任务。
- 缺点是要求较高的飞行技能，无法悬停，对起飞和降落地区的要求较高。
多旋翼UAVs（Multirotor UAVs）：
- 通常配备多个旋翼（常见的是四轴、六轴或更多），通过旋翼旋转产生升力和控制。
- 优点包括低成本、易操作、能够垂直起降和悬停，适合风雅任务。
- 缺点是续航时间有限、速度较慢、载荷容量较小。
无人直升机（Unmanned Helicopters）：
- 配备一个或两个动力旋翼，提供升力和姿态控制。
- 优点包括垂直起降、悬停、高机动性、长续航和良好的抗风本领，适合复杂任务。
- 缺点是结构复杂、维护成本较高、速度相对较慢。
混淆UAVs（Hybrid UAVs）：
- 联合了固定翼和多旋翼的优点，能够在垂直飞行时使用旋翼，并在一连进步行驶时使用机翼。
- 优点包括机动性高，能够执行多种任务，包括悬停和长距离飞行。
- 缺点是设计复杂、成本较高、维护要求高。
扑翼UAVs（Flapping-Wing UAVs）：
- 受鸟类或昆虫飞行机制的启发，通过翅膀拍打产生升力。
- 优点包括安静的操作、高服从和加强的机动性，适合紧凑尺寸的应用。
- 缺点是载荷容量较小，设计和控制系统较复杂。
无人飞艇（Unmanned Airship）：
- 利用轻质气体提供浮力，并通过推进和外部结构进行移动和方向控制。
- 优点包括低成本、低噪音。
- 缺点是机动性有限、速度较低，容易受到风的影响，影响稳定性和可靠性。

UAVs集群

UAVs集群通过多个UAV协作来完成共享的目标，具有冗余、可扩展和高效的优势。

UAVs集群通太过布式决策和协作，能够在复杂情况中实现更高的任务服从和可靠性。
适用于大面积监控、精准农业和搜救等任务，能够覆盖更大的地区并进步任务执行的服从。

任务分配：
- 任务分配是UAVs集群操作中的关键题目之一，直接影响任务的服从。任务分配题目通常被建模为观光商题目（TSP）或车辆路径题目（VRP），并使用启发式算法、AI方法和数学规划方法来办理。
- 常用的算法包括遗传算法（GA）、粒子群优化（PSO）、模拟退火（SA）和混淆整数线性规划（MILP）模型。
通讯架构：
- UAVs集群的通讯可以通过底子设施架构和飞行自构造网络（FANET）来实现。底子设施架构依赖于地面控制站（GCS）进行管理，而FANET则通过UAVs之间的直接通讯实现自主协调。
- FANET架构具有机动性和可扩展性，但需要更强的通讯协议来确保可靠性和应对动态拓扑。
路径规划：
- UAVs集群的路径规划涉及选择从起始位置到所有目标位置的最优路径，同时确保UAVs之间保持预定的距离以避免碰撞。
- 常用的算法包括智能优化算法（如蚁群优化、遗传算法、模拟退火、粒子群优化）和数学规划方法。
- AI方法也被应用于UAVs集群路径规划，以加强其在复杂情况中的适应性和鲁棒性。
编队控制算法：
- 编队控制算法使UAVs集群能够自主形成和维持编队，以执行任务并根据特定任务切换或重建编队。
- 主要的控制方法包括集中控制、分散控制和分布式控制。集中控制简化了决策过程，但存在单点故障的风险；分散控制提供了机动性，但全局信息不足；分布式控制联合了两者的优点，但需要更高的通讯和计算资源。

底子大模型

论文对底子模型（Foundation Models, FMs）进行了概述，重点先容了大语言模型（LLMs）、视觉底子模型（VFM）和视觉语言模型（VLMs）的核心特性和技能优势。
大语言模型（LLMs）

核心本领：
- 泛化本领：LLMs通过在大规模语料库上训练，显现出强盛的迁移本领，包括零样本（zero-shot）和少样本（few-shot）学习。这些本领使得LLMs能够在没有特定任务训练的情况下，或者仅通过少量示例就能有效地办理新任务。
- 复杂题目办理本领：LLMs能够通过天生中心推理步骤或结构化的逻辑路径来分解复杂题目，从而实现系统化和徐徐的办理方案。这种方法被称为“思维链”（Chain of Thought, CoT）框架，通太过解任务为一系列子任务来徐徐办理。
典范模型：
- OpenAI的GPT系列：包括GPT-3、GPT-3.5和GPT-4，这些模型在语言明白、天生和推理任务中设定了新的基准。
- Anthropic的Claude模型：包括Claude 2和Claude 3，这些模型通过强化学习优先考虑安全性和可控性，在多任务泛化和鲁棒性方面表现出色。
- Mistral系列：采用稀疏激活技能，平衡了服从和性能，夸大低延迟推理。
- Google的PaLM系列：以其多模态本领和大规模参数化而闻名，后续的Gemini系列进一步进步了泛化本领和多语言支持。
- Meta的Llama模型：包括Llama 2和Llama 3，在多语言任务和复杂题目办理方面表现出色。
- Vicuna：通过微调对话数据集和低秩适应（LoRA）技能，加强了对话本领和任务适应性。
- Qwen系列：在多语言任务中表现出色，适用于多种任务。
- 其他模型：如InternLM、BuboGPT、ChatGLM、DeepSeek等，专注于特定领域的任务，如知识问答、对话天生和信息检索。

视觉语言模型（VLMs）

多模态任务：
- VLMs设计用于处置惩罚需要视觉和语言明白的任务，如视觉问答（VQA）、图像形貌、视频明白等。它们通过联合视觉和语言信息，加强了模型的明白和天生本领。
典范模型：
- GPT-4V：OpenAI推出的GPT-4的视觉版本，展示了强盛的视觉感知本领。它可以担当文本、音频和图像的任意组合输入，并能快速相应。
- Claude 3 Opus 和 Claude 3.5 Sonnet：Anthropic开发的模型，夸大多任务泛化和可控性。它们在多模态任务中表现出色，特别是在需要复杂推理和任务执行的场景中。
- Step-2：Jieyue Xingchen提出的模型，采用创新的混淆专家（MoE）架构，支持在大规模参数下进行高效的训练，显著进步了处置惩罚复杂任务的本领。
- LLaVA系列：Liu等人提出的模型，通过联合GPT-4和CLIP的视觉编码器，加强了多模态任务的表现。LLaVA的最新版本LLaVA-NeXT在捕捉视觉细节和复杂视觉逻辑推理任务中表现出色。
- Flamingo：Alayrac等人提出的模型，通过引入Perceiver Resampler和Gated Cross-Attention机制，有效整合了视觉和多模态信息，加强了模型在多模态任务中的表现。
- BLIP系列：Li等人提出的模型，通过联合预训练的视觉特征编码器和预训练的LLMs，天生相应的文本输出。BLIP-2引入了查询变换器（Q-Former）以更好地对齐视觉和语言模态。
- InstructBLIP：Dai等人提出的模型，通过大规模任务指令微调，进一步进步了模型在多模态任务中的适应性和任务执行本领。
应用场景：
- VLMs在视频明白、视觉推理和多模态任务中表现出色。比方，LLaMA-VID、IG-VLM、Video-ChatGPT和VideoTree等模型在视频内容分析和多模态任务中表现出色。
- 在视觉推理方面，X-VLM、Chameleon、HYDRA和VISPROG等模型通过创新架构和推理机制，进步了复杂视觉推理任务的正确性和适应性。

视觉底子模型（VFMs）

核心优势：
- VFMs通常具有大规模参数，能够在大规模数据集上进行训练，从而显现出卓越的泛化本领和跨任务转移性能。
- 它们在各种计算机视觉任务中表现出色，包括零样本对象检测、图像分割和深度估计等。
技能特点：
- VFMs通过在大规模图像-文本对上进行弱监视训练，实现了视觉和文本特征的有效对齐。这种方法使得模型能够同时明白和天生视觉和语言信息。
- 典范的VFMs包括CLIP、FILIP、RegionCLIP、EVA-CLIP等。CLIP是一个开创性的模型，通过在大规模数据集上进行训练，实现了视觉和文本特征的对齐。
应用场景：
- VFMs在对象检测任务中表现出色，能够实现零样本检测和少样本学习。比方，GLIP、DINO、Grounding DINO等模型在对象检测任务中表现出色。
- 在图像分割任务中，VFMs通过联合视觉和语言信息，进步了分割的正确性和鲁棒性。比方，CLIPSeg、SAM、Open-Vocabulary SAM等模型在图像分割任务中表现出色。
- 在深度估计任务中，VFMs能够实现单目深度估计，适用于复杂场景。比方，ZoeDepth、ScaleDepth、Depth Anything等模型在深度估计任务中表现出色。

UAVs数据集与仿真平台

UAVs研究相干的公开数据集和仿真平台是推动基于底子模型（FMs）的UAVs系统研究的紧张资源。

通用领域数据集

情况感知：主要用于对象检测、分割和深度估计等任务。它们提供了丰富的视觉数据，资助训练和评估UAVs在复杂情况中的感知本领。典范数据集包括：
- AirFisheye：专为复杂城市情况设计的多模态数据集，包含鱼眼图像、深度图像和点云数据。
- SynDrone：大规模合成数据集，用于城市情况中的检测和分割任务，提供像素级和对象级的标注。
- WildUAV：高分辨率RGB图像和深度数据集，用于单目视觉深度估计，支持正确的UAVs飞行控制。
事件识别：用于识别和分类视频中的事件，如劫难、交通变乱、体育比赛等。它们资助UAVs在动态情况中进行场景明白。典范数据集包括：
- CapERA：联合视频和文本形貌的事件识别数据集。
- ERA：包含多种事件类别的视频数据集。
- VIRAT：包含静态地面和动态空中视频的事件识别数据集。
目标跟踪：用于评估UAVs在多目标跟踪任务中的性能。它们通常包含多种模态的数据，如视频、文本和音频。典范数据集包括：
- WebUAV-3M：大规模的UAVs目标跟踪数据集，包含视频、文本和音频形貌。
- TNL2K：联合自然语言形貌的目标跟踪数据集，支持跨模态跟踪研究。
- VOT2020：包含多种跟踪任务的综合性数据集。
动作识别：用于识别视频中的人类动作，资助UAVs在复杂场景中进行行为分析。典范数据集包括：
- Aeriform In-Action：用于空中视频中的人类动作识别。
- MEVA：大规模的多视角、多模态视频数据集。
- UAV-Human：包含多种模态的视频数据集，用于动作识别和人体行为分析。
导航和定位：用于评估UAVs在导航和定位任务中的性能，特别是在联合视觉和语言信息的情况下。典范数据集包括：
- CityNav：用于语言引导的空中导航任务。
- AerialVLN：联合视觉和语言信息的UAVs导航数据集。
- VIGOR：用于交叉视图图像地理定位的数据集。

特定领域数据集

交通运输：主要用于交通监控、车辆和行人检测等任务。它们资助UAVs在复杂的交通情况中进行目标识别和跟踪。典范数据集包括：
- TrafficNight：夜间车辆监控的多模态数据集，联合了RGB和热成像技能。
- VisDrone：大规模的UAVs目标检测和跟踪数据集，覆盖多个中国城市的多样场景。
- CADP：用于交通变乱分析的数据集，加强了对小目标的检测本领。
遥感：用于遥感图像的对象检测、分类和定位任务。它们资助UAVs在地理信息系统（GIS）和地球观测中发挥作用。典范数据集包括：
- xView：大规模的卫星图像数据集，包含多种对象类别的解释。
- DOTA：高分辨率航空图像的对象检测数据集。
- RSICD：用于场景分类的遥感图像数据集。
农业：用于农业图像的分割和分类任务，资助UAVs在精准农业中进行作物监测和管理。典范数据集包括：
- Avo-AirDB：用于农业图像分割和分类的数据集。
- CoFly-WeedDB：用于棉花田杂草检测的数据集。
- WEED-2C：用于大豆田杂草检测的数据集。
工业应用：用于工业检查和维护任务，资助UAVs在底子设施监控中进行缺陷检测和资产识别。典范数据集包括：
- UAPD：用于沥青路面缝隙检测的数据集。
- InsPLAD：用于电力线资产检测的数据集。
应急相应：用于灾害救援场景下的视觉明白任务，资助UAVs在紧急情况下进行场景分析和救援操作。典范数据集包括：
- Aerial SAR：用于自然灾害监测和搜救操作的数据集。
- AFID：用于水道监控和灾害预警的数据集。
- FloodNet：用于灾后场景明白的数据集。
军事：用于军事图像的天生和明白任务，资助UAVs在军事变况中进行谍报网络和分析。典范数据集包括：
- MOCO：用于军事图像天生的数据集。
野生动物掩护：用于野生动物监测和掩护任务，资助UAVs在自然情况中进行物种识别和栖息地监测。典范数据集包括：
- WAID：用于野生动物监测的大规模数据集。

3D 仿真平台

AirSim：
- 由微软开发的开源仿真平台，专为UAVs、主动驾驶车辆和其他自主系统设计。它基于Unreal Engine，提供高度真实的物理仿真和视觉效果。
- 支持多种装备和传感器（如摄像头、LiDAR、IMU、GPS等）的模拟，并提供强盛的API以便于开发者进行扩展和集成。
CARLA：
- 由卡内基梅隆大学开发的开源主动驾驶仿真平台，基于Unreal Engine。它支持复杂的城市场景模拟，包括门路网络、动态交通、行人行为和多样的天气及光照条件。
- 支持多种传感器的模拟，并提供Python和C++ API，便于开发者进行算法开发和测试。
NVIDIA Isaac Sim：
- 由英伟达开发的机器人仿真平台，基于NVIDIA Omniverse平台。它提供高精度的物理仿真和实时渲染，支持多种机器人和自主系统的开发。
- 夸大GPU加速和物理引擎技能，提供丰富的工具和插件，支持从感知、运动规划到控制算法的全流程开发。
AerialVLN Simulator：
- 专为UAVs智能体研究设计的高逼真度仿真平台，联合了Unreal Engine 4和Microsoft AirSim技能。它模拟典范的3D城市情况，支持多种情况设置和动态飞行操作。
- 提供高分辨率的RGB图像、深度图像和目标分割图，支持场景明白和空间建模。
Embodied City：
- 高逼真度3D城市仿真平台，基于真实天下的城市地区构建。它使用Unreal Engine，提供一连的感知和交互本领，支持多种智能体（如UAVs和地面车辆）的行为。
- 提供多种任务地区的模拟，包括场景明白、问答、对话、视觉语言导航和任务规划。

基于底子模型的UAVs系统进展

将大型语言模型（LLMs）、视觉底子模型（VFM）和视觉语言模型（VLMs）等底子模型（FMs）集成到UAVs系统，可以加强UAVs系统的智能性，显著提拔其在复杂任务中的表现。

视觉感知

对象检测

对象检测是UAVs应用中的关键任务之一，但面对着多种挑战，包括飞行高度和视角的变化、动态情况条件以及场景的多样性。
传统的对象检测算法在处置惩罚这些复杂情况时表现出色，但仍旧存在一些题目：

多尺度对象检测：由于UAVs的高度变化和视角变化，多尺度对象检测成为研究重点之一。
动态情况：动态情况条件增加了检测任务的复杂性。
领域特定特性：差别场景的领域特性使得模型难以在不怜悯况中实现鲁棒泛化。

为了应对这些挑战，研究者们采用了多种方法来加强模型的鲁棒性和适应性：

改进训练策略：通过为特定UAVs场景训练专用模型或引入多任务学习框架来进步模型的鲁棒性。
自然语言与视觉联合：利用自然语言和视觉的互补优势，通过VLMs和VFMs的联合来进步检测的正确性和适应性。
零样本学习：VLMs和VFMs的零样本学习本领使其能够有效处置惩罚复杂任务并显著进步检测的正确性和鲁棒性。

具体研究中，Li等人联合CLIP和传统目标跟踪模块来实现UAVs的自然语言跟踪任务。Ma等人通过集成Grounding DINO和CLIP来加强UAVs图像中的门路场景检测正确性。
Limberg等人利用YOLO-World和GPT-4V实现UAVs的零样本人体检测和动作识别。Kim等人使用LLaVA-1.5天生天气形貌，联合视觉特征和语言提示进行天气感知的对象查询。
语义分割

语义分割是计算机视觉任务之一，UAVs系统在该任务上面对着与对象检测类似的挑战，如对对抗性视觉条件的适应本领和对手动标注数据的依赖。VLMs和VFMs的引入为该领域注入了新的技能动力：

零样本语义分割：VLMs和VFMs能够在无需手动标注的情况下进行零样本语义分割，并通过自然语言交互机动定义和指导分割任务。
跨域泛化：通过引入Earth-style注入和多任务训练策略，VLMs和VFMs在跨域泛化方面表现出色。

COMRP方法通过联合Grounding DINO和CLIP提取门路相干地区，并使用SAM主动生身分割掩码。CrossEarth方法通过地球风格注入和多任务训练来加强跨域泛化本领。
深度估计

深度估计是UAVs感知系统的核心功能之一，用于天生地形和自然情况的3D几何表示。
比年来，基于神经辐射场（NeRF）和3D高斯散射（3DGS）的方法在该任务上取得了显著进展，但在大规模场景中仍面对挑战。单目深度估计（MDE）逐渐成为更有利的办理方案：

TanDepth框架：Florea等人提出的TanDepth框架联合了Depth Anything模型的相对深度估计和举世数字高程模型（GDEM）数据，天生具有真实天下维度的正确深度图像。
鲁棒性和适应性：实行结果表明，TanDepth在复杂地形和动态飞行情况中表现出色。

视觉形貌和VQA

视觉形貌和VQA属于计算机视觉和自然语言处置惩罚的交叉领域，关注图像和视频内容的语义明白和自然语言表示。
传统方法通常基于深度学习框架，但在复杂场景、开放域题目和细粒度形貌天生方面存在局限性。VLMs和VFMs通过团结表示学习显著加强了其明白复杂跨模态信息的本领：

细粒度形貌天生：预训练在大规模多模态数据集上的VLMs和VFMs能够天生复杂的细粒度语义形貌。
适应开放域任务：这些模型在开放域任务中表现出强盛的任务泛化本领。

研究主要集中在两个方向：选择或联合现有的VLMs和VFMs以适应UAVs任务场景，或训练或微调VLMs或VFMs以构建专门针对UAVs垂直应用的模型。
这些研究旨在进一步加强UAVs在复杂情况中的视觉感知、语义推理和任务执行本领，提供对智能和用户友好的机器交互的强盛支持。
视觉语言导航

室内情况

室内情况下的UAVs视觉语言导航（VLN）任务主要依赖于视觉输入和自然语言指令的联合。室内导航需要考虑更复杂的3D空间感知和推理。典范的方法包括：

NaVid：利用EVA-CLIP提取视觉特征，并联合Q-Former天生视觉和几何标志。该方法不需要舆图、里程计或深度信息，仅通过单目视频流实现实时路径规划和动态调整。
VLN-MP：通过多模态提示加强任务明白，淘汰自然语言指令的歧义，并支持多样化和高质量的提示设置。该方法通过天生地标相干的图像提示并联合Grounding DINO或GLIP来加强数据多样性。

室外情况

室外情况下的UAVs VLN任务更为复杂，涉及更大的开放空间和动态情况变化。主要方法包括：

AerialVLN：该任务要求UAVs根据自然语言指令和第一人称视觉感知导航到目标位置。AerialVLN通过扩展基线模型，联合GPT-4o进行自然语言指令的分解，并使用Grounding DINO和Tokenize Anything（TAP）提取语义掩码和视觉信息。
CityNav：通过模拟平台提供城市规模的3D情况，联合自然语言指令进行导航。MGP模型使用GPT-3.5表明地标名称、空间关系和任务目标，并联合Grounding DINO和MobileSAM天生高精度的目标地区。
UAV Navigation LLM：通过引入UAV-Need-Help基准任务，构建相干数据集，利用Vicuna-7B和EVA-CLIP提取视觉特征，并采用分层轨迹天生机制进行高效的自然语言导航。

视觉语言跟踪

视觉语言跟踪（VLT）任务旨在通过多模态输入实现一连的目标跟踪，并动态调整飞行路径以应对目标遮挡和情况干扰。主要方法包括：

CloudTrack：采用云-边沿协作架构，联合Grounding DINO和VLMs进行语义剖析，实现复杂目标的检测和过滤。
NEUSIS：通过神经符号方法实现自主感知、推理和规划，支持在不确定情况下的目标搜刮任务。

目标搜刮

目标搜刮任务联合了多模态目标感知和智能任务规划，是一种复杂的高层次自主UAVs任务。主要方法包括：

NEUSIS：通过感知、定位和3D推理模块实现目标检测、属性识别和3D投影。
Say-REAPEx：采用GPT-4o-mini作为主要语言模型，测试Llama3、Claude3和Gemini，动态更新任务状态并天生相应的举措计划。

规划

传统方法的挑战

传统的UAVs任务规划算法在复杂动态情况中面对适应性差、协调困难等题目。多UAVs系统的任务规划需要综合考虑每架UAVs的本领、限制和传感模式，同时满足能耗、避障等束缚。
然而，现有方法在实时适应情况动态、处置惩罚不测情况和未定义故障模式方面存在不足。
LLMs的应用

LLMs通过思维链（Chain of Thought, CoT）框架将复杂任务分解为一系列清晰可执行的子任务，提供了明确的规划路径和逻辑框架。
LLMs的优势在于其上下文学习和少样本学习本领，使其能够机动适应差别的任务需求，快速天生高效的规划策略。

TypeFly：
- 使用GPT-4剖析用户提供的自然语言指令，天生正确的任务规划脚本。
- 引入轻量级任务规划语言（MiniSpec）以进步任务天生服从和相应速度。
- 集成视觉编码模块进行实时情况感知和动态任务调整。
SPINE：
- 设计用于非结构化情况中的任务规划，联合GPT-4和语义拓扑图进行推理和动态规划。
- 使用退却视界框架将复杂任务分解为可执行路径，实现动态调整和高效执行。
LEVIOSA：
- 通过自然语言天生UAVs轨迹，使用Gemini或GPT-4o进行高层次路径规划。
- 联合强化学习和多品评家共识机制优化轨迹，确保安全和能效要求。
TPML 和 REAL：
- 这些方法进一步扩展了LLMs在UAVs任务规划中的应用，夸大了自然语言明白和天生在实时决策和复杂情况适应中的紧张性。

飞行控制

单UAV飞行控制

单UAV的飞行控制通常依赖于模仿学习和强化学习方法，这些方法在提拔控制策略的智能化方面表现出巨大潜力。然而，这些方法通常需要大规模的标注数据，而且在实时性能和安全性方面存在局限。

LLMs的应用：LLMs通过少样本学习本领快速适应新任务需求，通过上下文学习本领动态分析任务情况并天生高层飞行策略。此外，基于语义的自然语言交互显著进步了人机协作的服从，支持任务规划、实时决策和复杂情况适应。
典范研究：Courbon等人提出了基于视觉记忆的导航策略，Vemprala等人开发了PromptCraft平台，联合ChatGPT和模拟情况进行自然语言驱动的飞行控制。

UAVs集群飞行控制

UAVs集群的飞行控制涉及多UAVs之间的协作任务，如编队飞行、任务分配和动态避障。多智能体强化学习和图神经网络（GNNs）提供了强盛的建模本领，但在通讯延迟、计算复杂性和全局优化本领方面仍面对挑战。

LLMs的应用：LLMs通过自然语言天生时间序列航点，优化路径以满足物理束缚和避障要求。Swarm-GPT和FlockGPT等方法联合模型安全运动规划和LLMs，实现UAVs集群的创新控制方案。
典范研究：Jiao等人提出了Swarm-GPT系统，通过重新提示动态修改飞行路径，实现机动的编队和动态调整。CLIPSwarm探索了主动化和创意的控制方案，提拔UAVs集群演出的服从和操作性。

底子平台

高质量的数据资源和完满的处置惩罚工作流程对于UAVs系统中LLMs、VLMs和VFM技能的应用至关紧张。
这些资源不仅为多模态任务提供了坚固的底子，还支持相干领域的技能创新和方法论进步。具体包括：

DTLLM-VLT：该框架通过多粒度文本天生加强VLT性能。使用SAM提取目标分割掩码，并联合Osprey天生初始视觉形貌。LLaMA或Vicuna天生多种粒度的文本解释，覆盖目标类别、颜色、动作和动态变化，从而进步语义支持，加强跟踪正确性和鲁棒性。
CNER-UAV：该数据集用于UAVs递送系统中的细粒度中文命名实体识别。利用GPT-3.5和ChatGLM实现正确的地址信息识别。
GPG2A：该模型通过从地面图像合成航空图像来办理视角转换题目。采用两阶段天生框架，联合BEV结构图和文本形貌天生高质量航空图像，优化语义相干性和场景一致性。
AeroVerse：该平台作为航空智能基准套件，集成模拟器、数据集、任务定义和评估方法，推动UAVs技能在感知、认知、规划和决策方面的发展。
其他框架和平台：包括Tang等人开发的UAVs控制安全评估框架，Xu等人设计的紧急通讯网络优化框架，以及Pinelli等人提出的UAVs语音控制框架。这些框架联合自然语言处置惩罚技能，最大化人机交互的潜力。

UAVs应用场景

监控

监控是UAVs应用的紧张领域一个，涉及交通场景、城市情况和监管任务。传统的监控方法主要依赖于机器学习技能，而联合FMs（尤其是LLMs和VLMs）可以显著提拔UAVs的情况感知本领和任务执行服从。

车辆检测和分类：UAVs联合FMs可以主动进行车辆检测、分类、行人检测、骑行者检测、速度估计和车辆计数。
智能决策：利用VLMs进行视觉信息获取，联合LLMs进行分析和决策，使UAVs能够自主进行城市巡逻、识别和跟踪任务。
农业应用：在农业应用中，FMs可以资助农民进步生产力和产量。

物流

在物流领域，UAVs可以实现整个物流链的智能化，从决策到门路规划和最终递送。FMs的应用为办理UAVs物流中的挑战提供了新途径。

优化调度和门路规划：利用FMs的推理和决策本领，优化UAVs的调度和门路规划，进步主动化水平和处置惩罚服从。
人机交互：FMs的强明白本领改善了人机交互体验，提供更好的用户体验。
供应链管理：通过区块链技能和自然语言交互，实现安全的UAVs物流系统。

应急相应

UAVs在应急相应和灾害救援任务中具有固有优势，能够快速适应大多数紧急场景。联合FMs可以进一步进步UAVs的实时决策本领和任务执行服从。

快速决策：利用FMs的上下文学习本领，快速天生可操作的应急计划，并实时更新和调整。
复杂数据处置惩罚：联合多种传感器进行自主执行复杂任务，进步UAVs的实时决策本领。
通讯网络创建：在偏远或受灾地区创建通讯网络，支持网络依赖的任务和离线应急相应。

UAVs智能体：底子模型与UAVs系统集成流程

论文提出了整合大型语言模型（LLMs）和视觉语言模型（VLMs）于UAVs系统的一样平常框架，称为“Agentic UAV”。该框架旨在通过联合FMs来加强UAVs的自主性和智能化水平。
数据模块

数据模块是关于如何准备和适配UAVs相干数据以供底子模型（FMs）进行微调和训练。
数据准备

数据模块的主要目标是创建或适配数据，使其适合于微调和训练专为UAVs任务设计的FMs。UAVs数据通常包括多模态传感器数据和操作员提供的自然语言指令。

多模态传感器数据：包括图像、视频、LiDAR、GPS、IMU等数据，这些数据用于训练UAVs的感知和导航本领。
自然语言指令：操作员提供的指令通常用于指导UAVs的任务执行。这些指令大概需要在数据集中手动标注或通过主动化方法天生。

自然语言指令天生

自然语言指令的天生是数据模块的关键部分。这通常涉及使用图像标注模型或其他工具来创建形貌性或基于题目标解释，以便为传感器数据提供上下文。

图像标注模型：利用这些模型天生关于UAVs图像中特定对象或事件的形貌性解释。
主动化天生：先进的FMs，如基于GPT的模型，可以主动化天生多样化且上下文丰富的指令，淘汰对人工积极的依赖。

数据集构建

构建UAVs特定的数据集对于训练和微调模型至关紧张。这些数据集通常用于导航、地理定位和遥感等任务。

导航和地理定位：比方，Chu等人开发的基准数据集通过添加文本-图像-界限框解释来进步地理定位的正确性。
遥感应用：UAVs图像用于对象检测、语义分割和情况监测等任务，多模态大模型显著进步了任务服从和正确性。

底子模型模块

底子模型选择

底子模型模块第一步是模型选择，涉及根据任务范例确定使用的语言模型或视觉语言模型。选择合适的模型是确保UAVs系统能够有效处置惩罚复杂任务的关键。

语言模型（LLMs）：适用于需要自然语言处置惩罚的任务，如任务规划、决策制定和人机交互。典范模型包括ChatGPT和LLAMA。
视觉语言模型（VLMs）：适用于需要处置惩罚视觉和语言数据的多模态任务。典范模型包括GPT-4V、LLaVA和Qwen2-VL。
3D模型：适用于在3D情况中操作的UAVs，能够处置惩罚点云数据并进行3D规划和任务执行。这些模型通过加强场景几何明白来进步任务执行的机动性。

模型优化

在选择了底子模型之后，优化过程旨在进步模型在UAVs特定任务中的性能。

指令微调（Instruction Tuning）：通过创建任务特定的模板，将任务配景知识嵌入模型的交互中。这种方法允许模型更好地明白和执行特定任务。
少样本学习（Few-shot Learning）：使用精心策划的示例资助模型快速掌握任务目标，特别适用于复杂任务。
思维链（Chain of Thought, CoT）：将任务分解为多个子任务，徐徐办理以进步推理和执行本领。
低秩适应（Low-Rank Adaptation, LoRA）：通过微调模型的部分参数来优化性能，同时保持计算服从。
基于人类反馈的强化学习（RLHF）：通过联合人类反馈的奖励信号来加强模型的对齐和适应性，使其能够更好地应对动态UAVs挑战。

知识模块

论文先容了如何通过检索加强天生（Retrieval-Augmented Generation, RAG）技能来加强UAVs系统的决策本领和任务执行服从。
RAG技能概述

RAG技能联合了检索和天生本领，通过从外部知识库中检索相干信息并将其与天生模型的输出融合，从而进步天生结果的质量和领域适应性。RAG的核心功能包括：

检索模块：从外部知识库中获取与输入内容相干的信息。这些信息可以是实时的情况数据、汗青记录或其他相干领域的知识。
天生模块：利用检索到的信息作为上下文，天生更正确和可靠的输出。这种方法有助于淘汰天生过程中的“幻觉”题目，即模型在没有充足配景知识的情况下天生错误或虚构的信息。

在UAVs系统中的应用

在UAVs系统中，RAG技能可以应用于多个方面，以进步系统的智能化和自主性：

实时情况数据访问：RAG可以提供实时的气象条件、地形信息和空中交通更新等情况数据，资助UAVs进行飞行规划和导航。
高级决策支持：通过集成领域特定的知识库，UAVs可以在动态情况中进行更高级别的任务调整和决策。
人机交互加强：RAG可以检索汗青数据或上下文信息，以加强与操作员的交互，提供更清晰的任务指导和系统决策的表明。

优势与应用前景

RAG技能的优势在于其机动性和实时性，能够根据UAVs的具体任务需求动态调整和优化。这种模块化的架构允许独立更新知识库和天生模型，确保信息的时效性和正确性。
通过联合RAG技能，UAVs系统能够在复杂和动态的情况中实现更智能和自主的操作，为未来的UAVs应用提供了广阔的前景。
工具模块

工具模块包括通用工具和任务特定工具，可以加强UAVs的功能，以应对各种任务需求。
通用工具

通用工具专注于提供多模态功能，以加强UAVs的感知和交互本领。这些工具通常包括视觉语言模型（VLMs）和视觉底子模型（VFMs），它们在处置惩罚视觉任务时表现出色。

VLMs：如GPT-4V和LLaVA，这些模型通过联合视觉和语言信息，提供强盛的任务执行本领。它们在对象识别、场景明白和任务规划等方面表现出色。
VFMs：如CLIP系列和SAM模型，这些模型在视觉任务中表现出色，特别是在对象检测、语义分割和深度估计等方面。它们能够处置惩罚复杂的多模态任务，并提供零样本学习本领。

任务特定工具

任务特定工具是为UAVs特定任务设计的，主要用于飞行控制和任务执行。这些工具通常包括开源的飞行控制器和任务规划软件。

飞行控制器：如PX4和Pixhawk，这些工具提供正确的飞行控制和任务规划功能，使UAVs能够在复杂情况中稳定飞行和执行任务。
任务规划软件：这些软件联合自然语言处置惩罚和机器学习技能，资助UAVs进行高效的路径规划和任务分配。

工具模块的应用

工具模块的应用旨在进步UAVs系统的整体性能和任务执行服从。通过联合通用工具和任务特定工具，UAVs能够在复杂情况中实现更智能和自主的操作。

加强感知本领：VLMs和VFMs提供强盛的视觉处置惩罚本领，资助UAVs在复杂情况中进行正确的目标检测和语义明白。
进步任务执行服从：任务特定工具提供高效的飞行控制和任务规划功能，使UAVs能够快速相应和执行任务。

智能体模块

智能体模块是关于如何在UAVs系统中实现智能决策和任务执行本领的模块。该模块通过集成高层协调和任务特定智能体工作流，优化UAVs在复杂任务中的操作。
管理者智能体

管理者智能体负责UAVs集群的高级任务协调和调度。其主要职责包括：

全局任务规划：将大型任务分解为更小的、可管理的子任务，并将这些子任务分配给各个UAVs。
动态调整：根据实时反馈动态调整任务分配，确保每个UAVs在更广泛的使命配景下有效运作。

UAVs智能体工作流

每个UAVs都遵照一个自主的智能体工作流，该工作流包括一系列处置惩罚感知、规划和控制任务的智能体。这些智能体按顺序操作，以确保UAVs能够有效地处置惩罚必要的数据和执行任务目标。

感知智能体：起首处置惩罚传感器数据，使用先进的视觉语言模型（如CLIP）进行对象识别、分割和定位。
规划智能体：利用感知智能体提供的数据天生优化的飞行路径和任务策略，确保UAVs能够高效地导航和完成任务。
控制智能体：将规划转化为可执行的下令，控制UAVs的飞行和任务执行。

智能体协作与适应性

智能体模块夸大UAVs之间以及UAVs与全局智能体之间的协作和适应性。这种协作确保了UAVs群在复杂任务中的协同工作。

全局指导：全局智能体提供高层次的指令，指导整体任务策略。这些指令被分解为详细的执行计划，由各个UAVs智能体执行。
实时调整：UAVs智能体通过实时数据反馈和不断变化的条件进行任务调整，确保任务的顺利进行。
信息共享：UAVs之间通过信息共享和协调举措，适应共享的情境意识，如避免碰撞或协同完成任务等。

总结

论文探索了将底子模型与UAVs联合的潜力，夸大了LLMs在提拔UAVs自主性和智能化方面的作用。
通过系统综述现有方法和数据资源，提出了实现具有自主智能的UAV的参考门路图。
未来的研究方向包括进一步整合知识和工具模块，以创建能够处置惩罚复杂任务和动态情况的UAVs系统。

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

欢迎光临 ToB企服应用市场:ToB评测及商务社交产业平台 (https://dis.qidao123.com/)