ACL-2024 | MapGPT:基于舆图引导提示和自适应路径规划机制的视觉语言导航
https://i-blog.csdnimg.cn/img_convert/a326564aab97f9fe288f8944c96a488f.jpeg[*] 作者: Jiaqi Chen, Bingqian Lin, Ran Xu, Zhenhua Chai, Xiaodan Liang, Kwan-Yee K. Wong,
[*] 单元: 香港大学,中山大学深圳校区,美团
[*] 原文链接:MapGPT: Map-Guided Prompting with Adaptive Path Planning for Vision-and-Language Navigation (https://aclanthology.org/2024.acl-long.529.pdf)
[*] 项目主页:https://chen-judge.github.io/MapGPT/
[*] 代码链接:https://github.com/chen-judge/MapGPT/
主要贡献
[*] 论文提出了MapGPT,基于舆图引导的GPT智能体,用于办理视觉语言导航中的全局探索和路径规划问题。
[*] 提出了在线构建的语言形式的舆图,包括节点信息和拓扑关系,以促进GPT进行全局探索。并将舆图的拓扑关系转换为文本Prompt,使GPT更容易理解空间结构,激活GPT的多步路径规划本领。
[*] MapGPT能够动态生成和更新其多步路径规划,而不是记载每一步的思考过程,更符合人类思维模式。
[*] MapGPT可以应用于GPT-4和GPT-4V,而且能够轻松适应不同的指令风格,在R2R和REVERIE数据集上均到达了最先进的zero-shot性能。
研究背景
https://i-blog.csdnimg.cn/img_convert/5c6bddf1e13d25b8a916b0b3a0e488e3.png
研究问题
论文主要办理的问题是如何在视觉语言导航(VLN)任务中,利用大语言模子(LLMs)进行zero-shot导航。
现有的zero-shot VLN智能体仅prompt GPT-4选择局部环境中的潜在位置,而没有构建一个有效的“全局视图”来理解整体环境。
研究难点
该问题的研究难点包括:
[*] 如何在不依赖大规模练习数据的情况下,使智能体能够进行全局探索和路径规划;
[*] 如何在多模态LLM(如GPT-4V)上进行有效的导航。
相关工作
该问题的研究相关工作有:
[*] 基于学习的方法(如Anderson等人,2018b),
[*] 预练习模子(如Hong等人,2021),
[*] 以及基于GPT的zero-shot智能体(如Zhou等人,2023)。
这些方法在处理多模态信息和zero-shot导航方面存在肯定的范围性。
研究方法
论文提出了MapGPT,一种基于舆图引导的GPT智能体,用于办理视觉语言导航中的全局探索和路径规划问题。
https://i-blog.csdnimg.cn/img_convert/d5c239e43c54f0b7972f30702de0e854.png
单专家Prompt体系
提出了单专家Prompt体系,该体系实用于GPT-4和GPT-4V,而且可以灵活地应用于不同的指令风格。该体系集成了指令、历史记载、观察结果和行动空间等多种输入信息。
舆图引导Prompt
为了促进全局探索,提出了舆图引导的Prompt方法,将在线构建的拓扑舆图转换为文本Prompt,资助GPT理解导航环境。
[*] 拓扑映射:在线构建舆图并将其存储为动态更新的图,记载所有观察到的节点及其连接关系。
[*] 构建舆图:将舆图的拓扑关系转换为文本Prompt,保存节点的ID而倒霉用精确的GPS坐标。
[*] 舆图注释:在每个节点上添加注释,使智能体能够在路径规划时进行参考。
自适应路径规划
提出了自适应规划机制,使智能体能够在每一步动态生成和更新多步路径规划。具体步骤包括:
[*] 规划迭代:智能体结合当前的思考、舆图和之前的规划,自适应地更新新的多步路径规划。
[*] 多步规划:智能体在规划过程中可以关注多个潜在的节点或子目标,并在必要时回溯到特定节点进行重新探索。
实验计划
数据集
选择了R2R和REVERIE两个盛行的VLN基准数据集进行验证。
[*] R2R提供详细的徐徐指令,
[*] REVERIE仅提供高条理的目标描述。
评估指标
评估指标包括导航错误(NE)、成功率(SR)、Oracle成功率(OSR)和路径长度加权成功率(SPL)。
实验设置
在Matterport3D模拟器中进行实验,该模拟器提供了一个离散的导航环境,预界说了可导航的视点。
每个视点处,智能体可以得到视觉观察结果和一些可连接的可导航候选视点,这些信息被整合到Prompt中供GPT利用。
结果与分析
https://i-blog.csdnimg.cn/img_convert/92638974d4bc956f6b29ee6fe152b749.png
R2R数据集上的结果
在各种场景下,MapGPT在zero-shot性能上优于现有的NavGPT和DiscussNav。例如,在利用GPT-4V作为一级智能体时,MapGPT的成功率为47.7%。
与基于GPT-4的MapGPT相比,基于GPT-4V的MapGPT在SPL指标上表现更好,到达38.1%。
REVERIE数据集上的结果
MapGPT在REVERIE数据集上表现出更强的竞争力,成功率到达31.6%,显著优于zero-shot NavGPT和一些练习的方法。
此外,与经过预练习和微调的HAMT相比,MapGPT也表现出可观的性能。
https://i-blog.csdnimg.cn/img_convert/c02dbcd1f905d9b8a1f296ff3a0ce95d.png
消融研究
通过消融实验,验证了舆图引导和自适应路径规划机制在进步导航性能方面的有效性。
与基于精确坐标的舆图相比,基于拓扑关系的舆图显著进步了性能。自适应路径规划机制也比全局动作规划机制更有效。
总结
论文提出zero-shot智能体MapGPT,用于视觉语言导航任务。MapGPT利用舆图引导的提示方法,构建了在线拓扑舆图,并通过自适应路径规划机制实现了多步路径规划。
实验结果表明,MapGPT在R2R和REVERIE数据集上均到达了最先进的zero-shot性能,展示了全局思考和路径规划本领。
https://i-blog.csdnimg.cn/img_convert/8bfd862cb292789e6c6d41d1eb705934.jpeg
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
页:
[1]