IT评测·应用市场-qidao123.com
标题: 「港科技」联手「地平线」打造GPT风格的主动驾驶世界模型:DrivingWorld [打印本页]
作者: 守听 时间: 2025-1-16 09:22
标题: 「港科技」联手「地平线」打造GPT风格的主动驾驶世界模型:DrivingWorld
摘要
最近在自回归(AR)天生模型方面的成功,比方天然语言处置处罚中的GPT系列,激发了在视觉任务中复制这一成功的努力。一些研究实验将这种方法扩展到主动驾驶中,通过构建基于视频的世界模型来天生传神的将来视频序列和预测自我状态。然而,先前的工作往往产生不尽人意的结果,因为经典的GPT框架旨在处置处罚一维上下文信息(如文本),缺乏天生视频所必须的空间和时间动态的建模能力。在本文中,本文提出了DrivingWorld,这是一个GPT风格的主动驾驶世界模型,具有几种空间-时间融合机制。这种设计使得可以大概有用地建模空间和时间动态,从而实现高保真度、长时间的视频天生。具体来说,本文提出了一种下一状态预测策略来建模连续帧之间的时间连贯性,并应用一种下一个token预测策略来捕获每一帧内的空间信息。为了进一步增强泛化能力,本文提出了一种新颖的masking策略和token预测的重加权策略,以缓解长期漂移题目并实现准确控制。本文的工作展示了天生超过40秒时长的高保真度和同等的视频片断的能力,这比现有的最先辈的驾驶世界模型长了两倍以上。实验表明,与先前的工作相比,本文的方法在视觉质量和可控的将来视频天生的准确性方面都取得了显著的优越性。
©️【深蓝AI】编译
论⽂题目:DrivingWorld: Constructing World Model for Autonomous Driving via Video GPT
论文作者:Xiaotao Hu,Wei Yin,Mingkai Jia,Junyuan Deng,Xiaoyang Guo,Qian Zhang,Xiaoxiao Long,Ping Tan
论文地址:https://arxiv.org/pdf/2412.19505
官方网站:https://github.com/YvanYin/DrivingWorld
▲图1|本文方法的可控天生结果©️【深蓝AI】编译
介绍
近年来,自回归(AR)学习方案在天然语言处置处罚中取得显著成功,如GPT系列模型,这促使研究人员实验将其应用于视觉任务,特别是主动驾驶的基于视觉的世界模型构建。主动驾驶系统中的将来变乱预测至关告急,但现有模型依赖大量标注数据,轻易在分布外和长尾场景中失效,尤其对于罕见极端情况,如事故,获取足够训练数据非常困难。
一种有前景的办理方案是自回归世界模型,它通过无监督学习从未标注的大规模视频中学习综合信息,增强驾驶决议的妥当性,并减少灾难性错误,进步安全性和泛化能力。先前工作GAIA-1首次将GPT框架从语言扩展到视频,但由于其主要设计用于一维上下文信息,缺乏有用建模视频所需的空间和时间动态的能力,导致天生视频质量较低且存在伪影。
为此,本文提出了DrivingWorld——一种基于GPT风格视频天生框架的驾驶世界模型,旨在通过以下创新增强时间连贯性:
1) 时间感知标记化,将视频帧转换为时间连贯的标记;
2) 混合标记预测,引入下一状态预测策略以捕获连续状态间的时间连贯性及空间信息;
3) 长时间可控策略,实施随机标记抛弃和平衡注意力策略,进步鲁棒性和控制精度。
实验表明,该模型实现了良好的泛化性能,能天生超过40秒的高质量视频序列,并提供准确的下一步轨迹预测。
相关工作
世界模型
世界模型捕获环境的综合表示并预测将来状态,广泛应用于游戏和实验室环境中。Dreamer系列通过潜伏动态模型预测状态值和动作,在Atari游戏和Minecraft中体现出色。DayDreamer扩展了Dreamer,用于训练机器人完成实际任务。在驾驶场景中,Drive-WM使用扩散模型探索真实驾驶规划,GAIA-1基于自回归模型研究驾驶,但其盘算需求随条件帧数增加而上升。本文提出了一种高效自回归框架下的主动驾驶世界模型。
VQVAE
VQVAE通过向量量化学习离散码本表示图像分布。VQGAN及其改进版本(如MoVQ、LlamaGen)进步了天生图像的真实性和重建性能。ViTVQGAN用视觉变动器替换卷积编码器-解码器,增强了长间隔依赖捕获能力;VAR采用多标准结构提升了天生质量和速度。然而,这些方法主要针对单张图像处置处罚,无法捕获时间同等性。为此,本文提出了时间感知标记器息争码器。
视频天生
视频天生模型主要有三种:基于GAN、扩散和GPT的方法。基于GAN的方法面临模式瓦解和训练不稳固的题目;基于扩散的方法难以实现准确控制;基于GPT的方法虽然可控但盘算成本高。本文提出了解耦时空世界模型框架,确保准确控制的同时显著降低了盘算成本,并提升了模型效率。
本文方法
Tokenizer
词元化将连续数据转换为离散的词元,使其可以大概与语言模型集成并增强多模态序列建模。在本文的方法中,词元化器将多模态状态映射到统一的离散空间中,这使得可以大概进行准确且可控的多模态天生。为了天生图像的时间同等性嵌入,本文提出了一种时间感知的向量量化词元化器。本文提出的车辆姿态词元化器将姿态轨迹离散化并将其整合到本文的DrivingWorld中。
单图像向量量化(VQ)词元化器,旨在将图像特征映射转换为离散词元。该量化器使用一个学习得到的离散码本,包含个向量,将每个特征映射到中最近代码的索引。这种方法使得连续图像数据可以大概转换为离散词元。 时间感知向量量化词元化器。单图像VQ词元化器经常难以产生时间上同等的嵌入,导致视频预测不连续,阻碍世界模型的训练。图像序列被编码为,此中每个特征都是独立处置处罚的,缺乏时间信息。
为办理此题目,本文提出一种时间感知向量量化词元化器,旨在确保随时间同等的嵌入。具体来说,为了捕获时间依赖性,本文在VQGAN量化之前和之后插入一个自注意力层,此中注意力沿时间维度操作。这使本文的模型可以大概捕获帧之间的长期时间关系,进步天生序列的连贯性和同等性。本文的模型基于LlamaGen的开源VQGAN实现。本文简单而有用的时间自注意力的集成可以无缝地融入原始框架,随后进行微调,以开发一个结实且可泛化的时间感知VQ词元化器。在执行量化之前被送入时间自注意力:
此中表示码本中的第个向量。
▲图2| Driving World的pipeline©️【深蓝AI】编译
车辆姿态词元化器。为了准确表示车辆的自我状态,包罗其方向和位置,本文采用以自我车辆为中心的坐标系统,如图2所示。本文不是采用全局姿态,而是采用相邻时间步之间的相对姿态。这是因为全局姿态由于长期序列中绝对姿态值的增加而带来显著挑战。这种增长使得归一化变得困难,并降低了模型的鲁棒性。随着序列的增长,管理这些大姿态值变得越来越困难,阻碍了有用的长期视频天生。
对于车辆方向序列和位置序列,本文提出盘算每个时间步相对于前一个时间步的相对值。在第一个时间步,相对位置和方向初始化为零。以自我为中心的状态序列由和给出。为了对它们进行词元化,本文离散化自我四周的空间。具体来说,本文将方向离散化为类别,并将和轴分别离散化为和类别。因此,时间的相对姿态词元化如下:
最后,本文处置处罚过去的T个真实世界状态并将它们词元化为每个时间步的车辆状态的离散序列,此中每个词元是车辆在每个时间步的状态的离散表示。
世界模型
▲图3| vanilla GPT和时间感知GPT(本文的方法)的推理示例。©️【深蓝AI】编译
世界模型的目的是理解过去的状态输入,模仿实际世界的动态,并预测将来的状态。在本文的上下文中,它预测即将到来的驾驶场景并规划一个可行的将来轨迹。为此,世界模型将历史状态词元毗连成一个长序列,此中二维图像词元以之字形顺序展开成一维形式。因此,目的是基于过去观察序列预测下一个状态捕获时间和多模态依赖性。请注意,所有来自不同模态的离散词元在被送入世界模型之前,都通过它们各自的可学习嵌入层映射到共享的潜伏空间中,即。所有后续过程都在这个潜伏空间内进行。
初步:下一个词元预测。一种直接的方法是使用GPT-2结构进行一维序列下一个词元预测。图3(a)展示了一个简化的例子。因果注意力被应用于下一个词元预测,中的第个词元被建模为:
然而,这种一维设计对于本文的特定场景是不敷够的。预测长期视频必要天生数万个词元,这非常耗时。别的,它忽略了图像中固有的空间结构化图像特征。
因此,本文提出了一个下一状态预测流程,它由两个模块组成:一个模块整适时间和多模态信息以天生下一状态特征(即时间-多模态融合模块),另一个是一个自回归模块(即内部状态自回归模块),用于天生高质量的内部状态词元。
时间-多模态融合模块。本文的时间-多模态模块由一个独立的时间层和一个多模态层组成。这种设计将时间和多模态信息的处置处罚解耦,从而进步训练和推理速度,同时也减少了GPU内存斲丧。如图3(b)所示,本文发起在时间变动层中使用因果注意力掩码,此中每个词元只关注自身以及所有先前帧中雷同序列位置上的词元,充分使用时间信息。
在多模态信息融合层中,本文采用同一帧中的双向掩码,旨在完全整合内部状态多模态信息,并促进不同模态之间的交互。每个词元关注来自同一时间步的其他词元,
时间和多模态层交替堆叠以形成此模块。
内部状态自回归模块。在时间-多模态模块之后,本文获得了将来帧状态预测的特征。一种简单的方法是同时预测下一个状态词元。最近,多幅图像天生研究提出,自回归的下一个词元预测流程可以大概天生更好的图像,甚至优于扩散方法。受此开导,本文提出一个内部状态自回归模块来为下一个时间步天生姿态和图像(见图3(b))。具体来说,为了预测本文将时间-多模态输出特征与序列词元联合。然后它们被输入到内部状态自回归变动器层 Fc(⋅)。这些层中采用了因果掩码,因此每个词元只能关注自身和前缀内部状态词元。自回归过程如公式6所示。由于本文的流程联合了下一个状态预测和下一个内部状态词元预测,本文在训练中实施了两种西席逼迫策略,即一种用于帧级别,另一种用于内部状态级别。
本文使用交织熵损失进行训练,如下所示:
此中是真实词元,是预测词元。
解码器
使用世界模型预测的下一个状态词元,然后本文可以使用解码器天生相应的相对方向,相对位置,以及该状态下重建的图像。这个过程使可以大概将预测的潜伏表示映射回物理输出,包罗空间和视觉数据。 车辆姿态解码器。对于预测的相对方向词元和相对位置词元,可以通过方程2的逆函数获得相应的值,如下所示:
时间感知解码器。对于预测的图像词元,在时间感知向量量化词元化器中从码本中检索相应的特征。注意,在量化层之后插入一个时间自注意力以增强时间同等性。
长期可控天生
无漂移自回归的标记抛弃。在训练过程中,世界模型使用过去的地面真实标记作为条件来预测下一个标记。然而,在推理时,模型必须依赖于之前天生的标记进行条件化,这些标记大概包含不完美之处。仅用完美的地面真实图像进行训练大概会导致推理过程中的内容漂移题目,从而引起天生输出的快速退化和终极失败。为了办理这个题目,本文提出了一种随机掩码策略(RMS),此中一些来自地面真实标记的标记被随机抛弃。每个标记有50%的概率被替换为该帧中的另一个随机标记,并且以30%的概率应用于整个条件图像序列。如图4所示,这种抛弃策略显著减轻了推理过程中的漂移题目。
▲图4| 本文所提出的掩码策略的结果。©️【深蓝AI】编译
准确控制的平衡注意力机制。世界模型使用广泛的注意力操作来交换和融合标记之间的信息。然而,每个前视图图像被离散化为512个标记,而仅有2个标记代表姿态(方向和位置)。这种不平衡大概导致模型忽略姿态信号,进而导致不满意的可控天见结果。为此,本文提出了一种平衡注意力操作,通过在注意力机制中优先思量自我状态标记来实现更准确的控制,而不是平等对待所有标记。具体来说,在注意力图(在softmax层之前)中手动增加了方向和位置标记的权重,分别为这些标记添加了0.4和0.2的恒定权重。别的,本文还引入了QK-norm和2D旋转位置编码来进一步稳固训练并进步性能。
实验
实现细节
▲表1| 真实世界驾驶世界模型。©️【深蓝AI】编译
标记器息争码器。视频标记器包含7000万个参数。采用的码本大小设置为16,384。该模型在32个NVIDIA 4090 GPU上使用来自OpenImages、COCO、YouTube-VOS和NuPlan数据集的图像,以总共128的批量大小训练了1,000K步。本文使用三种损失函数的组合来训练时间感知VQVAE:Charbonnier损失、来自LPIPS的感知损失和码本损失(更多详情见补充质料)。
世界模型。世界模型包含10亿个参数,并在视频序列上进行训练。该模型基于15帧条件化以预测下一帧。它是在超过3456小时的人类驾驶数据上训练的,如表1所示。此中120小时的数据来自公开的NuPlan数据集,而3336小时是私有数据(更多详情见补充质料)。训练连续了12天,在64个NVIDIA A100 GPU上分布执行了450K次迭代,每次迭代的批量大小为64。
评估数据集和指标。本文使用来自NuPlan测试数据集的200个视频片断作为测试集。别的,根据Vista的方法,还包罗来自NuScenes测试集的150个视频片断作为评估的一部门。视频天生的质量通过Frechet视频间隔(FVD)进行评估,同时本文也报告了Frechet Inception间隔(FID)以评价图像天生质量。
比力与评估
▲图5| 长时间视频天生。©️【深蓝AI】编译
长时间视频天生。本文方法的一个关键上风是其可以大概天生长时间的视频。图5可视化了由本文的模型天生的一个长时间视频。通过仅基于15帧条件化,本文的模型可以以10 Hz的频率天生多达640个将来的帧,从而产生具有强烈时间同等性的64秒视频。这些结果表明,本文的模型在整个天生的帧中保持了高视频保真度并生存了3D结构完整性。相比之下,先前的方法在长时间视频中往往面临漂移或退化的题目。天生扩展视频序列的能力突显了本文的模型在必要长期预测的任务中的潜力,比方主动驾驶或复杂动态环境中的视频合成。更多长时间天生的视频见补充质料。
▲表2| 在NuScenes验证集上的比力。©️【深蓝AI】编译
天生视频的定量比力。在表2中提供了本文方法与几种其他方法在NuScenes数据集上的定量比力。由于大多数方法并未公开,使用它们各自论文中报告的结果进行比力。只管NuScenes对本文模型来说是零样本,但仍然实现了与最先辈方法(Vista)相当的性能。大多数先前的方法基于经过良好训练的稳固视频扩散(SVD),该方法是在数十亿图像上训练的,而本文设计的GPT风格框架是从头开始训练的。别的,本文的方法可以大概天生比它们显著更长的视频。
▲表3| 不同VQVAE方法的定量比力。©️【深蓝AI】编译
▲图6| SVD和本文方法的比力。©️【深蓝AI】编译
天生视频的定性比力。本文在NuScenes数据集上提供了与SVD的定性比力。如图6所示,本文的天生视频展示了卓越的时间同等性,特别是在保持诸如街道车道和车辆等细节方面。在图像标记器的定量比力中,本文进一步评估了时间感知图像标记器与其他工作提出的标记器。因为图像标记器是VQVAE的一部门,本文评估了这些VQVAE的编码-解码性能。实验在NuPlan数据集上进行,并总结在表3中。VAR和 VQGAN的VQVAE模型在PSNR和LPIPS分数方面体现出公道的图像质量,但在FID和FVD指标上体现不佳。相比之下,Llama-Gen的VQVAE在FID和FVD分数上体现出显著改进。经过在驾驶场景上的微调后,本文在FVD性能上观察到进一步提升。终极,本文的时间感知VQVAE逾越了所有其他模型,在四个指标上都取得了最佳分数。
溶解研究
设置。由于延长的训练时间和盘算成本,本文在较小的数据集上进行了溶解研究。从NuPlan数据集中提取了12小时的视频数据用于训练,并从NuPlan测试集中选择了20个视频创建测试数据。所有溶解实验都在32个NVIDIA A100 GPU上进行,总批量大小为32。每个模型从头开始训练50K次迭代,大约必要32个GPU小时。
▲表4| 带和不带随机掩码策略的比力。©️【深蓝AI】编译
带有和不带随机掩码策略的模型结构。为了评估随机掩码策略对模型鲁棒性的影响,本文实验了带和不带随机标记掩码的模型训练。这个掩码过程模拟了推理期间大概出现的预测错误,增强了模型处置处罚噪声的能力。如表4所示,未经掩码训练的模型在NuPlan数据集上的性能显著降落,尤其是在长期视频中,推理错误更为广泛,这可以从FVD40分数看出。因此,禁用掩码导致FVD大幅增加,在不同场景下上升了4%至32%,表明泛化能力差和对噪声输入的鲁棒性降低。
▲表5| 本文的方法和GPT-2之间的性能比力。©️【深蓝AI】编译
▲表6| 本文的方法和GPT-2的内存使用(GB)分析。©️【深蓝AI】编译
与Vanilla GPT结构的讨论,将本文的DrivingWorld结构与Vanilla GPT架构(特别是GPT-2)的内存使用情况进行了比力,后者在推理过程中跨所有帧顺序处置处罚标记。GPT-2的串行标记预测减慢了性能,显著增加了盘算负担和内存使用。如表6所示,GPT-2的内存斲丧随着序列长度呈二次增长,使其在长序列上效率低下。相比之下,本文的方法分离了时间和多模态依赖关系,允许更高效的表示和盘算。随着序列长度的增加,本文的模型保持稳固的盘算成本和内存使用,避免了GPT-2中出现的急剧扩展。别的,本文的方法不但进步了效率,还改善了结果质量。如表5所示,本文的模型在NuPlan上的FVD得分优于GPT-2。
结论与将来工作
总结来说,DrivingWorld通过使用GPT风格的框架,办理了先前主动驾驶视频天生模型的范围性,可以大概产生更长、更高保真度的视频预测,并进步了泛化能力。与传统方法不同,这些传统方法在长序列中难以保持连贯性或严重依赖标注数据,DrivingWorld可以大概天生真实、结构化的视频序列,同时实现准确的动作控制。与经典的GPT结构相比,本文提出的时空GPT结构采用了下一状态预测策略来建模连续帧之间的时间连贯性,然后应用下一个词元预测策略来捕获每一帧内的空间信息。展望将来,本文计划整合更多的多模态信息并集成多个视角输入。通过融合来自不同模态和视角的数据,本文旨在进步动作控制和视频天生的准确性,增强模型理解复杂驾驶环境的能力,进一步提升主动驾驶系统的团体性能和可靠性。
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
欢迎光临 IT评测·应用市场-qidao123.com (https://dis.qidao123.com/) |
Powered by Discuz! X3.4 |