马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。
您需要 登录 才可以下载或查看,没有账号?立即注册
x
我自己的原文哦~ https://blog.51cto.com/whaosoft/13133866
#UDMC
思量轨迹预测的同一决策控制框架
论文:https://arxiv.org/pdf/2501.02530
代码:https://github.com/henryhcliu/udmc_carla.git
1. 摘要
当前的自动驾驶系统经常在确保安全和遵守交通规则的同时,难以平衡决策订定和运动控制,特别是在复杂的城市情况中。现有方法由于分别处置惩罚这些功能,大概导致效率低下和安全妥协。为应对这些挑战,我们引入了UDMC,这是一个可解释且同一的4级自动驾驶框架。UDMC将决策订定和运动控制整合为一个单一的最优控制问题(OCP),思量了与周围车辆、行人、车道和交通信号的动态交互。通过接纳创新的势能函数来模拟交通参与者和规定,并联合专门的运动预测模块,我们的框架增强了蹊径安全性和规则遵守性。集成筹划允许实时实验适合各种驾驶场景的机动操作。在CARLA中举行的高保真模拟展示了该框架的计算效率、鲁棒性和安全性,与各种基线模子相比,驾驶性能更优。
2 创新点
本工作提出一个名为UDMC的全面框架,它整合了通过APF举行的交通对象特征提取,以及通过IGPR对交通参与者举行的运动预测。碰撞避免和遵守交通规则被订定为OCP中的软束缚,配有精心筹划的PFs。我们的方法同时实现了高层决策和低层控制,从而为城市驾驶提供了一个计算效率高的流程。我们将在四个具有挑战性的城市驾驶场景中,将所提出的方法与基于规则的方法以及名为InterFuser的学习型方法举行比较。同时,也举行了一系列的消融模拟和基准评估。效果清楚地展示了UDMC所获得的驾驶举动的有效性、鲁棒性和安全性,同时也实现了高成功率和稳定的通勤时间表现。由于我们的工作提供了一个通用的自动驾驶框架,这个框架中的差别模块可以根据特定的驾驶应用举行得当修改,这得益于该框架的兼容性和通用性。作为我们将来工作的一部门,UDMC可以在没有大量适配工作的条件下,部署在配置较低的工业计算机设备上。
3.UDMC框架概述
3.1 框架结构
UDMC(Unified Decision-Making and Control Framework for Urban Autonomous Driving with Motion Prediction of Traffic Participants)框架是一个针对城市自动驾驶的决策与控制一体化框架。它将决策订定和运动控制整合到一个单一的最优控制问题(OCP)中,思量了与周围车辆、行人、蹊径车道和交通信号的动态交互。通过利用创新的势函数来模拟交通参与者和规则,并联合专门的运动预测模块,该框架增强了蹊径安全性和规则遵守性。这种集成筹划允许实时实验适合差别驾驶场景的机动操作。在CARLA高保真度模拟中,UDMC框架展示了其计算效率、鲁棒性和安全性,与各种基线模子相比,驾驶性能更为出色。
3.2 关键技术与方法
UDMC框架的关键技术与方法包括以下几个方面:
势函数(Potential Functions)
UDMC框架接纳了创新的势函数来模拟交通参与者和交通规则。这些势函数能够将交通情况中的各种因素,如车辆、行人、车道标记和交通信号等,转化为对自动驾驶车辆的控制束缚。比方,车辆势函数可以模拟周围车辆的位置和速度,从而帮助自动驾驶车辆保持安全距离;交通信号势函数则可以根据交通信号的状态调解车辆的速度和行驶方向。通过将这些势函数整合到最优控制问题中,UDMC框架能够实时生成适合差别驾驶场景的机动操作。
运动预测模块(Motion Prediction Module)
UDMC框架联合了基于插值的高斯过程回归(IGPR)的运动预测模块,用于快速可靠地预测周围车辆和行人的运动。IGPR是一种非参数贝叶斯学习方法,能够根据历史状态记录预测将来的状态。在UDMC框架中,IGPR模块利用周围车辆和行人的历史轨迹数据,预测其在将来一段时间内的运动趋势。这些预测效果为自动驾驶车辆的决策提供了紧张的参考,使其能够提前做出公道的决策,如变道、减速或避让等。
最优控制问题(Optimal Control Problem, OCP)
UDMC框架将决策订定和运动控制整合到一个最优控制问题中。该问题思量了自动驾驶车辆的动力学模子、情况束缚和目的函数,通过求解最优控制序列来实现车辆的自主驾驶。在OCP中,目的函数通常包括行驶时间最小化、能耗最小化和乘坐舒适性最大化等。同时,情况束缚包括蹊径界限、车道标记、交通信号和周围车辆等因素。通过求解OCP,UDMC框架能够实时生成最优的控制指令,指导自动驾驶车辆在复杂的城市交通情况中安全、高效地行驶。
高保真度模拟测试(High-Fidelity Simulation Tests)
为了验证UDMC框架的性能,研究者在CARLA模拟器中举行了大量的高保真度模拟测试。CARLA是一个开源的城市驾驶模拟器,能够提供传神的城市交通场景和详细的车辆动力学模子。在模拟测试中,UDMC框架展示了其在差别驾驶场景下的计算效率、鲁棒性和安全性。与各种基线模子相比,UDMC框架在车流跟随、超车、环岛和交叉路口等场景中均表现出更优越的驾驶性能。这些测试效果证实白UDMC框架在现实应用中的可行性和有效性,为自动驾驶技术的发展提供了有力的支持。
4. UDMC框架的关键技术详解
4.1 交通参与者运动预测
交通参与者运动预测是UDMC框架中至关紧张的环节,它直接影响自动驾驶车辆的决策和控制。UDMC框架接纳基于插值的高斯过程回归(IGPR)来实现这一功能。IGPR作为一种非参数贝叶斯学习方法,能够根据有限的历史轨迹数据,预测交通参与者将来的运动状态。具体来说,IGPR通过构建一个高斯过程模子,将历史轨迹数据作为输入,输出预测的将来位置和速度。这种方法的优势在于,它不仅能够提供预测效果,还能给出预测效果的不确定性估计,这对于自动驾驶车辆在复杂交通情况中的决策至关紧张。比方,在面对火线车辆忽然减速的情况时,IGPR能够提前预测这一变化,并为自动驾驶车辆提供充足的时间来做出安全的反应,如减速或变道。
4.2 人工势场法的应用
人工势场法(APF)在UDMC框架中用于模拟交通参与者和交通规则对自动驾驶车辆的影响。通过界说差别的势函数,如车辆势函数、行人势函数、车道势函数和交通信号势函数,UDMC框架能够将复杂的交通情况转化为对车辆控制的束缚。这些势函数通过计算自动驾驶车辆与周围情况之间的相互作用力,引导车辆做出公道的决策。比方,车辆势函数可以根据周围车辆的位置和速度,计算出一个排斥力,使自动驾驶车辆保持安全距离;而车道势函数则可以引导车辆沿着车道中央线行驶,避免偏离车道。这种基于势场的方法不仅简化了决策过程,还进步了系统的实时性和适应性。在现实应用中,UDMC框架通过调解势函数的参数,能够机动应对差别的交通场景和规则变化,如在差别的国家和地区,交通规则大概有所差别,通过调解势函数参数,UDMC框架可以快速适应这些变化,确保自动驾驶车辆的合规行驶。
4.3 最优控制问题的构建与求解
UDMC框架将决策订定和运动控制整合到一个最优控制问题(OCP)中,这是实现自动驾驶的关键步骤。OCP的构建涉及到多个方面,包括自动驾驶车辆的动力学模子、情况束缚和目的函数。动力学模子描述了车辆的运动特性,如速度、加速度和转向角等;情况束缚包括蹊径界限、车道标记、交通信号和周围车辆等因素,这些束缚确保车辆在安全的范围内行驶;目的函数则反映了自动驾驶的目的,如行驶时间最小化、能耗最小化和乘坐舒适性最大化等。通过求解OCP,UDMC框架能够实时生成最优的控制指令,指导自动驾驶车辆在复杂的城市交通情况中安全、高效地行驶。在求解OCP时,UDMC框架接纳了高效的数值优化算法,如梯度降落法和序列二次规划法等,这些算法能够在短时间内找到最优解或近似最优解,满足自动驾驶实时性的要求。此外,UDMC框架还思量了OCP的可行性和稳定性,通过引入惩罚项和松懈变量,处置惩罚大概出现的束缚冲突和数值不稳定问题,确保系统的鲁棒性和可靠性。在现实测试中,UDMC框架在差别的城市交通场景下均表现出良好的性能,如在车流密集的路段能够实现平稳的车流跟随,在交叉路口能够准确地遵守交通信号并安全通过,这充实证实白UDMC框架在最优控制问题构建与求解方面的有效性和实用性。
5. UDMC框架的性能评估
5.1 仿真情况与测试场景
UDMC框架的性能评估紧张在CARLA模拟器中举行,CARLA是一个开源的城市驾驶模拟器,能够提供传神的城市交通场景和详细的车辆动力学模子。在模拟测试中,UDMC框架面对多种复杂的交通场景,包括但不限于:
- 车流跟随:在多车道的公路上,自动驾驶车辆需要跟随火线车辆,同时保持安全距离,并根据车流的速度变化举行加速或减速。
- 超车操作:在符合的蹊径条件下,自动驾驶车辆需要判定何时举行超车操作,同时确保不会对周围车辆造成伤害。
- 环岛驾驶:环岛交通场景中,车辆需要识别环岛内的交通规则,如让行标记,同时处置惩罚与其他车辆和行人的交互。
- 交叉路口:在有信号灯和无信号灯的交叉路口,自动驾驶车辆需要准确识别交通信号,遵守交通规则,并与其他交通参与者举行有效的交互,以安全通过交叉路口。
- T型路口:在T型路口,车辆需要根据交通标记和蹊径情况,决定是直行、左转还是右转,并在须要时举行停车和让行。
这些测试场景涵盖了城市自动驾驶中常见的各种情况,能够全面评估UDMC框架在差别情况下的性能表现。
5.2 性能指标与效果分析
为了评估UDMC框架的性能,研究者界说了一系列关键的性能指标,包括但不限于:
- 安全性指标:包括碰撞次数、安全距离保持情况等。在所有测试场景中,UDMC框架展现出极高的安全性,碰撞次数险些为零,且始终能够保持与周围车辆和行人的安全距离。
- 规则遵守性指标:衡量车辆遵守交通规则的程度,如红绿灯遵守率、车道保持准确性等。UDMC框架在这一指标上表现优异,红绿灯遵守率到达100%,车道保持准确性高达98%以上。
- 驾驶效率指标:包括均匀行驶速度、行程时间等。UDMC框架在保证安全和规则遵守的条件下,实现了较高的驾驶效率,均匀行驶速度比基线模子进步了15%,行程时间缩短了20%。
- 计算效率指标:评估框架的计算资源消耗,如CPU利用率、内存占用等。UDMC框架在实时实验中表现出良好的计算效率,CPU利用率控制在公道范围内,内存占用稳定,能够满足实时决策和控制的要求。
- 鲁棒性指标:测试框架在面对传感器噪声、情况变化等不确定因素时的稳定性。UDMC框架在引入差别程度的传感器噪声和情况干扰后,依然能够稳定运行,鲁棒性得到了充实验证。
通过对这些性能指标的综合分析,UDMC框架在CARLA模拟器中的表现优于多种基线模子,证实白其在城市自动驾驶中的有效性和可行性。这些效果不仅展示了UDMC框架的技术优势,也为将来自动驾驶技术的进一步发展和现实应用提供了有力的支持。
6. UDMC框架的范围性与挑战
6.1 当前存在的问题
只管UDMC框架在城市自动驾驶领域取得了显著的成果,但仍存在一些范围性。起首,该框架在处置惩罚极端气候条件下的传感器数据时大概会遇到挑战。比方,在暴雨或大雪气候中,传感器的精度大概会降低,从而影响对周围情况的准确感知。其次,UDMC框架在面对突发的、非典型的交通变乱时,如蹊径施工或交通事故导致的临时交通管制,大概需要更复杂的决策逻辑来适应这些变化。此外,虽然UDMC框架在模拟情况中表现出色,但在现实蹊径测试中,还需要进一步验证其在差别地区和差别交通规则下的适应性。最后,系统的计算资源消耗在处置惩罚大规模交通场景时大概会增长,这需要更高效的算法来优化资源分配。
6.2 将来研究方向
针对UDMC框架的范围性,将来的研究可以从以下几个方向睁开。起首,研究如何进步传感器在恶劣气候条件下的可靠性和准确性,比方通过开辟新型传感器融合技术或改进传感器校准算法。其次,开辟更机动的决策模块,使其能够快速适应突发的交通变乱和临时的交通规则变化。此外,进一步优化算法以减少计算资源的消耗,特别是在处置惩罚复杂的城市交通场景时,确保系统的实时性和高效性。最后,增强UDMC框架在现实蹊径情况中的测试和验证,收集更多的现实数据,以改进模子的鲁棒性和适应性。通过这些研究方向的探索,UDMC框架有望在将来实现更广泛的应用和更高的性能表现。
7. 总结
UDMC框架作为城市自动驾驶领域的一项创新性研究成果,通过将决策订定和运动控制整合到一个同一的最优控制问题中,有效地解决了传统自动驾驶系统在复杂城市交通情况中面对的诸多挑战。该框架利用势函数模拟交通参与者和规则,联合运动预测模块,实现了对周围情况的准确感知和预测,从而为自动驾驶车辆提供了安全、高效且符合交通规则的行驶计谋。在CARLA模拟器中的高保真度测试进一步验证了UDMC框架的优越性能,其在安全性、规则遵守性、驾驶效率、计算效率和鲁棒性等关键指标上均表现出色,为自动驾驶技术的将来发展提供了有力的技术支持和理论依据。只管存在一些范围性,如在极端气候条件下的传感器数据处置惩罚、面对突发交通变乱的决策适应性以及现实蹊径测试中的地区适应性等,但通过将来的研究和优化,UDMC框架有望降服这些挑战,推动自动驾驶技术在城市情况中的广泛应用,实现更加智能化、安全化的交通出行。
#Uber端到端:端到端可解释神经运动规划器
Zeng, W., Luo, W., Suo, S., Sadat, A., Yang, B., Casas, S., & Urtasun, R. (2019). End-To-End Interpretable Neural Motion Planner.2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Presented at the 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Long Beach, CA, USA. https://doi.org/10.1109/cvpr.2019.00886.
本文接纳了轨迹采样+cost map prediction的方式实现learning based planning方案。
网络的输入是lidar cloud point and hp map, 然后通过cnn卷成feature最后接MLP举行预测。预测有两个部门,可以理解成感知使命和规划使命。其中感知使命包括了3D detection and future motion forcasting. 规划的使命则是预测稠密的cost volumes. 此外这个输入的特征空间还带偶尔序的信息,通过融合多帧的感知信息,然后举行cat组成了存储时序信息的features。规划使命是预测稠密的cost volume, 不外文章提到预测这个东西紧张靠的是gt轨迹, 我们希望预测到gt附近区域是cost比较低的,但是这个奖励太稀疏了,以是单纯的利用gt信息学习是很困难的,以是额外的通过两个感知使命帮忙调解感知backbone输入,这样也可以提升planning的学习效果,原文的表达如下:“we introduce an another perception loss that encourages the intermediate representations to produce accurate 3D detections and motion forecasting. This ensures the interpretability of the intermediate representations and enables much faster learning。”
此外 HDmap上存储了各种蹊径情况的语义信息:“we exploit HD maps that contain information about the semantics of the scene such as the location of lanes, their boundary type (e.g., solid, dashed) and the location of stop signs.”这些蹊径,十字路口,车道线以及红绿灯等静态蹊径元素也被提取出来作为cost map中的静态元素,这些东西被铺进多个图层,也生成了M个通道,最后和lidar point cloud上提取出来的T个时间维度的信息组合在一起给到后面的planning利用。
有了这个cost map, 下面通过螺旋曲线的采样生成planning anchor, 将这些anchors铺到cost map上面找cost最低的轨迹。
文章号称有以下三个优势:
- 具备可解释性和多模态能力,从后面的数据来看,可解释性来自cost map的高低,能够有效可视化出来碰撞或者违背蹊径交通规则的区域。此外额外的两个感知使命3d detection and motion forcasting也能提供中心信息的可视化做到肯定的可解释性。
- 能够举行联合训练,避免了信息损失。
- 能够处置惩罚不确定性,从后面看不确定性的处置惩罚也是在cost map上体现出来的,cost map上出现了非凸的low cost区域用于表达多种驾驶大概性。不外这个证实有点弱,仅仅是出一张有多模态决策的图还是远远不敷的,本文还是缺乏充足的理论和实验论证这里的网络筹划是可以保证多模态的。
objective
planning模块的目的是将采样获得trajectory铺进cost volume中,从中找到cost最低的轨迹作为最佳轨迹:
而轨迹的costing方式则是则是通过从cost map中索引voxel-wise的cost举行计算的。感知的输入是H,W,Z维度的lidar cloud points, 同时为了思量时序上的动态agents的信息,雷达点云信息还要融合多帧的时序效果,在Z维度叠起来,H,W,ZT. 另一方面,Wiley思量蹊径情况元素,本文给各个蹊径元素都预备了一层通道,包括road, intersections, lanes, lane boudaries, and traffic lights. 原文表达是“we exploit HD maps that contain information about the semantics of the scene such as the location of lanes, their boundary type (e.g., solid, dashed) and the location of stop signs. Similar to [5], we rasterize the map to form an M channels tensor, where each channel represents a different map element, including road, intersections, lanes, lane boundaries, traffic lights, etc.”以是维度变成H,W,(ZT+M).
感知backbone是个CNN,作为下面两个头的输入,其中感知头预测bounding box and motion forcasting. cost volume头预测cost volume, 这里紧张看下cost volume的预测。这里接纳了max margin loss, gt是人驾轨迹。loss希望区分人驾轨迹的区域和其他区域,人驾轨迹的地方就是cost低的地方:“The intuition behind is to encourage the ground-truth trajectory to have the minimal cost, and others to have higher costs.”
c表现cost, d表现轨迹距离,gamma表现traffic rule violation.
在负样本采样中,需要采样大量的偏移人驾轨迹的曲线,这里除了用planning anchor采样逻辑外,还对出发点状态做了一个稍微扰动:“except there is 0.8 probability that the negative sample doesn't obey SDV's initial states, e.g. we randomly sample a velocity to replace SDV's initial velocity.”
planinng anchor
横向接纳螺旋曲线举行采样:
纵向则是接纳了constant accleration直接采样加速度,非常粗糙。
文章还提到了一点,“Note that Clothoid curves cannot handle circle and straight line trajectories well, thus we sample them separately. ”这个螺旋曲线不能表达直线和圆形,以是直行和掉头要出问题,以是额外单独采样,他们的采样比例是:“The probability of using straightline, circle and Clothoid curves are 0.5, 0.25, 0.25 respectively.”
experiment
实验关注L2 distance, collision rate, and lane violation rate这几个指标,然后做了几个对比实验:
- Ego-motion forecasting (Ego-motion),仅用ego motion 作为输入
- Imitation Learning (IL):imitation is all you need, 用纯粹imitation学习
- Adaptive Cruise Control (ACC):没有细说怎么处置惩罚,不外从后面的实验效果分析上来看,应该是加了lane violation的loss
- Plan w/ Manual Cost (Manual): 人工筹划cost
对比效果如下:
结论就是:“Egomotion and IL baselines give lower L2 numbers as they optimize directly for this metric, however they are not good from planning perspective as they have difficulty reasoning about other actors and collide frequently with them.”
然后对比其他几个方面的对比效果。包括联合训练(所谓联合就是是不是要感知使命和规划使命一起训),输入的时序融合长度,是否确实gamma penalty等等:
#从10到100的地平线
近期,智驾行业频仍出现中高阶的大项目定点。
据悉,某头部主机厂的一个中高阶大项目定点被地平线生态所斩获,这个大项目定点的车型数目到达了十个左右。
大项目频仍出现的缘故原由是主机厂都在筹备智驾遍及大战。众所周知,主机厂从卷电动调转枪口卷智驾。一位主机厂朋友表现,大家都在积极备战,25年将会是传统主机厂卷智驾最热闹的一年。
1. 智驾遍及大战
众所周知,智驾行业是一年一个变化,25年最大的看点大概是两条线。
一条线是中高阶智驾的下沉遍及;别的一条线是端到端2.0落地的竞争,也就是VLA量产上车。
引发智驾下沉遍及的鲇鱼是比亚迪,比亚迪发起了声势浩大的智驾遍及大战。比亚迪的动作猛烈,近乎全系车型要上中阶或高阶的智驾方案,10W出头的车型上都要上带高速NOA、记忆行车的中阶方案。
一位头部主机厂的人士表现,比亚迪国内销量第一,在C端用户影响力大,也是众多国内主机厂对标的对象。比亚迪卷智驾,那么险些所有的主机厂都要跟进。
这意味着智驾正式从技术探索阶段过度到了智驾遍及阶段。
在这场声势浩大的智驾遍及战中,传统主机厂将不再是像过去几年一样在零散的个别车型上搭载中阶或高阶智驾、接纳高定价的选配计谋,而是近乎全系车型甚至会采取激进的标配计谋。
这就使得许多主机厂产生了一个“烦恼”:面对几十款车型如何量产智驾的问题。
在从前,传统主机厂都是对旗下的个别车型上搭载中阶或高阶的智驾方案,量产的车型并不多。而如今是近乎价位10W以上的车型都要上中高阶的方案,对于一些拥有几十上百款车型的传统主机厂来说,如何做好智驾的量产是个大问题。
一些传统主机厂已经开始调解思绪,比如,某头部车企将一个车型平台交给一家地平线生态互助伙伴来做。
在过去,传统主机厂喜欢分散式的选择供应商,一个车型平台会交给几个供应商来做。如今则是由之前分散式的选择智驾供应商的方式,转变为打包整个车型平台交给一个或两个智驾供应商来做。
这样做的目的除了能够降本卷智驾之外,别的很紧张的缘故原由是能在量产中以及后续的OTA能够很好的一致性管理。
当国内主机厂调解枪口卷智驾,意味着几百个车型的量产需求。这么庞大的一个量产需求,需要一个强盛的生态系统才能接得住。
(征程6系列定点超100款中高阶智驾车型)
目前,国内能接住的凤毛麟角,地平线或许是最有潜力的谁人。
第一,地平线生态的互助伙伴群体规模庞大,从软件算法到硬件的域控、传感器,包罗万象;第二,地平线以及生态伙伴的产物线覆盖全场景,无论低阶、中阶还是高阶的需求。
以是,在传统主机厂的智驾遍及战略中,地平线成了绕不开的选择。而且,基于地平线的J6一代芯片做的智驾方案,在性能和成本上非常均衡,契合了传统主机厂对智驾遍及的战略需求。
这也是为什么24年地平线的“朋友圈”和定点疯狂增长的缘故原由,不仅是传统主机厂,新势力在智驾遍及战略上也是做出了一样的选择。
新势力车型产物从中高端向中端以下市场下沉,在暴虐的汽车价格战配景下,在智驾上不再追求 “自产自销”,开始采取务实机动的计谋——“谁适合就用谁”。理想和蔚来都选择了地平线来做智驾遍及。
一位业界朋友表现,25年的出货量要爆,这波智驾遍及的趋势,地平线是大赢家,斩获的中阶定点项目最多。
2. 智驾的技术拐点
VLA被业界视为将高阶智驾的技术从“可用”推进到“好用”的紧张拐点。
VLA大致可以划分为1.0、2.0、3.0的三个阶段。
在VLA1.0阶段,即端到端和视觉语言模子双系统初步融合阶段,提升智驾系统的对情况的理解能力;VLA2.0阶段,即深度融合的ONE MODEL,在提升智驾系统对情况空间感知理解能力的同时,实现根据感知直接生成运动规划和决策;VLA3.0阶段,即实现拟人的推理能力,类似于GPT-4o一样多轮推理。
从技术迭代上来看,智驾不久将迎来自己的GPT时刻。
过去十几年智驾行业是起起落落,有过浮躁红火,有过岑寂低谷。不外,这一回的技术拐点和从前不一样,行业是第一次能够看到清晰可实现的“攀上珠峰”的技术门路图了,整个行业的贸易代价也会出现变化的拐点。
正是基于智驾技术进步的门路图和节点,地平线创始人余凯认为智驾三年时间行业大局可定,并预测整个智驾财产将实现“3年脱手开,5年闭眼开,10年随心开”的目的。
地平线在25年也将量产自己的高阶智驾方案HSD(Horizon SuperDriveTM)。地平线的HSD一上来就奔向了端到端VLA,瞄准了将来两三年实现“脱手开”的战略目的。
(HSD系统根本泛化了中国紧张地形城市)
一位体验过HSD的业界朋友评价,苏箐出手非常精准犀利,对将来几年智驾技术迭代变化看的很透彻,出手就是抢攻技术制高点。
25年对于地平线来说是一个紧张的拐点,迎来在低阶、中阶、高阶上的全面爆发的一个新阶段。
不外,虽然地平线在高阶上软硬联合更加深化,但是地平线对自身的定位仍旧是Tier 2。有了生态,就是一片森林,没有生态,就是一棵树,地平线创始人余凯相信的是森林而不是一棵树木。
地平线对Tier 2和Tier 1的界限有着清晰的认知,重心放在如何撑起整个生态的高度上。
24年地平线生态的互助伙伴迎来丰收的繁荣期,很紧张的一个缘故原由就是生态高度上了一个台阶。
众所周知,24年的智驾行业在资本市场遇冷,业内许多智驾公司融资困难。不外,有一些智驾公司仍旧受到资本的追捧,不仅一轮融资就拿到几个小目的,而且甚至一年实现几轮融资,比如轻舟、鉴智机器人、易航等。
这些都是地平线生态的智驾公司,之以是能在资本降温的期间里还能频仍融到钱,一个很紧张的缘故原由是:在定点项目上斩获丰盛。
24年下半年,传统主机厂掀起了一波密集的中阶智驾项目招标小海潮,为应对智驾遍及大战做预备。这一波的中阶项目,很大一部门被地平线生态的智驾公司拿到了。
手里的项目多了,就要招兵买马扩充技术力量,资本也很聪明,看到斩获丰盛的智驾公司就追上去加码子弹粮食,让这些公司跑的更快一些。
在这场智驾遍及大战之中,地平线生态的智驾公司频频斩获定点拿单,成为各大主机厂的紧张帮手。
地平线生态的智驾公司各自推出了差别化的智驾方案,比如,轻舟在J6M上开辟出一套轻量级城区NOA的方案,成本便宜,满足了主机厂想把高阶智驾下沉和降本的需求;鉴智基于自己研发的视觉3D感知的算法能力,推出双目立体视觉系统,获得国产和合资主机厂的青睐。
主机厂青睐,资本追捧,地平线生态的互助伙伴迎来丰收的繁荣期。
芯片行业有一句传播甚广的老话:没有生态的芯片就是一块“砖”。这话的意思是说芯片市场的竞争不仅依靠于产物性能,还有生态系统的建立。
那些天下级的芯片公司,在各自领域不仅是产物性能的领先者,而且都构建生态奠定了各自领域的王者地位。
比如PC领域的王者英特尔,在软件操作系统上有微软这样的联盟伙伴,在硬件制造上有戴尔、惠普、联想等,强盛的生态使得一直想通过ARM芯片向PC渗出的战略无法奏效;而手机领域的王者高通,也同样构建了强盛的生态,软件系统上有安卓,硬件上有小米、VIVO、OPPO等。
生态是芯片公司紧张的护城河,芯片产物可以竞争但是生态不可复制。
结束语
在过去,国内能够打造生态系统的大多数都是互联网公司。比如阿里建立电商生态、腾讯建立社交生态、抖音建立了内容生态。而在硬科技领域,根本没有能够建立生态系统的。
而如今,随着2025年疯狂的拿下诸多智驾大订单,硬科技领域诞生了第一家成功建立生态的公司:地平线。
地平线这几年在汽车市场的征战,险些每一次都精准踩点行业的变化,从低阶切入捉住了20年到22年L2大规模遍及的风口,又在24年推出J6推动了中高阶下沉遍及,25年在智驾出现技术拐点时推出高阶。
几年连续的洞察、预判、布局,使得地平线2025年的出货量将冲向1000万量产大关。在连续领先的大规模量产的同时,地平线对峙“向上捅破天”,保持智驾技术的领先性,为行业打造新标杆。
#LargeAD
感知使命全面涨点!自动驾驶超强预训练来了(新加坡国立)
论文链接:https://arxiv.org/pdf/2501.04005
项目链接:https://ldkong.com/LargeAD
写在前面 && 笔者理解
近期视觉底子模子(vision foundation models, VFMs)在2D视觉领域取得了显著进展,比如:SAM, X-Decoder, SEEM等等。这些模子在从2D图像中提取丰富的像素级语义方面表现出色。然而,将这些进步扩展到3D领域仍旧是一个有待探索。
在本文中,作者提出了LargeAD,这是一个新奇且可扩展的框架,用于跨多种传感器的大规模3D预训练。将VFMs引入3D领域,以实现几个关键目的:i)利用原始点云作为输入,消除对昂贵标签的需求,ii)利用驾驶场景中的空间和时间线索举行稳健的表现学习,以及iii)确保对预训练数据之外的下游数据集的泛化能力。
这篇工作的关键创新可以总结如下:
- VFM驱动的超像素生成:通过VFMs从2D图像中生成语义丰富的超像素,这些超像素与LiDAR点云对齐,以构建高质量的对比样本,减少了对比学习中的“自我冲突”问题。
- VFM辅助的对比学习计谋:对齐多模态特征,解决了图像和LiDAR特征之间的跨模态差别。
- 超点时间一致性:通过时间一致性机制增强点云表现的稳定性,减轻了LiDAR和相机传感器之间不完美同步的错误。
- 多源数据预训练:利用多种LiDAR数据集举行预训练,构建了一个能够适应差别传感器配置的通用模子,进步了模子的可扩展性。
相关工作基于LiDAR的场景理解
对于自动驾驶车辆而言,准确且密集的3D感知对于安全导航至关紧张。研究职员开辟了各种点云分割方法,包括基于原始点、范围视图、鸟瞰图、体素以及多视图融合的方法。只管取得了显著进展,但这些模子通常依靠于大量标注的数据集,这带来了可扩展性问题。为了减轻标注负担,近来的研究探索了半监督、弱监督以及自动学习方法,以及领域适应技术。本工作接纳自监督学习计谋,通过相机到LiDAR的关联从VFMs中提炼知识,从而在预训练期间消除了对手动标注的需求。
视觉底子模子
计算机视觉领域被开辟出利用大量训练数据的视觉底子模子(VFMs)所改变以及复杂的自监督学习技术。其中,Segment Anything Model,即SAM,在通用图像分割方面树立了新的基准,在一系列下游使掷中展示了令人印象深刻的零样本转移能力。其他值得留意的VFMs,如X-Decoder、OpenSeeD、SegGPT和SEEM,进一步展示了这些模子在处置惩罚多样化图像相关使掷中的多功能性。本工作将VFMs的利用扩展到点云学习领域,利用它们的语义理解来增强3D表现学习中的空间和时间线索。
3D中的表现学习
3D自监督学习劈头于基于图像的技术,通常侧重于以对象为中央的点云或室内场景,利用预训练使命、对比学习或掩码建模。这些方法通常缺乏户外驾驶场景所需的规模和多样性。如PointContrast、DepthContrast和SegContrast等积极开创了小规模点云的对比目的。近来,Sautier等人引入了SLidR,这是第一个在大规模点云上举行图像到LiDAR表现蒸馏的跨模态自监督学习方法。Mahmoud等人进一步完善了这种方法,引入了语义容忍的对比束缚和类别平衡损失。SuperFlow引入了一个时空一致性框架,以高效地捕获多个时间步长的动态线索。作者的框架在SLidR的底子上,利用VFMs创建了一个更有效的跨模态对比目的。作者还引入了一个超点时间一致性正则化,以增强在多样化和动态的现实天下驾驶场景中的特征学习和稳健性。
图像到LiDAR数据预训练
问题表述
界说一个点云 ,由LiDAR传感器收集的 个点组成。每个点 表现3D坐标,而 表现其特征嵌入,比方强度、延伸率等。本工作旨在将知识从一组由 个同步的RGB相机捕获的环顾图像 转移到点云 。每张图像 具有由高度 和宽度 界说的空间分辨率。鉴于LiDAR和相机传感器被假设为良好校准,每个LiDAR点 可以投影到图像平面上作为一个像素 ,利用以下坐标变更:
其中 表现相机内参矩阵,而 是从LiDAR到相机坐标系的转换矩阵。之前的工作利用无监督的SLIC算法将具有相似RGB属性的图像区域聚合成一组超像素,记为 。随后,利用式(1)推导出对应的超点集 。为了促进从图像到LiDAR域的知识转移,这些方法通常在超像素和超点的表现之间举行跨模态对比学习。
超像素驱动的对比学习
早期的方法,如PPKT,通过对比学习将图像像素与对应的LiDAR点对齐。然而,PPKT在应用于稀疏点云数据时,往往会遇到一些限定,比方由于视点差别导致的错位、局部语义建模不足、密集和稀疏区域的权重不平衡以及对假阴性的处置惩罚不佳。只管它在密集区域(比方靠近车辆的地方)表现良好,但其在稀疏区域的有效性显著降落,限定了其整体泛化能力。为了降服这些问题,SLidR引入了一种利用SLIC算法将相似像素聚合成一致超像素的超像素驱动蒸馏方法。通过在图像中的超像素和LiDAR数据中的超点之间举行对比学习,SLidR减少了由于传感器视点导致的对齐错误,并增强了局部语义一致性。在超像素和超点级别聚合特征解决了PPKT中存在的权重不平衡问题,确保了对密集和稀疏区域的更好处置惩罚。此外,对比学习覆盖更大区域有助于减少假阴性,从而实现更稳健的图像到LiDAR知识转移。
对比学习目的
设 表现一个可训练参数为 的LiDAR点云编码器,它处置惩罚点云 并为每个点输出一个 维的特征。别的,设 是一个图像编码器,参数为 ,从2D自监督预训练模子中初始化。为了计算超像素驱动的对比损失,作者构建了可训练的投影头 和 ,将3D点特征和2D图像特征映射到相同的 维嵌入空间。点投影头 是一个线性层,后跟 -归一化。图像投影头 包含一个 卷积层,后跟一个固定双线性插值层,在空间维度上输出,并举行 -归一化。目的是将2D网络的知识蒸馏到3D网络中,确保每个语义超点特征与其对应的语义超像素特征紧密相关。具体来说,超像素 和超点 用于分别对像素和点嵌入特征举行分组。对分组后的像素和点嵌入应用均匀池化操作,以获得超像素嵌入特征 和超点嵌入特征 。对比损失 界说如下:
其中 表现超点和超像素嵌入特征之间的标量积,衡量它们的相似性。 是一个温度参数,用于缩放相似性分数。
LARGEAD:一个可扩展、多功能且通用的框架
从底子模子生成超像素
以往的研究利用SLIC将视觉上相似的图像区域聚合成超像素。然而,SLIC往往会过度分割语义连贯的区域(见图2),这给对比学习带来了挑战,特别是由于“自我冲突”征象。当语义相似的超像素被错误地视为负样本时,就会出现这种情况。SLIC缺乏对高级语义的理解加剧了对比学习中的困难。为了降服这些挑战,作者利用视觉底子模子(VFM)生成语义超像素,这些超像素在语义上丰富,显著进步了对LiDAR点云中近点和远点的表现学习(见图5)。
与依靠低级RGB特征的方法差别,作者的方法通过利用从大规模预训练图像编码器派生的VFM来增强超像素生成。与SLIC差别,VFM捕获高级语义信息(如图2所示),使作者能够创建更具语义意义的超像素集,记为 。生成过程从通过提示创建语义掩码开始。通过引入更抽象的特征,VFM有效地通过更连贯地分组语义相似区域来解决“自我冲突”问题,减少了对比学习期间的误分类风险。因此,生成的超像素更准确地代表了对象语义,而不仅仅是视觉相似性。利用式(1),建立对应的超点集 ,确保2D图像特征和3D LiDAR点特征之间的正确对齐。作者的VFM辅助超像素有两个紧张目的:起首,它们增强了生成的超像素的语义丰富性;其次,它们改进了2D图像特征与3D LiDAR点云之间的对齐。通过利用VFM提供的高级语义特征,作者的方法有效地解决了传统基于低级RGB特征的方法中经常出现的错位和特征不一致问题。
语义空间一致性学习
在上一节的底子上,作者引入了一个VFM辅助的对比学习框架,利用这些高级视觉特征。紧张目的是在同一的语义空间中对齐超像素与超点,确保在训练期间差别模态中的对应区域被视为正对。为了实现这个框架,作者利用了前面描述的相同的可训练LiDAR点云编码器 和冻结的图像编码器 ,分别从LiDAR点云和2D图像中提取特征。对于对比损失,作者利用投影头 和 ,将点和图像特征投影到共享的 维嵌入空间中。与SLIC生成的低级线索差别,VFM产生的超像素富含语义信息,导致更具连贯性和意义的表现。为了计算VFM辅助的对比损失,作者对由超像素集 和对应的超点集 分组的像素和点嵌入应用均匀池化。这个过程产生了超像素嵌入 和超点嵌入 。VFM辅助的对比损失 界说如下:
对比学习框架从VFM提供的丰富语义信息中收获许多。起首,这些语义增强的超像素有助于缓解现有方法中普遍存在的“自我冲突”问题。其次,由VFM生成的高质量对比样本形成了一个更具连贯性的优化景观,与无监督超像素生成方法相比,实现了更快的收敛。最后,利用VFM的超像素将嵌入长度从数百(SLIC)减少到数十,进步了计算效率并加速了整体训练过程。
实例超点时间一致性
在现实部署中,完美同步的LiDAR和相机数据通常是不切现实的,限定了可扩展性。为了解决这个问题,作者依靠点云的准确几何信息来减轻同步束缚。
隐式几何聚类。作者起首利用RANSAC算法从时间戳 的LiDAR点云 中移除地面平面点,选择非地面点 。然后,作者利用HDBSCAN算法将 分组为 个段,。为了在差别时间戳之间映射段视图,作者将LiDAR帧转换为全局坐标系,然后举行聚合。这给出了聚合点云 。同样,作者利用RANSAC从 中生成非地面平面 。以相同的方式,作者对 举行分组以获得 个段 。为了为 个扫描在 个连续时间戳上生成段掩码,即 ,作者保持从聚合点云 到 个单独扫描的点索引映射。
超点时间一致性。作者利用聚类段来计算相关语义超点之间的时间一致性损失。具体来说,给定采样的时间对 和 及其对应的段 和 ,作者从点投影头 计算点特征 和 。对于目的嵌入,作者根据段 和 将点特征 和 分成 组。然后,作者对 应用均匀池化操作,以获得 个目的均值特征向量 ,其中 。设分割点特征 为 ,其中 且 是对应段中的点数。作者计算时间一致性损失 以最小化当前帧(时间戳 )中的点特征与下一帧(时间戳 )中对应段均值特征之间的差别,如下所示:
由于所有属于当前帧中一个段的点的目的嵌入都作为下一帧中对应段的均值表现,这个损失将迫使一个段中的点收敛到一个均值表现,同时与其他段分离,隐式地将来自同一实例的点聚类在一起。图4提供了作者对比学习框架中的正特征对应关系。此外,作者在生成目的均值嵌入特征时交换 ,形成对称表现。这样,对应关系从 和 都被鼓励,导致以下优化目的:。
点到段正则化。为了将属于同一实例的LiDAR点在时间戳 拉近,作者最小化点特征 与对应均值聚类特征 之间的距离。为了实现这一点,作者利用最大池化函数根据段对 举行池化,以获得 ,其中 。点到段正则化通过以下 损失函数实现:
其中 表现对应段中的点数。最终的优化目的是最小化上述语义空间一致性损失 、时间一致性损失 和点到段正则化损失 。作者的语义超点时间一致性利用点云的准确几何信息,确保跨时间戳的一致表现。当LiDAR和相机之间的2D-3D对应关系不可靠时,这种方法仍旧稳健,减轻了校准或同步问题引起的错误。点到段正则化进一步改进了空间聚合,增强了模子区分实例的能力,比方“汽车”和“卡车”。作者的实验效果证实,这些正则化计谋不仅改进了表现学习,而且在传感器扰动下仍旧有效。
多源数据预训练
之前的工作紧张关注利用单源LiDAR数据集举行模子预训练。这种方法在应用于源外使命时限定了其泛化能力,由于差别的LiDAR数据集通常表现出差别的特征。为了降服这些限定,作者提出了一种多源数据预训练计谋,整合了多种数据集,进步了特征表现的稳健性。这种计谋增强了模子对差别LiDAR传感器的适应性,并进步了其跨领域的泛化性能。多源对比学习。思量来自 个差别源的多个LiDAR数据集 。作者的LiDAR点云网络 被筹划为在所有传感器上表现一致。然而,这些数据集的特征分布存在显著差别。比方,nuScenes 中的强度值范围从0到255;而SemanticKITTI 中的强度值范围从0到1。这些差别在利用共享模子权重跨数据集学习时使学习过程复杂化。为了处置惩罚这些领域特定的变化,作者起首对每个数据源的特征嵌入举行归一化。对于每个数据集,作者计算特征分布的均值 和方差 ,然后按以下方式归一化特征嵌入:
这种归一化确保了跨数据集的一致特征表现,最小化了差别分布特征的影响。归一化后,特征嵌入被送入网络 ,生成点特征,这些特征被分组成每个领域的超点嵌入,。为了进步模子跨数据集的泛化能力,作者接纳跨数据集预训练对比损失 ,鼓励模子学习跨数据源的共享表现,同时保留每个领域的独特特征。这个损失界说如下:
这里,这个损失确保了来自同一源的超点嵌入更加相似,同时在差别源的超点之间保持充足的分离。这个对比目的增强了模子处置惩罚多域数据的能力,并鼓励开辟共享但可适应的特征表现。多源数据预训练利用多种数据源创建了一个更具弹性和机动的模子。通过解决领域之间的显著分布差别,特征归一化确保了跨差别数据集的一致性,促进了更同一的表现空间。
整体框架
作者的框架整合了几个创新组件,以实现可扩展且稳健的3D场景理解。一个关键元素是利用VFM生成语义丰富的超像素,解决了传统方法中的过度分割和自我冲突问题。这使得2D图像特征与3D LiDAR数据之间的对齐更加准确,增强了整体表现学习。
作者的方法联合了VFM辅助对比损失 ,确保了超像素与超点之间的语义一致性,而时间一致性损失 维持了跨帧的稳定点表现。点到段正则化损失 进一步改进了段内的空间一致性。最后,跨数据集预训练损失 解决了领域特定的变化,增强了模子跨差别LiDAR传感器的泛化能力。这些目的共同创建了一个稳健且多功能的框架,确保在各种使命和领域中实现杰出性能,同时保持了在现实天下应用中的可扩展性和适应性。
实验及效果
数据集
作者利用十一个差别的数据集来评估作者的方法的有效性。第一组包括大规模真实天下的LiDAR数据集:nuScenes,SemanticKITTI 和Waymo Open,还包括ScribbleKITTI。对于非铺装路面场景,作者思量RELLIS-3D ,它包含校园情况的多模态数据,以及SemanticPOSS ,这是一个关注动态对象的较小数据集。此外,作者还纳入了SemanticSTF ,它提供了在恶劣气候条件下收集的LiDAR扫描。作者还利用了三个合成数据集:SynLiDAR 、Synth4D 和DAPS-3D ,所有这些数据集都是利用模拟器生成的,以提供多样化的驾驶情况和场景。最后,作者在nuScenes-C 上评估鲁棒性,这是Robo3D挑战赛的一个基准,包含现实驾驶中常见的八种分布外干扰。
比较研究
与SOTA的比较。作者将所提出的LargeAD与随机初始化和十一种开始进预训练技术举行比较,利用线性探测(LP)和少样本微调协议在nuScenes上举行评估,效果如表1所示。效果表明预训练对下游使命性能有显著影响,特别是在1%、5%和10%的微调预算等低数据场景中。当从ResNet、ViT-S、ViT-B和ViT-L提炼知识时,作者的框架在LP设置下分别实现了46.13%、46.58%、47.84%和48.71%的mIoU分数,大幅超过了之前最佳模子。
此外,作者的框架在nuScenes上的险些所有微调使掷中都连续提供了最高性能,突出了VFM辅助对比学习、空间-时间一致性正则化和多源数据预训练组合的有效性。
下游泛化。为了彻底评估LargeAD的泛化能力,作者在总共九个自动驾驶数据集上举行了实验,效果总结在表1(SemanticKITTI和Waymo Open)和表3(其他七个数据集)。每个数据集都呈现出差别的挑战,包括传感器类型、采集情况、规模和数据保真度的变化,这使得对模子泛化能力的评估非常严格。作者的框架在SemanticKITTI和Waymo Open上分别实现了51.68%和52.68%的mIoU分数,当从ViT-L提炼时,为这些基准设定了新的标准。作者还在表3中的其他七个数据集上超过了SLidR和Seal,效果一致显示作者的方法在所有评估数据集上都优于现有的开始进方法。这些效果强调了作者的方法在广泛的真实天下汽车感知使掷中的稳健性和适应性。
鲁棒性探测。评估在分布外数据上学习到的表现的鲁棒性至关紧张,特别是在现实天下应用中情况不可预测的情况下。作者利用Robo3D基准中的nuScenes-C数据集来评估在各种干扰下的鲁棒性。如表4所示,自监督学习方法如PPKT和SLidR通常比传统的基线(随机初始化)如MinkUNet表现出更好的弹性。作者的方法,LargeAD,在险些所有干扰类型中都实现了优越的鲁棒性,超过了其他近来的依靠差别LiDAR表现的分割骨干网络的方法,包括范围视图、鸟瞰图(BEV)、基于原始点的方法和多视图融合。这些效果强调了作者的预训练框架在多样化的真实天下自动驾驶条件下的适应性和弹性。
3D目的检测的改进。除了LiDAR语义分割外,作者还将框架扩展到nuScenes数据集上的3D目的检测使命,并与开始进预训练方法举行比较。效果如表5所示,表明作者的方法在5%、10%和20%的各种数据比例下,对于CenterPoint和SECOND骨干网络都连续优于竞争方法。
特别是,作者的方法在所有微调级别上都实现了最高的mAP和NDS,超过了近来的技术,如CSC和TriCC。值得留意的是,作者的框架在有限的微调数据下保持了杰出的性能,展示了其在3D目的检测中的稳健性和有效性。这些效果进一步验证了作者的框架在自动驾驶中的多个具有挑战性的使掷中的泛化能力,从语义分割到目的检测。
定性评估。为了进一步评估作者框架的性能,作者在图6中可视化了nuScenes上的分割预测。预训练方法显着增强了与从随机初始化训练的模子相比的分割质量。在比较的方法中,LargeAD展示了最一致和准确的效果,特别是在复杂的驾驶情况中。这种改进可以归因于作者预训练计谋中嵌入的稳健的空间和时间一致性学习。
消融研究
比较差别的底子模子。这是第一次实验将VFM适应于大规模点云表现学习。作者在四个流行的VFM上举行了全面的消融研究,即SAM、XDecoder 、OpenSeeD 和SEEM,效果如表6所示。作者的实验表明,差别的VFM对对比学习目的有差别的影响。所有VFM都一致地优于传统的SLIC。有趣的是,SAM生成了更细粒度的超像素,这在利用更大的标注数据集举行微调时增强了性能。作者假设SAM提供了更多样化的负样本,这大概有利于超像素驱动的对比学习。在所有配置中,LargeAD都显著超过了SLidR,证实了作者提出的大型跨传感器数据预训练框架的有效性。
余弦相似度。作者在图5中可视化了各种VFM之间的特征相似性,提供了在微调之前表现之间差别的看法。像X-Decoder、OpenSeeD和SEEM这样的语义丰富的模子在对象和配景之间显示出清晰的特征区分。相比之下,像SLIC和SAM这样的无监督或过于细粒度的方法显示出较弱的语义意识。这些定性观察在从线性探测和微调使命(见表6)的性能效果中得到了反映,其中SEEM展示了在跨传感器表现学习中更强的一致性正则化,从而进步了下游使命的性能。
组件分析。LargeAD的焦点组件的消融效果如表7所示。仅整合VFM(行c)在线性探测中就提供了4.20%的mIoU改进,而添加时间一致性学习(行b)又额外提供了1.65%的mIoU增益。将这两个组件联合起来(行d)总共提供了5.21%的mIoU提升。点到段正则化(行e)本身也贡献了显著的4.55% mIoU改进。当所有组件都整合在一起(行g)时,最终模子总共获得了6.33%的mIoU增益,超过了SLidR,在分布内和分布外基准测试中都优于所有开始进的方法。
随着数据源的扩展。作者举行了消融研究,以查抄在预训练期间利用差别数据集的影响,如表8所示。效果表明,仅在一个数据集上举行预训练,即nuScenes(N)、SemanticKITTI(K)或Waymo Open(W),就比随机初始化提供了显著的改进,特别是在线性探测(LP)和1%微调评估中。然而,随着在预训练中联合更多的数据集,性能在分布内(预训练数据集)和分布外数据集上都连续进步。比方,在所有三个数据集(N + K + W)上举行预训练,效果在所有场景中都获得了最佳性能。有趣的是,多数据集预训练的好处在分布外效果中最显着,联合两个或三个数据集比单数据集预训练带来了显著的增益。比方,联合nuScenes和Waymo Open(N + W)在nuScenes上的LP到达了47.42%的mIoU,超过了单数据集预训练设置。同样,利用所有三个数据集在分布外场景中超过了两个数据集的组合,特别是在Waymo Open中,在1%微调中到达了51.52%的mIoU。这些效果突出了多源预训练的紧张性,它不仅进步了在分布内数据集中的泛化能力,而且显著增强了分布外性能,展示了作者提出的框架的稳健性和可扩展性。
结论
本文先容LargeAD,一个为大规模预训练筹划的可扩展通用框架,适用于多种LiDAR数据集。该框架利用视觉底子模子(VFM)生成语义丰富的超像素,对齐2D图像特征与LiDAR点云,提升表现学习。通过VFM辅助对比学习、超点时间一致性和多源数据预训练,LargeAD在多个3D场景理解使掷中到达顶尖性能,包括LiDAR语义分割和3D目的检测。广泛的实验表明,该框架在差别数据集上表现出色,具有良好的泛化和鲁棒性。消融研究证实了多数据集预训练和各组件的紧张性。
#150亿造车新势力,宣布停运破产
百亿造车巨头,破产清零了。
造车8年,滑板底盘造车鼻祖Canoo,刚在主页更新了公告,宣告公司已申请破产,并立即停运。
辉煌时,这家公司云集宝马、福特、Uber等巨头的前高管,仅4年就在纳斯达克上市,市值一度高达150亿。
如今深陷泥沼,因融资失败而破产,随着9位创始人全部离去,Canoo的造车故事,自此遗憾画上句点。
滑板底盘造车的故事,在美国遭受了重创。
Canoo破产并立即停运
还是没熬过。
电动汽车公司Canoo刚发布了一条公告,宣告申请了美国破产法第7章,公司正式破产,并立即克制运营。
其实在一个月前,Canoo的破产就有征兆。
上个月18日,Canoo也发布了一则公告,宣布停息位于俄克拉荷马州的工厂,并让82名员工“休假”,公司将全力筹集继续运营的资金。
只是没想到,情况要比想象的更加危急。
从公开数据来看,去年11月份,Canoo披露财报指标,公司去年第三季度营收90万美元(约659万元),同比增长71%,环比增长47%。
营收额不高,但增长速度惊人,紧张是由于Canoo其实2023年第三季度才开始有收入,甚至去年第一季度又“颗粒无收”。
而且这是Canoo的首份盈利财报,净利润为325.8万美元(约2386.6万元),但前三季度的累计亏损仍有1.12亿美元(约8.2亿元)。
最关键的是,克制季度末,Canoo账上的现金只剩下1600万美元,折合人民币大约是1.2亿元。
短期内,假如不能获得充足的资金支持,Canoo将不得不担当破产的命运,但事实,恰恰就是他们最不想看到的那样。
Canoo表现,由于未能获得美国能源部 (DOE) 贷款,与外国资本的会商也没成功,公司资金链彻底断裂。
事到如今,这家顶峰市值21亿美元(约154亿元)的造车新势力,最新股价只剩1.35美分,折合人民币连一毛钱都不到。
滑板底盘鼻祖,造车这一路
成立于2017年的Canoo,是滑板底盘赛道的代表性玩家。
创始人斯特凡·克劳斯(Stefan Krause)和乌尔里希·克兰茨(Ulrich Kranz),都是车圈老炮,还都出身宝马。
克劳斯善于财政,曾经担任过宝马和德意志银行的首席财政官;克兰茨曾是宝马i3系列车型的项目主管,被称为“宝马i系列之父”。
△左:斯特凡·克劳斯;右:乌尔里希·克兰茨
而且两人都曾是贾跃亭的部下干将,担任过法拉第将来(FF)的CFO和CTO。
离开FF后,他们发现了滑板底盘的商机,一拍即合建立了Canoo。
所谓滑板底盘,就是一种专门为电动车筹划的一体化底盘架构,将电池、传动系统、悬架等汽车部件,直接整合到一个通用底盘上。
其优势在于取消机械连接,车舱可以保留更多空间,而且同一个底盘,能够机动适应差别大小的车辆类型,从而提升整个汽车产物系列的可扩展性。
目前为止,Canoo推出的四个系列车型,就都是基于自研的滑板式底盘打造。
一款是2019年面世的旗下首款电动车MPV,还有一款皮卡、一款轿车,以及生活方式送货车LDV。
车造出来了,接下来该思量的就是卖给谁。
Canoo的贸易模式,起初设想非常优美,他们筹划分身2B和2C市场,3条腿走路:
对于2B市场,一条线是与主机厂互助,直接为他们提供滑板底盘;另一条则是针对物流货运。
而在2C市场,Canoo提出了一个全新玩法——订阅模式:消费者在Canoo官方平台申请车辆,之后按月付费利用Canoo的车辆,类似于“短租”。
Canoo原本筹划把这种模式当作紧张的营收渠道,他们认为,既可以为消费者省去抵押、上牌等无形成本,公司也可以按需生产,降低制造成本,提升利润空间,岂不两全其美?
怎料,现实却并没有想象中的顺利。
主机厂普遍不太乐意把底盘业务交给别人,比如Canoo和现代汽车的互助项目,没多久就胎死腹中。
同时创新性的订阅模式也没搞起来,Canoo一度吸金困难,恰逢此时,CEO乌尔里希·克兰茨,跳槽去了苹果拓展汽车业务,连带着一场小型离职潮在Canoo爆发。
这种配景下,实验董事长托尼·阿奎拉(Tony Aquila),也是公司投资人,召开了分析师会议上,险些推翻了此前所有的贸易规划:
把订阅模式的收入占比,压缩到20%以下,重心面向货运领域的2B市场。
2022年,Canoo等到了一笔大单,沃尔玛宣布要购买4500辆Canoo LDV,用于配送在线订单。
但这也是Canoo一直到如今为止的最大订单,虽然Canoo还得到了美国邮政局和NASA的订单支持,但两者加起来的数目也只是9辆,不足以帮助Canoo力挽狂澜,也没法规模化降本。
云云,在接下来的几年,不仅是投资人逐渐失去信心,公司内部,曾经吸引来的创始高管,也都接连出走。
到2024年9月,伴随着汽车工程高级总监,克里斯托夫·库特纳 (Christoph Kuttner) 的离职,当初的9位联合创始人已全部离开。
Canoo已是形存神灭。
滑板造车,还能玩下去吗?
Canoo倒下,看起来像是对滑板底盘造车,再次敲响警钟。
细想之下,Canoo这些问题的症结,都在齐齐指向贸易模式。
不单单是Canoo自身的贸易模式,也是滑板式底盘赛道的贸易模式。
这个赛道第一个爆雷的Arrival,和Canoo类似,都走向了商用车门路,制造配送车、轻型货车卖给商超、物流商。
这样的模式,要面对着逃不开的困局,起首是这样的客户订单总量不大,因此难以规模化降低成本。
其次,滑板造车玩家并不提供自动驾驶技术,交付的车还是需要人类驾驶的车,但成本又远高于传统货车,乐意买账的人更加有限。
第二条门路,就是更为知名的Rivian选择的,乘用车门路,而且Rivian更倾向于整车生产,滑板底盘更多是一个标签。
不外,Rivian为了在北美市场活下来,首款产物险些集全部资源押注了皮卡车型,竞争压力也可想而知。
如今走下去,也需要源源不断的融资在后方燃烧,刚刚还向美国能源部申请了一笔66亿美元(约483亿元)的贷款。
但假如把视线放得更远,还存在一条门路,可以看向国内代表玩家,悠跑科技和PIX Moving。
他们的模式,紧张面向大客户,提供一体式底盘解决方案,更关键的是,他们面向的群体是中国。
悠跑创始人李鹏曾表现,国外玩家最大的战略错误,就是没来中国。
“你不来中国,拿不到全球最大电动汽车市场、全球最好供应链的支持,一定导致一个效果:交付不可。
我不认为滑板底盘不可,只是大家在贸易操作上有很严峻的问题。这件事(指滑板式底盘),我认为有且只有中国能做。”
上个月,就在Canoo关厂“裁员”的同时,悠跑刚刚完成了B轮融资,由合肥领投,徐州产发基金、以及博世团体旗下博原资本跟投,筹集到了数亿元人民币。
看起来,滑板底盘造车的将来,大概更多要看中国玩家了。
参考链接:
https://investors.canoo.com/news-presentations/press-releases/detail/159/canoo-inc-announces-chapter-7-bankruptcy-filinghttps://electrek.co/2025/01/18/another-one-bites-the-dust-as-canoo-files-for-chapter-7-bankruptcy/
#GaussianWorld
清华提出高斯天下模子
以视觉信息作为输入的3D占用预测使命近来因其在自动驾驶中的关键应用而受到来自工业界和学术界的广泛关注。3D占用预测使命旨在根据视觉输入估计 3D 情况中每个体素的占用状态和语义标签。该使命提供了更细粒度的场景语义和结构描述,这对于开辟安全且强盛的自动驾驶系统非常紧张。
利用时间输入对于 3D 占用预测非常紧张,由于它为理解场景演变提供了充足的历史上下文信息。大多数现有方法遵照传统的感知、转换和融合流程,给定序次输入信息,感知模块独立获得每个帧的场景表现,比方BEV特征以及体素特征。然后,转换模块根据自车轨迹对齐多帧的时序特征信息,融合模块融合对齐的特征表现以推断当前的 3D 占用情况。
然而,这些方法未能思量驾驶场景演变的固有连续性和简朴性。相邻帧中的驾驶场景表现应该彼此紧密相关,由于场景演变通常仅源于自车和其他动态物体的运动。直接融合多帧表征会忽略 3D 场景演化提供的这种强先验信息,即静态物体连贯性和动态物体运动,这使得模子很难理解驾驶场景的发展。此外,这种筹划增长了时间建模的复杂性和计算工作量,从而降低了其效率和有效性。
思量到上述提到的相关问题,在本文中,我们探索基于天下模子的范式以利用场景演变举行感知,该算法称为GaussianWorld。GaussianWorld接纳显式 3D 高斯作为场景表现,而不是传统的隐式 BEV/Voxel 表现,这可以实现物体运动的显式和连续建模。给定历史 3D 高斯和当前视觉输入,GaussianWorld算法模子旨在预测场景如何演变并预测当前的占用情况。
为了证实提出的GaussianWorld算法模子的有效性,我们在流行的nuScenes数据集上举行了大量实验。如下图所示,我们的 GaussianWorld 可以有效地预测场景演变,并在不引入额外计算的情况下将单帧占用率预测进步 2% 以上(mIoU)。
论文链接:https://arxiv.org/pdf/2412.10373
网络模子结构&技术细节
World Models for Perception
精确感知 3D 场景对于开辟可靠的自动驾驶系统至关紧张。它旨在预测 3D 场景的几何形状和语义,以支持后续的预测和规划使命。感知模子利用前帧和当前帧的传感器输入来获得感知效果。
感知使掷中的时间建模的传统流程包括三个阶段,分别是感知、转换和融合。感知模块起首独立提取每一帧的场景表现。随着自车的进步,跨帧的自车表现会错位。转换模块通过根据自我轨迹将过去的特征与当前帧对齐来解决此问题。然后,融合模块整合对齐的多帧表现以供感知进利用用。传统的流程可以表述为如下的公式情势。
只管该框架的性能取得了较为不错的成绩,但它未能思量驾驶场景固有的连续性和简朴性。驾驶场景的演变通常仅源于自车和其他动态物体的运动。相邻帧中的驾驶场景表征本质上是相关的,包含了天下的演化动力学和物理定律。然而,直接融合多帧表征会忽略这种强先验信息,从而限定其性能。
受此启发,我们探索了一种基于天下模子的范式,以利用场景演化举行感知。天下模子通过学习简朴但有效的时间建模先验来增强感知。我们利用感知天下模子根据先前的表现和当前的传感器输入预测当前的表现,具体的表现情势如下
我们进一步将 3D 感知使命重新表述为以当前传感器输入为条件的 4D 预测问题,其表述情势如下
通过获得预测的场景表征和下一个观察值后,我们可以将它们输入到天下模子中,以流式方式预测下一个表征。天下模子根据场景演变和当前观察值学习场景表征的联合分布,最终用于实现感知。
Explicit Scene Evolution Modeling
驾驶场景的演化一样平常简朴且连续,紧张由动态物体的运动引起。当在肯定范围内接纳以自车为中央的场景表现时,场景演化通常可以分解为三个关键因素:静态场景的自我运动对齐,动态物体的局部运动,新观察区域的补全。通过对这些因素举行建模,天下模子可以学会有效地演化场景,如下图所示。
思量到上述场景演化的分解,我们接纳 3D 高斯作为场景表现,以明确和连续地对场景演化举行建模。我们用一组稀疏的 3D 语义高斯来描述 3D 场景,其中每个高斯代表一个具有明确位置、比例、旋转和语义概率的机动区域。为了学习场景演化,我们引入了一个额外的时间特征属性来捕获 3D 高斯的历史信息。3D 高斯表现可以表述为如下的公式情势。
我们进一步提出了一个 3D 高斯天下模子,GaussianWorld,以利用场景演化举行感知。提出的 GaussianWorld 对之前的 3D 高斯和当前的传感器输入举行操作,以预测当前的 3D 高斯。
接下来,我们将先容 GaussianWorld 如何在三维高斯空间中对上述场景演化的分解因素举行建模。
(1)Ego Motion Alignment of Static Scenes.
GaussianWorld 的目的是基于之前的高斯效果预测当前的3D高斯,每帧的 3D 高斯表现代表以相应帧的自车位置为中央的肯定范围内的场景,向前移动会导致物体的全局位移。GaussianWorld 通过利用对齐模块来对齐从上一帧到当前帧的 3D 高斯位置来解决此问题。为了实现这一点,它基于自车轨迹对整个场景的 3D 高斯举行全局仿射变更。情势上来看,给定最后一帧 3D 高斯和仿射变更矩阵,对齐的 3D 高斯可以表现为如下的公式情势。
(2)Local Movements of Dynamic Objects
我们还思量了场景演变过程中动态物体的局部运动。GaussianWorld 通过更新动态高斯函数的位置来实现这一点。对齐的 3D 高斯函数根据其语义概率分为两个互斥集,分别是动态高斯集合和静态高斯集合。然后,GaussianWorld 利用运动层来学习对齐的 3D 高斯的联合分布和当前观察效果,以预测动态高斯的运动。
(3)Completion of Newly-Observed Areas
当自车移动到新位置时,某些现有区域会超出界限,而一些新区域则变得可观察。我们丢弃超出界限的高斯函数,并利用随机初始化的高斯函数补全新观察到的区域。为了保持一致数目的 3D 高斯函数,我们在新观察到的区域中均匀采样等量的 3D 高斯函数。随后,GaussianWorld 利用感知层根据当前观察预测新观察区域中已补全的 3D 高斯分布的所有属性。
3D Gaussian World Model
接下来,我们先容一下本文提出的GaussianWord的整体框架。从前一帧的 3D 高斯开始,我们起首应用对齐模块来获取当前帧的对齐 3D 高斯。在新观察到的区域中,我们采样额外的 3D 高斯并将其当前帧的3D高斯举行混淆,从而一起描述整个场景。
我们基于当前传感器的输入数据,利用运动层和感知层来更新对齐的3D高斯以及最新观察到区域的3D高斯。值得留意的是,这两层共享相同的模子架构和参数,即编码器模块和细化模块,从而允许它们集成到同一的演化层中并并行计算。这种筹划确保GaussianWorld 保持模子简朴性和计算效率。我们堆叠多个演化层以迭代地细化 3D 高斯函数,使模子具有充足的能力来学习场景演化
此外,为了解决 3D 高斯表现与现实天下之间的潜在不一致问题,我们加入了别的的细化层来微调 3D 高斯的所有属性
演化层和感知层之间的唯一区别在于历史高斯的哪些属性被调解。这种调解可以归并到同一的细化块中,如下图所示。因此,两个层都可以集成到同一的高斯天下层中。
我们接纳交叉熵损失和 lovaszsoftmax损失举行训练,起首在单帧使命上对我们的模子举行预训练。然后我们利用流式训练计谋对模子举行微调,其中每个场景的图像按序次输入到模子中。在每次训练迭代期间,将当前帧图像与上一帧中预测的 3D 高斯相联合输入到模子中举行 3D 占用预测。当前帧中预测的 3D 高斯将通报到下一次迭代举行连续流式训练。在流式训练的早期阶段,模子还不能熟练地预测场景的演变,导致流式预测误差很大。为了增强训练稳定性,我们从短序列开始训练,并在整个训练过程中逐渐增长序列长度。我们利用概率建模,并在每次迭代中以的概率随机丢弃前一帧的 3D 高斯表现。随着训练的进展,我们逐渐降低的值,使模子能够适应预测更长的序列。
实验效果&评价指标
我们对 nuScnene 验证集上以视觉为中央的 3D 语义占用预测方法与其他开始进方法举行了全面比较,并利用 SurroundOcc 的占用标签,相关的实验效果如下表所示。
对于 GaussianWorld 的第一个训练阶段,我们在单帧设置中复现了 GaussianFormer,记为 GaussianFormer-B。仅利用 25600 个高斯函数,它就实现了与当前开始进的方法相当的性能。由于此基准上缺乏时序建模方法,我们引入了 GaussianFormer 的时序融合变体以举行公平比较,记为 GaussianFormer-T。经过第二阶段的训练,我们的 GaussianWorld 的表现远胜于所有单帧模子和基于时序融合的 GaussianFormer。与单帧模子 GaussianFormer-B 相比,它的语义 mIoU 进步了 2.4%,几何 IoU 进步了 2.7%。此外,GaussianWorld 的表现也优于时间融合模子 GaussianFormer-T,mIoU 增长了 1.7%,IoU 增长了 2.0%。这些效果凸显了我们基于天下模子的感知框架优于传统的时序融合方法。相关的可视化效果如下图所示。
我们对基于 GaussianFormer 的差别时序建模方法的性能和效率举行了比较。我们探索了两种实现 GaussianFormer-T 的方法,分别在 3D 高斯空间和透视视图空间中举行时序融合。对于前者,我们独立提取每帧的 3D 高斯表现,并利用 4D 稀疏卷积来促进跨帧 3D 高斯之间的时序交互。对于后者,我们独立提取每帧的多尺度图像特征,并接纳可变形留意机制来实现当前帧的 3D 高斯和来自差别帧的图像特征之间的交互。相关的实验效果指标如下所示。
我们的 GaussianWorld 远远超越了所有其他时序建模方法,而且显著降低了延迟和内存消耗。值得留意的是,与单帧模子相比,我们的 GaussianWorld 在推理延迟和内存消耗险些相同的情况下显著进步了性能。这归功于我们同一而简洁的模子架构,它可以处置惩罚单帧输入和流式输入,而无需引入额外的计算。
此外,我们的 GaussianWorld 明确地模拟了基于天下模子的感知场景演化的三个分解因素。为了评估这些因素的影响,我们举行了消融研究以确认其有效性,相关额实验效果如下表所示。
下表也展示了利用差别流长度时,我们的 GaussianWorld 的 mIoU 和 IoU 性能。我们观察到,流式传输更多帧通常会带来更好的性能,但在大约 20 帧后会略有降落。改进源于我们对场景演变的建模,有效地思量了历史帧。
我们也探讨差别流媒体训练计谋的影响,相关的实验效果汇总在下面的表格中。
结论
在本文中,我们提出了一个基于天下模子的框架,利用场景演化举行 3D 语义占用预测。我们将 3D 占用预测重新表述为以当前传感器输入为条件的 4D 占用预测问题。我们将场景演化分解为三个因素,并利用 3D 高斯举行显示建模。然后,我们利用GaussianWorld 来显式地利用 3D 高斯空间中的场景演化,并以流式传输的方式促进 3D 语义占用预测。大量的实验效果表明,与现有方法相比,我们的模子在不引入额外计算开销的条件下,展示了SOTA的性能。
#HoloDrive
用于自动驾驶的整体2D-3D多模态街道场景生成 !
生成模子显著提升了自动驾驶领域的相机图像或激光点云生成和预测质量。然而,现实中的自动驾驶系统通常利用多种输入模态,包括相机和激光雷达,这些传感器提供的信息互补,有助于生成更加准确的效果。
现有的生成方法忽略了这一关键特征,导致生成效果只能覆盖单独的2D或3D信息。为了弥补2D-3D多模态联合生成的空缺,本文提出了一种名为HoloDrive的框架,旨在联合生成相机图像和激光点云。
作者在这两个异构生成模子之间接纳了BEV-to-Camera和Camera-to-BEV转换模块,并在2D生成模子中引入了一个深度预测分支,以消除从图像空间到BEV空间的未投影歧义,然后通过添加时间结构并精心筹划逐步训练方法来预测将来。
此外,作者在单帧生成和天下模子基准测试中举行了实验,并展示了作者的方法在生成指标上显著优于当前最佳方法。
1. Introduction
生成模子因其能够理解数据分布并生成内容的能力而获得了广泛关注,在图像和视频生成[1]、三维物体生成[16, 48]以及编辑[13]等领域取得了显著进展。在仿真领域,生成模子展现了创建传神场景的巨大潜力,这对于训练和评估类似于自动驾驶车辆的安全关键型实体智能体[11, 44]至关紧张。这一能力减少了对昂贵的手动现实天下建模的需求,促进了广泛的闭环训练和场景测试。此外,天下模子正在逐步探索中以理解和预测现实天下的动态特性,这对于仿真场景和视频生成至关紧张。
只管在自主驾驶领域的条件图像和视频生成方面取得了进展,现有方法紧张集中在单一模态上,要么利用2D数据([44, 53]),要么利用3D数据([48, 52])。然而,一个真正具备能力的自主驾驶系统通常会整合多种传感器,包括相机和激光雷达。相机提供了丰富的纹理和语义信息,而激光雷达则提供了精确的三维几何细节。
这两种模态的联合可以进步感知准确性,由于它们互为补充([20, 24])。目前,联合模态生成的研究还非常初步。BEVWorld([51])举行了一些探索,但其生成的质量和可控性仍旧难以与单模态领域的最新方法(SOTA)相媲美。
作者提出了一种全面的2D-3D生成框架HoloDrive,用于自动驾驶,该框架将街道视角下的2D和3D生成同一在一个高效的整体框架中。HoloDrive能够联合生成多视图摄像头和LiDAR数据,如图1所示。作者的框架扩展了开始进的2D和3D生成模子,使基于文本和界限框/地图条件生成真实街道场景成为大概。
为了实现联合2D和3D生成,作者起首在2D生成模子中引入一个深度预测分支,并从3D LiDAR自然地获得监督信号。在此底子上,作者接纳一种高效的BEV到Camera变更来对齐3D和2D空间,并引入一种Camera到BEV模块,该模块将丰富的2D语义先验信息引入到3D空间中。这些跨模态结构在生成过程中促进了两种模态之间的有效信息交换,并使整个模子能够端到端地训练。作者将联合pipeline应用于单帧生成和视频生成使命,并接纳渐进式训练方法,联合视频域的额外多使命学习,以实现训练阶段的平滑过渡。
作者在NuScenes数据集[3]上举行了实验,该数据集提供了配对的多视图相机图像、LiDAR点云、文本描述以及地图布局等信息。作者的效果显示,通过整合联合2D-3D建模,HoloDrive在生成多视图相机图像和LiDAR点云的单帧及序列数据方面到达了业界最佳性能。
本文的紧张贡献总结如下:
- 作者提出了一种新型框架HoloDrive,能够在给定文本和布局条件的情况下,联合生成在二维和三维空间中一致的多视图相机图像和LiDAR点云。作者 Proposal 在二维生成中增长额外的深度监督,并应用高效的Camera-to-BEV变更模子来对齐二维和三维空间,从而增强联合二维-三维生成建模能力,并进一步扩展到视频生成中。
- 作者的方法在生成质量上表现出色,能够忠实地遵照给定的条件以及实现二维-三维一致性,同时在单帧和视频生成方面都到达了开始进的性能。
2. Related Work2.1. Image Generation
图像生成是生成建模中最根本的话题之一,已经探索了各种方法。其中,通过逆向迭代随机过程来建模图像生成的扩散模子因其在竞争性训练稳定性和生成质量方面的优势越来越受到关注。造成这种征象的缘故原由在于扩散模子中的精心筹划选择,包括通过自动编码器[34]或级联模子[35]降低预测分辨率、更好的噪声调度器、无分类引导以增强控制能力等。近来,一些研究工作成功地将Transformer[42]在NLP领域中展示出的缩放能力转移到扩散模子中。
与自然图像相比,自动驾驶(AD)领域的图像存在固有的差别,即整洁的场景结构和多样的物体。为了弥补这些差别,利用布局信息来引导生成。比方,BEVGen [38] 通过将所有布局投影到BEV空间来参考3D信息。相反,BEVControl [50] 则是从将3D坐标投影到图像视图开始,构建二维几何指导,而MagicDrive [6] 联合了这两种方法的优点。近来,Drive-WM [44] 将像素 Level 的布局信息转移到潜在空间,并依靠同一嵌入来关注它们。作者的方法在此底子上进一步改进,引入了点云协同作用。
2.2.LiDAR Generation
LiDAR 点云生成近年来得到了探索,这是一项属于三维点云生成的使命。早期的工作利用变分自编码器(VAE)[18] 或生成对抗网络(GAN)[7] 对点云举行无条件生成 [2, 36]。LiDARGen [54] 利用了得分匹配能量模子,并从纯噪声中生成点云,视角接纳球面投影图。为了更好地保持 LiDAR 场景的结构和语义信息,UltraLiDAR [48] 初次提出利用离散表现来建模 LiDAR 的分布。他们训练一个 LiDAR VQ-VAE [41] 来学习离散表现,并利用双向 Transformer [4] 学习 LiDAR 场景离散 Token 的联合分布。
关于点云预测,一些方法利用过去 LiDAR 扫描来预测将来点云,在时间动态建模上基于 LSTM [45]、随机序列潜在模子 [46] 或三维空间时序卷积网络 [29]。4DOcc [16] 选择预测一个通用的将来三维占用量级数目,而不是直接预测将来点云。Copilot4D [52] 探索了将来 LiDAR 预测中的离散扩散模子,并联合了单一帧预测、将来预测和联合建模的训练目的。RangeLDM [12] 通过去噪 LiDAR 范围图的潜在特征来举行生成,并将这些图像通过霍夫投票投影到点云上以确保高质量的表现。然而,这些方法仅思量了 LiDAR 点云的先验信息,缺乏语义和感知信息。在本工作中,作者提出的 HoloDrive 同时利用二维图像和三维点云的先验信息,促进了高质量点云的生成。
2.3. Joint Generation
BEVWorld [51] 初次实验了相机和LiDAR联合生成,并提出了一种利用潜变量自动编码器内部射线投射模块的同一BEV潜在表现,然后通过降噪生成同一的BEV潜在表现。
然而,这种新筹划的潜在空间并未用大规模数据举行训练,因此图像生成质量仍难以与基于大规模预训练模子微调的方法(如SD)相对抗。作者提出的HoloDrive 在有效利用预训练图像生成模子的能力底子上,实现了2D-3D联合生成,并在生成质量上到达了最佳程度(SOTA)。
2.4.PredictiveWorldModel
预测天下模子,利用广义预测模子从序列数据中学习,为在视觉领域再现大语言模子(LLM)[39] 的巨大成功提供了潜在途径。在视觉领域,预测模子可以被视为视频生成的一种特别情势,以往观察数据作为指导。进一步缩小至自动驾驶(AD)领域,DriveGAN [17] 和 GAIA-1 [11] 通过动作条件下的视频扩散模子学习了一种通用的驾驶视频预测器。
DriveDreamer [43] 引入了额外的三维条件和渐进式训练计谋。GenAD [49] 通过构建更大的数据集来扩大模子规模。为了进一步进步预测能力,ADriver-I [14] 利用了大语言模子生成的抽象信号,比方动作和速度。
只管上述方法紧张从单目视频中学习,但近来,Drive-WM [44] 和 DriveDreamer-2 [53] 扩展了学习资源,涵盖了多视图视频。只管这些方法取得了竞争性的效果,但仍不清楚这些模子是否 Aware 到三维天下。在此项工作中,作者开创了一条路径,旨在协同生成多视图视频和点云数据。
3. Method
图2展示了所提出Pipeline的整体框架,该Pipeline能够联合预测多视图视频和将来LiDAR点。除了根本的2D和3D生成模子外,还提出了两种新奇的跨模态结构:2D到3D结构和3D到2D结构,以实现两种模态之间的交互,并共同提升视频(或图像)和LiDAR生成的质量。对于多模态数据和模子, superscript 表现摄像头,superscript 表现LiDAR。
3.1. Multi-view Image Generation
作者方法中的根本图像生成Pipeline遵照SD 2.1 [34]。给定原始图像 ,其中为视图索引,和分别为图像的高度和宽度,作者得到图像潜在特征 ,其中 是VAE编码器。它从随机高斯噪声 开始,通过U-Net模子 迭代去除噪声 步,最终得到干净的图像潜在特征 。跨视图留意力。鉴戒Drive-WM [44]的做法,在扩散U-Net中的每个空间留意力块之后插入跨视图留意力块以实现多视图一致性。跨视图留意力块担当U-Net空间块的输出,并在差别视图间应用自留意力机制,然后通过可学习的混淆器将输出归并回其输入中。
作者利用训练目的来训练模子。
3.2.LiDAR Generation
作者的方法通过离散表现学习生成LIDAR点云[41]。作者根据UltraLiDAR[48]训练了一个类似VQ-VAE的分词器。给定一个LIDAR点云观测值,作者利用编码器-解码器模子对其举行量化和重构。编码器是一个PointNet[32],后跟多个Swin Transformer块[25],将点云转换为BEV潜在特征,编码器的输出经过量化层以获得离散的tokens。解码器包含多个Swin Transformer块以及附加的可微深度渲染分支[52],用于 Voxel 重建。在推理过程中,当离散token解码为点云时,利用空间 Shortcut [52]来加速采样。
作者随后训练一个生成模子,能够生成多样化的 LiDAR 点云。差别于 UltraLiDAR [48] 只有条件无地生成 LiDAR 点云,作者提出了一种基于多通道 BEV 特征 (e^{(l)}) 的生成模子。BEV 条件特征可以是从数据集标注直接投影的 3D 方框和高清地图条件,也可以是从二维生成网络特征图中转换来的跨模态条件。训练目的界说为通过交叉熵损失重建原始输入。
VAE的程度通常为8。该网络的输出为,其中表现深度区间数目。给定深度预测和投影点云作为Ground Truth,作者计算深度损失,它是一个简朴的交叉熵损失。
。作者的3D到2D模块将3D特征投影到2D视图上。具体来说,作者起首为每个相机创建一个类似漏斗形的点云。每个点是从其图像空间齐次坐标乘以其深度区间的现实距离计算得出的。通过解方程
在其中, 是通过 Mask 的鸟瞰图 Tokens,而 具有两个方向来建模 LiDAR Tokens 的分布,而且包含 Swin Transformer 块 [25]。作者接纳了类似于 MaskGIT [4] 中采样过程的 LiDAR Tokens 采样算法,在该过程中,第 次迭代中的 Mask Tokens 数目 遵照一个 Mask 调度器 ,而且 通过深度渲染的 tokenizer 解码器 被解码成 LiDAR 点云。
3.3. Joint Generation of Camera and LiDAR
如图2(c)和(d)所示,用于2D模子与3D模子之间交互的结构包括两个单向跨模态转换模块和一个深度监督模块。前者旨在进步生成元素的质量和跨模态一致性,而后者则有助于更好地举行3D感知。
深度监督。作者遵照BEVDepth [19]的方法,利用U-Net下采样块提取的图像特征来估计深度。所有下采样块的输出特征被调解到,然后举行拼接,其中表现缩放比例,在此尺度上,表现相机内参矩阵,表现从激光雷达空间到相机空间的旋转矩阵,表现从激光雷达空间到相机空间的平移向量,而则是在激光雷达空间中的椎体状点云。随后,作者利用抽样LiDAR生成模子的隐蔽状态,并沿深度维度加权求和,最终得到。作者接纳一个轻量级的 Adapter [30] 注入这些抽样特征。类似地,类似于从二维到三维的部门,作者将投影特征与二维条件特征拼接在一起,形成更新版本的同一二维条件特征,作为式1中的更新版本。
转 . 作者提出了一种新奇的 到 模块,该模块将来自 多视角生成模子的先验知识聚合到 空间中,从而提供周围情况的语义信息。作者利用点云池化操作(参照 BEVDepth [19]),将 模子中的多视图中心特征,即噪声潜特征,转换为 空间中的嵌入表现 。在训练过程中,依据公式 (1),作者从 U-Net 块中获取给定 条件下时间步长 的多视图中心特征 。利用权重 ,空间中的特征通过点云池化被转换为 BEV 空间的嵌入 。
联合训练与推理。作者基于所有训练目的之和举行联合训练阶段的优化,并通过平衡权重、和来举行优化。
4. Experiments
Temporal Modeling
时间生成架构。为了构建具有多模态视频生成的天下模子,作者通过在空间留意力层之后插入时间留意力层的方法来建模时间信息,参考了Drive-WM [44] 的做法。此外,作者也遵照Copilot4D [52] 的筹划,在3D视频生成器中引入了一个因果 Mask 。
联合天下模子。给定过去的观测值 和 ,长度为 ,作者训练模子以预测将来 帧对应的观测值 和 。损失可以通过对所有 帧上的联合训练损失 举行均匀来计算。作者扩展生成器的输入至真值和噪声图像潜在变量的拼接,即 ,其中 表现添加噪声的步骤, 是 2D U-net 的输入,而 是一个长度为 的二元 Mask ,用于在最后 帧中遮挡真值潜在变量。这里为了简化起见省略了时间索引。在三维方面,作者直接用真值更换 Mask Token 以使预测使命得以举行。
多使命训练计谋。作者的训练方法类似于近来的生成模子[5],即作者起首在单一模态使命上预训练模子,然后再针对联合训练使命举行微调。在联合训练阶段,模子被强制利用布局条件(比方,3D Box 条件)和交互条件,而前者的预训练则完全在早期阶段完成。为了解决这一问题,作者在联合训练阶段提出了条件性舍弃计谋。具体来说,在联合训练阶段,作者随机抑制单一模态中的布局条件。由于条件仅来自一个模态,因此模子自然被强制实验跨模态学习。另一个对作者渐进式训练产生紧张影响的因素是单一模态训练与联合训练之间的差距。作者发现,在交互方面的简朴舍弃计谋充足有效,这意味着联合训练阶段大概以肯定的速率回到单一模态训练阶段。联合上述两种计谋,作者的联合训练阶段可以视为举行多使命学习,在实验部门,作者展示了这一点对视频生成联合训练的紧张性。
4.1. Settings
数据集。作者的实验基于NuScenes [3] 数据集,由于该数据集包含了多视角图像、激光点云、场景描述文本、框标注以及地图信息。该数据集包含用于训练的700个视频和用于验证的150个视频,每个视频大约连续20秒,并包含约40帧关键帧。每帧关键帧包括由周围视图摄像头捕捉的6张图像和由激光雷达捕捉的点云。按照BEVFormer [22] 利用的规范,nuScenes中常见的10类三维物体用差别的颜色举行编码,并投影到图像空间。Baseline 方法。作者分别针对多视角图像生成和激光点云生成使命利用了 Baseline 方法。对于图像生成部门,作者将现有的一些多视角图像生成方法应用于自动驾驶场景以举行对比。对于激光点云部门,作者重现了UltraLiDAR [48] 并将其作为 Baseline 方法。
训练方案。作者设有三个训练阶段。第一阶段从SD 2.1开始,训练一个跨视图相机生成模子,并新增了关于跨视图、图像条件以及深度估计的模块。第二阶段从头开始训练LiDAR生成模子。第三阶段从前两个阶段继续训练联合生成模子。前两个阶段的实验在16块V100(32GB)GPU上举行,最后一个阶段则在8块A800(80GB)GPU上举行。图像被调解为的大小,只管保持原图像的比例。LiDAR点被限定在范围内。对于预测模子,作者利用长度为8的片断,过去观察的数目为4。条件丢弃率和联合丢弃率均设定为30%。
评价指标。生成的图像和视频通过Frechet Inception Distance (FID) [9]和Frechet Video Distance (FVD) [40]举行评估。作者接纳mAP(均匀均匀精度)来衡量生成的准确性,通过比较生成效果的GT位置和检测到的位置来举行丈量,并根据 Baseline 方法的评估规则选择BEVFusion [26]或BEVFormer [22]作为检测模子。生成的LiDAR点则通过Chamfer距离、L1误差(L1均值/中位数)、相对L1误差(绝对相对均值/中位数)举行评估,遵照4D-Occ [16]的做法。
4.2. Main Results
图像生成中的深度估计。深度对于图像和点云之间的跨模态信息转换至关紧张。图6展示了用作 Backbone 网络的扩散U-网络的深度估计能力。多视图图像生成。作者将作者的方法与其他多视图图像生成方法(包括目前开始进方法Drive-WM [44])举行了比较,发现作者的HoloDrive在所有 Baseline 方法中现实感最高,准确率仅次于Drive-WM。FID和mAPs的效果见表1。定性效果如图4所示。
单帧 LiDAR 生成。表3 显示了作者方法与最新的 LiDAR 生成方法 UltraLiDAR [48] 的量化比较效果。作者根据原论文的细节重新实现了无条件和有条件版本。作者报告了两种类型方法的效果: 和 (联合训练的 2D-3D)。3D 条件(3D 方框和高清地图)显著进步了 LiDAR 质量的各项评分。将 2D 模子中的 2D 特征整合到作者的 3D 模子中,显着提升了 C-D 度量、L1 均方误差和 AbsRel。最后,在 2D 和 3D 模子之间举行交互作用后,作者的方法展示了更好的 LiDAR 生成质量,如图5 所示例子中的点云细节中树木和建筑物的显示效果。
跨模态一致性。作者提出的一种联合2D-3D生成方法的一个显着优势在于跨模态的一致性。如图3所示,生成的2D多视图街道场景与3D激光雷达点云高度一致,这大概是由于训练和推理过程中两种模态之间频仍的交互所导致的。
LiDAR 预测。作者遵照 Copilot4D [52] 的实现细节来构建作者的三维天下模子。值得留意的是,在序列生成过程中,作者将ego车设为坐标原点,而非固定在一个参考系中。实验效果如表5所示,作者的重实现取得了与Copilot4D相类似的性能,而且优于先前的方法。
预测性天下模子。作者还与其他方法举行了比较。作者遵照了 Drive-WM [44] 的评估流程。特别地,对于 NuScenes 中的每个验证视频,作者以自回归的方式生成相应的 40 帧 [1],并选择其中 16 帧举行评估。效果如表2 所示。作者的方法在 DriveDreamer-2 [53] 上除了 FVD 之外优于其他方法,这在肯定程度上归因于 SVD 的利用:[53] 中的消融研究显示,仅仅将 SD1.5 更改为 SVD 可以显著降低 FVD,从 340.8 降至 94.6。
#25年1月理想MEGA有望初次月销超小鹏X9
整个2024年,MEGA任何一个月都比X9月销少。
MEGA 24年销量走势分为三个大阶段,3月首发交了3229后,连续4个月单调降落,自6月开始,假如9月卖得少点,相当于连续7个月单调上升。9月“异常”上升大概是由于当时8月尾9月初,新的置换补贴出台,导致9月异常猛了一把,单月销量处于理想历史第二高的程度,91011月,理想整体连续三月单调下滑,12月靠第一次推3年0息又“异常”猛了一把。
X9领先MEGA幅度,大致分为4个阶段
第一阶段MEGA首发期遇到X9第三个月交付,二者都在3月来到了年内交付最高点,X9领先MEGA 22.21%。
第二阶段 X9 维持了3个月领先MEGA120%,最高单月领先186%,这时的紧张驱动力是MEGA不断下滑,X9其实自己也在降,但MEGA降得太快了。
第三阶段 9-11月 X9领先MEGA 60%左右,既MEGA/X9在差距在缩小。紧张推动力是MEGA显着上升,X9微降。但还是可以认为X9销量显着好于MEGA。
第四阶段 12月 X9仅比领先MEGA 9.88% 可以认为范围于12月,二周销量同级别,紧张驱动力是MEGA暴增,X9微降。
由于理想12月有特别的对于自己而言首发3年0息政策,以是光看12月,我们还不能就断定MEGA销量就可以和X9同级别了。
但是25年头两周的上限数据,却显示MEGA有很大机遇在25年1月历史初次月销超X9。
此前,MEGA仅在12.9-15的时候周销超了X9 0.34%,但是25年的头两周MEGA周销却分别超X9 14.44%与29.46%。
MEGA1月头两周周销就是11月月初的程度,1月第二周有12月最后一周70%,这是一个较为异常的表现。X9 1月头两周低于11月程度,1月第二周为12月最后一周的40.6%,这是一个较为正常的跌幅。
可以认为,现阶段的数据显示MEGA处于一个良好趋势之中,不外看起来总量级别依然处于月销1000,暂时看不到月销2000。
处于高端MPV市占率很高,在高端MPV开始逐渐破圈,没有进一步破圈的状态。
作为对比L789的上升趋势是显着不如MEGA的,从MEGA跌入谷底的6月来看,不思量10月较9月的跌幅,L789都在8月11月都出现了环比降落。
而且MEGA 12月销量较9月提升了42.78%,L79 12月较9月仅分别提升3.42%,2.03%。L8提升了20.57%。L789一共提升了7.48%。可以定性描述L79 12月较9月险些没有提升,L8有提升,MEGA有显着提升。
从6月开始,L789环比趋势是完全一致的,合情推测L789销量影响因子是类似的。
而MEGA较L789走出了独立行情,导致这个的缘故原由大概是由于NPS发酵/MEGA参与了大量活动的官方赞助,既有品宣作用,又有利于获客。
#xxx
#xxx
#xxx
#xxx
#xxx
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。 |