(2025,Cosmos,天下基础模型 (WFM) 平台,物理 AI,数据处理,分词器,世
Cosmos World Foundation Model Platform for Physical AINVIDAI
https://i-blog.csdnimg.cn/direct/c0487305eeec41edaa584d84c764e002.png
目录
0. 择要
1. 介绍
2. 天下基础模型平台
5. 天下基础模型预练习
6. 天下基础模型后练习
6.1 用于相机控制的天下基础模型后练习
6.1.1 数据集
6.1.2 微调
6.1.3. 评估
6.2. 用于机器人操作的天下基础模型后练习
6.2.1 数据集
6.2.2 微调
6.2.3 评估
9. 结论与讨论
0. 择要
物理人工智能(Physical AI)需要首先在数字环境中举行练习。它需要自身的数字孪生(计谋模型)和天下的数字孪生(天下模型)。在本文中,我们提出了 Cosmos World Foundation Model Platform,以资助开发者为其物理人工智能系统构建定制的天下模型。我们将天下基础模型定位为一种通用的天下模型,可以通过微调转换为特定卑鄙应用的定制化天下模型。我们的平台包罗视频策划管道(video curation pipeline)、预练习的天下基础模型、预练习天下基础模型的后续练习示例以及视频分词器(tokenizer)。为了资助物理人工智能构建者解决社会中最关键的问题,我们将平台开源,并以宽松的允许协议开放模型权重。
1. 介绍
物理人工智能是一种配备了传感器和实行器(actuator)的人工智能系统:传感器使其可以或许观察天下,实行器使其可以或许与天下互动并对其举行修改。物理人工智能的潜力在于将人类从伤害、繁重或乏味的体力劳动中解放出来。尽管过去十年中,由于数据和计算能力的扩展,人工智能的多个领域取得了明显进展,但物理人工智能的发展却步履维艰。这主要是由于扩展物理人工智能的练习数据更加困难:所需数据必须包含观察与办法瓜代的序列,而这些办法会扰动物理天下,可能对系统和天下造成严重破坏。这种环境在人工智能的初期阶段尤为突出,由于此时探索性行为是须要的。天下基础模型(World Foundation Model,WFM)作为物理天下的数字孪生体(digital twin),可供物理人工智能安全交互,是解决数据扩展问题的一种长期寻求的方案。
https://i-blog.csdnimg.cn/direct/4384dd7f70d54ce88bda0893d65a727b.png
在本文中,我们介绍了用于构建物理人工智能的 Cosmos World Foundation Model (WFM) Platform。我们主要关注视觉天下基础模型,此中观察以视频的情势呈现,而扰动可以以多种情势存在。如图 2 所示,我们提出了一种 “预练习-后练习” 范式,将 WFM 分为预练习 WFM 和后练习 WFM。为了构建预练习 WFM,我们利用大规模视频练习数据集,使模型打仗到多样化的视觉体验,从而成为通用模型。为了构建后练习 WFM,我们使用从特定物理人工智能环境中网络的数据集微调预练习WFM,从而天生针对特定物理人工智能配置的专业化 WFM。如图 1 所示,我们展示了预练习和后练习 WFM 的示例结果。
https://i-blog.csdnimg.cn/direct/d6bee3091a174cf69ea728c65b428de6.png
https://i-blog.csdnimg.cn/direct/4a06b07cfd4d4c6d86c9e05c0f05a8b8.png
数据决定了人工智能模型的上限。为了构建高上限的预练习 WFM,我们开发了一个视频数据策划管道(video data curation pipeline)。
[*]我们使用该管道定位具有丰富动态和高视觉质量的视频内容,以促进学习视觉内容中编码的物理原理。
[*]通过该管道,我们从 2000 万小时的视频集中提取了约 1 亿段时长为 2 至 60 秒的视频片段。对于每个片段,我们使用视觉语言模型(VLM)为每 256 帧天生一个视频标题(caption)。
[*]视频处理计算成本高昂,因此我们利用当代 GPU 中可用的 H.264 视频编码器和解码器的硬件实现举行解码和转码。
[*]我们的视频数据策划管道还利用了许多预练习的图像/视频理解模型。由于这些模型的吞吐量不同,为了最大化可练习视频数据的总体天生吞吐量,我们构建了一个基于 Ray 的编排管道(Moritz等,2017)。详情见第 3 节。
我们探讨了两种构建预练习 WFM 的可扩展方法,这些方法在第 5 节中举行了讨论。
[*]这些方法分别是基于 Transformer 的扩散模型和基于 Transformer 的自回归模型。扩散模型通过徐徐从高斯噪声视频中去除噪声来天生视频。自回归模型则按照预设顺序,基于过去天生的视频片段徐徐天生新的视频。
[*]这两种方法都将复杂的视频天生问题分解为更简单的子问题,从而使其更易于处理。
[*]我们利用了当前最先辈的 Transformer 架构以实现可扩展性。
[*]在第5.1节中,我们提出了一种具有强大天下天生能力的基于 Transformer 的扩散模型设计。
[*]在第5.2节中,我们提出了一种基于 Transformer 的自回归模型设计用于天下天生。
基于 Transformer 的扩散模型和基于 Transformer 的自回归模型都使用 token 作为视频的表示,此中前者使用向量情势的一连 token,而后者使用整数情势的离散 token。
[*]需要注意的是,视频的 token 化过程——即将视频转换为 token 集的过程——并不简单。视频中包含丰富的视觉天下信息。
[*]然而,为了促进 WFM 的学习,我们需要将视频压缩为紧凑的 token 序列,同时尽可能保留视频的原始内容,由于 WFM 练习的计算复杂性随 token 数量增长。
[*]某种程度上,构建视频 tokenizer 雷同于构建视频编解码器。我们开发了一种基于注意力的编码器-解码器架构,用于学习一连和离散 token 的视频 tokenization 方法,具体内容详见第 4 节。
我们在第 6 节中通过微调预练习的 WFM 来天生适用于各种物理人工智能任务的后练习 WFM。
[*]在第 6.1 节中,我们微调了预练习的扩散 WFM,使其具备以相机姿态为条件的能力。这种后练习创造了一个可导航的虚拟天下,用户可以通过移动虚拟视点探索天生的天下。
[*]在第 6.2 节中,我们将 WFM 微调用于各种机器人任务,这些任务包含视频-动作序列。我们展示了通过利用预练习的 WFM,可以更好地猜测机器人执办法作后代界的将来状态。
[*]在第 6.3 节中,我们演示了怎样微调预练习的 WFM 以用于各种与自动驾驶相关的任务。
我们开发的 WFM 旨在服务于物理人工智能构建者。为了更好地保护开发者在使用天下基础模型时的安全性,我们设计了一个强大的防护系统,包罗一个 “预防护” 模块用于制止有害输入,以及一个 “后防护” 模块用于制止有害输出。具体细节详见第 7 节。
我们的目标是构建一个天下基础模型平台,资助物理人工智能开发者推进其系统的发展。为实现这一目标,我们通过 NVIDIA Cosmos 和 NVIDIA Cosmos Tokenizer 分别以 NVIDIA 开放模型允许证提供预练习的天下基础模型和 tokenizer。预练习脚本和后练习脚本将与视频数据策划管道一同在NVIDIA Nemo 框架中提供,资助开发者定制微调数据集。尽管本文活着界基础模型设计方面取得了多少进展,但这一问题仍远未解决。需要进一步的研究来推动最先辈技能的发展。
2. 天下基础模型平台
设 x_{0:t} 为从时间 0 到时间 t 的一系列真实天下视觉观察序列。设 c_t 为对天下的扰动。如图 3 所示,天下基础模型(WFM)是一个模型 W,用于基于过去的观察 x_{0:t} 和当前的扰动 c_t,猜测时间 t+1 的将来观察 x_{t+1}。在我们的环境下,x_{0:t} 是一段 RGB 视频,而 c_t 是可以采取多种情势的扰动。它可以是物理人工智能采取的动作、随机扰动、扰动的文本描述等。
https://i-blog.csdnimg.cn/direct/41189d198cc947b9b3ec1c7200705d21.png
https://i-blog.csdnimg.cn/direct/674f0e098e1b458984a44dcdfc7b628e.png
5. 天下基础模型预练习
预练习的天下基础模型是通用模型,可以或许捕获现实天下物理和自然行为的普遍知识。
[*]我们利用两种不同的可扩展深度学习范式,扩散模型和自回归模型,来构建两类天下基础模型。
[*]扩散模型和自回归模型都将一个困难的天生问题分解为一系列更易处理的子问题,并且不停在加速天生模型的发展。
[*]在扩散模型的环境下,困难的天生问题被分解为一系列去噪问题;在自回归模型的环境下,困难的天生问题被分解为一系列下一 token 猜测问题。
[*]我们讨论了怎样通过各种并行化技能,在我们构建预练习天下基础模型的过程中,利用当代 GPU 扩展这些深度学习范式。
[*]我们使用 10000 个 NVIDIA H100 GPU 的集群,在三个月的时间内练习了本文中陈诉的全部天下基础模型。
https://i-blog.csdnimg.cn/direct/40b0470c710a4e28bea2a1600fa07af6.png
https://i-blog.csdnimg.cn/direct/2048577b882d44588bcbf15230adc2e5.png
https://i-blog.csdnimg.cn/direct/75c22f9a58de4cf6b93d141aaa4d2f28.png
https://i-blog.csdnimg.cn/direct/b21da13957e34287a7c06b9b1bcbdba6.png
6. 天下基础模型后练习
在本节中,我们展示了怎样对我们的 Cosmos 天下基础模型举行微调,以支持多种物理 AI 应用。我们包罗了以下几个示例:通过相机控制对天下基础模型举行后练习,以实现 3D 可导航视觉天下的天生;在两种不同的机器人配置上举行后练习,以支持两种不同的机器人操作任务;以及通过多视角支持对天下基础模型举行后练习,以练习自动驾驶智能体。
https://i-blog.csdnimg.cn/direct/576959cd8ee0418bb0c1c78fdda4d1d5.png
6.1 用于相机控制的天下基础模型后练习
通过以相机姿势为条件,我们将相机控制集成到 Cosmos-1.0-Diffusion-7B-Video2World 中,使其成为一个有用的 3D 天下模拟器。我们将结果的后练习天下基础模型定名为 Cosmos-1.0-Diffusion-7B-Video2World-Sample-CameraCond。我们专注于从单一参考输入图像天生 3D 天下,通过相机控制从指定的相机轨迹天生时间同等且 3D 同等的视频模拟,此中视角的变革与场景的基础 3D 结构对齐。
6.1.1 数据集
[*]我们使用 DL3DV-10K(Ling et al., 2024),一个大规模的静态场景视频数据集,来完成这项任务。
[*]作为预处理步骤,我们将全部视频分割成包含 256 帧的片段。为了为片段中的全部帧麋集地获取相机姿势注释,我们使用 GLOMAP(Pan et al., 2025)对分割后的片段举行结构光束规复。
[*]我们将第一帧的相机姿势设置为单位变换(identity transform),并计算全部后续帧的相对相机姿势。
[*]我们还使用一个专有的 VLM 为视频添加标题(caption),以获取描述视频为静态场景的文本提示。
6.1.2 微调
我们通过将采样的潜伏嵌入与 Plücker 嵌入(Sitzmann et al., 2021)拼接,来添加相机控制条件,Plücker 嵌入的空间维度与潜伏嵌入(latent embeddings)相同。具体而言,给定相机姿势,我们通过以下公式计算 Plücker 坐标:
https://i-blog.csdnimg.cn/direct/8eab2b33bb1f4e1d90e4f00b8ed2ebea.png
此中 c 是相机中心位置,d 是每个潜伏像素的单位射线方向(此中潜伏嵌入被视为降采样后的图像)。全部相机姿势都相对于初始帧是相对的。Cosmos-1.0-Diffusion-7B-Video2World 模型使用的 Cosmos-1.0-Tokenizer-CV8x8x8 具有 8 倍的时间压缩率,因此对于每 8 帧,我们使用第 4 帧的 Plücker 嵌入与相应的潜伏表示拼接。
我们将练习视频的输入帧大小调整为 704×1252,并通过反射填充它们到 704×1280。在练习期间,我们采样 57 帧。练习目标和其他超参数与基础扩散天下基础模型练习(第 5.1.3 节)相同。
6.1.3. 评估
我们假设给定了一个天下的单一参考图像,并从该输入图像天生将来的滚动视频(rollout)。我们与 CamCo(Xu et al., 2024),在这种设置下用于相机可控视频天生的最新模型举行比较。为了公平比较,我们使用了同样在 DL3DV-10K(Ling et al., 2024)练习集上微调过的 CamCo 模型。由于我们的后练习天下基础模型天生 57 帧,而 CamCo 只能天生 14 帧,我们比较了相同的 57 帧轨迹,此中我们将 CamCo 的帧数按时间下采样为 4 倍。CamCo 天生的视频分辨率限制为 256 × 256。我们还最大限度地对输入图像和测试帧举行中心裁剪以举行评估。
https://i-blog.csdnimg.cn/direct/ca327c1eead64004a289221df6751f59.png
https://i-blog.csdnimg.cn/direct/148a024bfae54c1081cce6ecd614f0b5.png
https://i-blog.csdnimg.cn/direct/9b0a58db48da4a8e8666177bb2667d2d.png
6.2. 用于机器人操作的天下基础模型后练习
天下基础模型具有作为机器人操作的强大规划者和模拟器的潜力。在这里,我们展示了怎样针对两个任务微调我们的预练习天下基础模型:
[*]基于指令的视频猜测(instruction-based video prediction):输入是机器人当前的视频帧以及文本指令,输出是猜测的机器人根据指令实行的操作视频。
[*]基于动作的下一帧猜测(action-based next-frame prediction):输入是机器人当前的视频帧以及当前和下一帧之间的动作向量,输出是显示机器人实行指定动作结果的下一帧。给定一系列动作,模型可以自回归地运行,猜测机器人实行给定动作的视频。
6.2.1 数据集
我们为上述两个任务创建了两个数据集。
对于基于指令的视频猜测,我们创建了一个内部数据集,名为 Cosmos-1X 数据集。
[*]该数据集包含约 200 小时由 EVE(1x.Tech 的类人机器人)拍摄的自我中心(egocentric)视频,涵盖了多种任务,包罗导航、折叠衣物、清洁桌面、捡起物体等。
[*]从原始视频中,我们选取了约 12,000 个时长从 1 秒到 9 秒不等的片段。每个片段都带有一个一句话指令,之后通过专有的 VLM 举行上采样。视频的拍摄帧率为 30 FPS,分辨率为 512 × 512。
对于基于动作的下一帧天生,我们使用了一个名为 Bridge(Ebert et al., 2022)的公开数据集,并使用与先前工作(Zhu et al., 2024)相同的配置举行比较。
[*]Bridge 数据集包罗约 20,000 个第三人称视角的视频片段,展示了机器人臂在厨房环境中实行不同任务的视频,分辨率为 320 × 256,帧率为 5 FPS。
[*]对于每个视频帧,相应的动作被界说为在抓取器坐标空间中的一个 7 维向量(Δ
页:
[1]