ToB企服应用市场:ToB评测及商务社交产业平台

标题: 陈巍：Sora大模子技术精要万字详解（上）——原理、关键技术、模子架构详解 [打印本页]

作者: 欢乐狗 时间: 2024-6-15 01:57
标题: 陈巍：Sora大模子技术精要万字详解（上）——原理、关键技术、模子架构详解
目录

收起
1 Sora的技术特点与原理
1.1 技术特点概述
1.2 时间长度与时序一致性
1.3 真实天下物理状态模仿
1.4 Sora原理
1.4.1扩散模子与单帧图像的生成
1.4.2 Transformer模子与连续视频语义的生成
1.4.3 从文本输入到视频生成
2 Sora的关键技术
2.1 传统文生图技术的回首
2.2 数据的同一表现与时空潜图块（Spacetime Latent Patches）
2.3 多尺寸视频视频输入处置惩罚
2.4 视频压缩网络
2.5 时长扩展技术
2.6 安全
延伸阅读：
本文从Sora的特点和原理开始，从“专业+科普”的角度详解Sora的关键技术与模子架构，适用于T2V/V2V技术入门和相干投资范畴的读者。
主编作者陈巍，高级职称，曾担任华为系相干自然语言处置惩罚（ NLP ）企业的首席科学家，大模子算法-芯片协同设计专家，国际计算机学会（ACM）会员、中国计算机学会（CCF）专业会员。主要研究范畴包括大模子（Finetune、Agent、RAG）、存算一体、GPGPU。
本文为全文的上篇，重点介绍Sora技术特点、原理与关键技术。

2023下半年到2024第一季度，AI视频生成范畴出现了显着的发作趋势。在Open AI的Sora之前，Runway ML的Gen-2、谷歌的Lumiere、Stable Video Diffusion等技术或产品连续登场，一起为Sora的横空出世铺平了道路。
对Open AI来说，通过人工智能理解和模仿运动中的物理天下，可以帮助人类解决必要现实天下交互的各种使命或题目，这也是Open AI练习Sora这类T2V（Text to Video，文生视频）模子的目的。国内网络上流传有Sora用于影视或者数字孪生等种种设计目的推测，但相对于让AI理解真实的物理天下来说，影视和数字孪生的目的都显得太渺小。

AI视频生成技术时间线/2023-2024（作者团队修改自@venturetwins，转载请注明出处）
在Sora之前，AI视频生成的天花板是Runway的Gen-2，支持最长18秒的视频生成，镜头（机位）相对固定，图像质量一般达不到影视级要求。而到了Sora，才是真正迎来了视频生成的GPT时间。
1 Sora的技术特点与原理

相对于Gen-2和Pika等一众文生视频的前辈，Sora出场就达到了60秒的最大视频时长，并且生成的视频质量达到了影视级的结果。下面归纳下Sora的突出技术特点与原理

AI视频生成技术产品一览（作者团队绘制，转载请注明出处）
1.1 技术特点概述

我们将Sora的技术特点分别为输入输出特性、功能特性、时空与脚色一致性三类。
以往的文生视频算法多数是接纳公开练习数据，生成的视频多数不够雅观，分辨率低，而且在生成视频的过程中，无法精准体现文本提示的内容，用户的文本提示难以转化为高狷介质量视频。当然更大的难点是视频中主角运动不连贯或不自然，在镜头移动的时间，主体边缘轻易畸变，特别是人物表情细节的畸变严肃影响视频的表达结果。

Sora技术特性图示（泉源：Data Science Dojo）
相对来说，Sora这类扩散Transformer模子，通过输入的信息和噪声图块（Noisy Patches）来生成清晰的视频，除了支持差别长宽比和分辨率外，还具备高保真的渲染能力，可以相对精准的表达各种输入的提示，且具备较好的时空与脚色一致性，乃至能模仿真实天下的物理状态。
视频输入输出的机动性：Sora能够生成差别分辨率、长宽比的视频，并且支持多机位，支持差别分辨率的提示图/视频输入，提高了内容创作的机动性。
多模态语言理解与文本提示：Sora提高了视频生成过程对文本的准确性和团体生成质量。能够根据用户的简短提示生成详细的文本提示，从而生成高质量的视频。同时Sora还具备扩展视频和拼接视频的能力，进一步提升视频创作功能。此功能使 Sora 能够执行各种图像和视频编辑使命，包括创建循环视频、动画静态图像、向前或向后扩展视频等。
时空与脚色的一致性：这是Sora最关键的上风，生成的视频主体能保持较长时间的时序一致性，确保视频中的事件在时间上连续，同时视频中的物体和配景在视角切换过程中保持相对位置稳定，且主体不发生显着畸变，可以准确的表现复杂场景。

Sora的技术特点（作者团队绘制，转载请注明出处）
1.2 时间长度与时序一致性

在Sora之前的Runway Gen-2、Pika 以及 Stability 的SAD等，所生成的视频长度最长不过18秒。单从视频生成长度来说，Sora已经吊打之前的所有模子了。
从模子练习角度看，十几秒到一分钟，难度并不是简单的线性关系。限制 AI 视频长度的主要因素包括模子练习资源、内容连贯性和逻辑性。视频由连续的多帧图像组成的，生成视频所必要的计算资源随着时间增加呈几何级数的增加。练习能生成较长时间视频的模则必要更大规模的计算资源来支持。
但对于文生视频算法，比计算资源更关键的是生成视频的时间连续性和逻辑一致性的维护，也就是时序一致性题目。比方准确的理解和预测物体的运动和变化，既要时间上连贯，又要符合物理天下的客观时序规律，这才气保证生成的视频是逼真的。比如椅子，不能像气球一样轻飘飘。
相对来说，开辟能够理解复杂叙述结构和逻辑关系的文生视频模子较为困难的，时间越长，维持时序连贯性和逻辑性难度就越高。
Sora在时间长度与时序一致性方面具备以下特点：
空间一致性：Sora能够确保生成视频中的物体在空间上保持相对位置的一致性，纵然在复杂的场景变换中，多个物体或人物也能保持精确的相对位置和运动轨迹。
脚色和物体的一致性：Sora能够在视频中保持脚色和物体的恒久一致性和存在，纵然在视频中出现遮挡或脚色脱离画面的情况，Sora也能保持其存在和重新出现后的外观。
视频内容的连贯性：Sora能够生成具有连贯故事线的视频，确保视频中的事件和动作在时间上是连续的，符合叙事逻辑，没有剧情的跳跃。

Sora 与Lumiere比力（泉源：Sepideh Yazdi）
1.3 真实天下物理状态模仿

Open AI团队发现，在大规模练习下，Sora展示出了一系列引人注目的涌现能力。这让 Sora 有能力在一定程度上模仿真实天下中的人、动物和环境。比方画家可以在画布上留下新的笔触，并随着时间的推移而连续，符合真实天下的物理规律。
Sora在真实天下物理状态模仿方面具备以下特点：
简单影响行为模仿：Sora能够模仿一些简单的与天下互动的行为，如画家在画布上留下笔触，或者人物在吃食品时留下痕迹。这些行为不是预设的规则，而是模子通过学习大量数据后自然涌现的能力。
动态相机运动：Sora能够生成包含动态相机运动的视频，这意味着视频中的人物和场景元素能够在三维空间中保持连贯的运动。比方，当相机移动或旋转时，视频中的物领会相应地改变位置，就像在现实天下中一样。
1.4 Sora原理

Sora通过扩散Transformer模子（Diffusion Transformer Model）来处置惩罚输入数据和生成视频。
在练习过程中，扩散Transformer通过学习输入的视频/图像等数据的分布，将这些分布映射到低维空间，从而实现对视频的压缩和重构的学习。
现在推测Sora包括向量量化变分自编码器（VQ-VAE-2）、多模态Transformer（MMT）以及去噪扩散概率模子（DDPM）等组件。简而言之，Sora的本质就是Diffusion和Transformer模子的联合，下面通过这两类模子来介绍Sora的原理。
1.4.1扩散模子与单帧图像的生成

扩散模子实现了文本生成单帧图像的功能。
扩散模子（Diffusion Model）劈头于非平衡热动力学，通过模仿自然界中常见的扩散过程来学习生成新数据。通过增加（高斯）噪声来逐步混淆数据（扩散过程），随后学习逆转噪声过程以重新构造样本（逆扩散过程）。

扩散过程与逆扩散过程（泉源：作者团队修改自北京大学）
扩散过程（X0->XT）：逐步对图像（练习数据集）加噪声，这一逐步过程可以以为是参数化的马尔可夫过程，相称于制作模子练习/学习的素材。
逆扩散过程（XT->X0）：从噪声中反向推导，逐渐消除噪声以逆转生成图像。这一过程相称于从少量信息中生成图像。

扩散模子论文数量逐年增加（泉源：Standford）
扩散模子在计算机视觉、自然语言处置惩罚等范畴有着广泛的应用，大有超越GAN模子的趋势。比方OpenAI的DALL·E 2和Google的Imagen这两个先进的文本生成图像算法，都是基于扩散模子架构。
在Sora中，Transformer功能生成的潜空间数据通过扩散功能生成富于细节的单帧图像，单帧图像再组成连续的视频。
1.4.2 Transformer模子与连续视频语义的生成

扩散模子在生成高清晰度、近乎照片般图像方面擅长，但是并不具备建立连续语义关联的能力。仅用扩散模子和UNet难以实现连续而逻辑自洽的视频流。
相比之下，Transformer模子利用自注意力机制来把握序列数据（对于Sora就是单帧图像的潜空间表征）中各个元素之间的关联，在图像分类和自然语言处置惩罚（NLP）使命中表现突出。
输入的序列数据，在Transformer计算后，生成最大概率的对应输出数据。无论是文本还是视频（两者都是序列），都可以转换为一个高维向量组成的序列。对于自然语言处置惩罚，这个最小单位是Token，对于Sora等文生视频算法来说，这个最小单位就是图块（Patch）。

以Encoder为例的Transformer生成示例（泉源：Towards Data Science）
Transformer在数学上类似大矩阵的计算，通过计算差别语义之间的关联度（概率）来生成具有最高概率的语义反馈。传统的RNN、LSTM或者GRU主要是进行模式识别，而Transformer不仅仅是一个矩阵计算，毕竟上还承载着语义关联的紧张功能。
Transformer中的核心组件是多头自注意机制模块。Transformer将输入的编码表现视为一组键值对（K，V），两者的维度都等于输入序列长度。

多头自注意机制模块（泉源：作者团队修改自Google）
在Sora中，扩散模子功能处置惩罚后的输入数据，酿成有时序的向量（潜空间的表征），Transformer功能则负责解读输入的图块和指令的潜空间信息，根据输入的向量信息预测下一个向量，从而根据文本指令（文本也作为Transformer功能的输入）生成有时序和因果含义的潜空间表征，进而通过解码器输出。
1.4.3 从文本输入到视频生成

Sora通过联合扩散Transformer模子和视频压缩网络的工作原理，实现了高效的视频生成能力。Sora还设计了相应的解码器来处置惩罚生成的低维潜空间数据，增强视频帧的渲染结果，确保了模子的实用性和机动性。
在练习（Training）过程中，Sora通过视频压缩网络来压缩输入的视频或图片（练习数据），使其成为一个低维的潜空间表征形式，然后将该表征形式传入扩散过程进行练习。对应的表征形式为空间时间图块（Spatial and Temporal Patches）。时间和空间信息被压缩入图块（Patchs），淘汰视频动态内容的数据量（有助于提高模子的练习服从和可扩展性）。Transformer功能被练习为理解时空数据图块，并进行逻辑自洽的推演，生成对应于视频的低维潜空间数据。

Sora通过低维信息序列生成图像序列（泉源：Open AI）
与其他文生视频模子差别，Sora支持差别分辨率的输入输出，即练习时支持缩放（Scaling），支持长内容（Long Context，长达1分钟的视频。这此中的关键在于集群练习期间累积误差（Error Accumulatio）的控制，视频中实体的高质量渲染和物理一致性，以及视频、图像、文本的多模态支持。
在视频生成（Inference）过程，Sora中的解码器模子，将Transformer功能生成的低维潜空间数据转换回像素空间，并进行一定程度的渲染，以进行进一步的处置惩罚和应用。
2 Sora的关键技术

Sora 本身是一种扩散模子与Transformer模子的合体，其本质是根据输入，通过Transformer生成潜空间表征序列，再通过扩散模子对表征序列进行解释，逐渐消除噪声生成逻辑自洽的图像序列的过程。
Sora 的关键在于能一次生成整个较长的视频（60秒），而且保持视频中的主体和逻辑的一致性，确保主体暂时脱离视野时也保持不变。
2.1 传统文生图技术的回首

为了更好的了解Sora中的技术，我们首先回首下文生图的一些传统技术。视频本质上就是图像的序列。
在文生图范畴，比力成熟的模子模式包括生成对抗网络（ GAN ）和扩散模子（ Diffusion Models ），本次OpenAI 推出的 Sora 则是一种扩散模子的变种。相较于 GAN，扩散模子的生成多样性和练习稳定性都要更好很多。

几种典型的文生图模子架构对比（泉源：Lilian Weng）
在GAN（Generative Adversarial Networks，生成对抗网络）模子中，生成器（Generator）的目的是生成尽可能接近真实数据分布的样本，而鉴别器（Discriminator）的目的则是区分这些生成的样本和真实的样本。两者相互竞争，通过瓜代练习，提升对原作的模仿能力。
VAE（Variational Autoencoder，变分自编码器）模子是对输入数据和潜伏变量的团结分布进行建模，通过编码器对输入的练习数据进行降维，提取原始关键信息，然后再通过译码器（Decoder）重修原始信息，学习图像生成能力。为了使模子不受限于数据的分布形式，VAE利用了变分推断（Variational Inference）方法来近似计算潜变量的后验分布。

文生图模子练习与推断的简单流程（泉源：OpenAI）
GAN 模子的原理本质上是呆板对人的模仿和对抗练习，到VAE模子时已经有了扩散模子思路的雏形；而扩散模子则更像是呆板学会 “ 成为一个人 ”，具有多样性，学会还原天下的特性。特别是GAN 模子练习过程高度依赖于对原始数据的比对和仿真，多样性少，难以提升创造力。
而扩散模子，在练习学习大量原始数据的过程中，侧重图像内涵与图像之间的关系，侧重于关键特性的挖掘和提炼。
2.2 数据的同一表现与时空潜图块（Spacetime Latent Patches）

在Sora中，数据的同一表现对练习服从和生成质量都有很大影响。
Sora的思路是将输入的练习数据转换为具备时序特性的向量，然后由Sora中的Transformer预测下一个向量。无论是文本还是视频，都必要转化为高维向量组成的序列才气正常参与计算。对于GPT而言，这一直量中的这个最小单位是Token，对于Sora等文生视频模子来说，这个最小单位就是时空图块（Spacetime Latent Patches）。

Sora中的时空潜图块表征（泉源：OpenAI）
文本的Token序列天然是一维线性排列。而视频具有时序、长、宽等维度，所以Patch是高维度向量组成的三维空间，然后通过压缩模子处置惩罚成单维向量序列。每帧图像是由多个Patch组成，具有很强的扩展和表征能力。

时空潜图块的应用与表征方式（泉源：复旦/微软）
比方对于视频流，给定视频片段中T帧，通过采样计算提取特性，每个Patch包含96维特性。再通过线性嵌入层处置惩罚后输入到Transformer结构中。
这个数据的同一表征并不难，但找到一个恰当视频生成的表征算法必要大量的数据进行练习和选优。
2.3 多尺寸视频视频输入处置惩罚

Sora模子支持在差别时长、分辨率和宽高比的视频和图像上进行练习。
现在推测Sora接纳了类似NaViT的图块打包技术。

NaViT图块打包技术表现（泉源：Google Deepmind）
NaViT（Native Resolution ViT）没有接纳传统的将图像调整至固定大小的做法，而通过特定的架构来实现对任意分辨率和宽高比图像的机动处置惩罚。打包支持保持宽高比的可变分辨率图像，淘汰了练习时间，提高了性能，并增加了机动性。
打包技术的要点包括：
1) 序列打包（Sequence Packing）
在数据预处置惩罚（Data Preprocessing）过程中，序列打包的技术将来自差别图像的Patch组合成一个序列，从而使模子能够同时处置惩罚多个图像片段。
2) 屏蔽自注意力（Masked Self-Attention）
为了防止差别图像帧间的不当交互，NaViT引入额外的自注意力屏蔽，确保了模子在处置惩罚一个图像序列中的差别片段时，只关注于同一图像内的相干部分。
3) 分解和分数位置嵌入（Factorized & Fractional Positional Embeddings）
NaViT重新设计了位置嵌入以顺应可变的图像尺寸和宽高比。NaViT接纳了分解的方法来分别处置惩罚x和y坐标的位置嵌入，再将这些嵌入相加。该方法答应模子机动处置惩罚各种尺寸和宽高比的图像，同时保留空间信息。
4) 屏蔽池化（Masked Pooling）
在编码器顶部利用屏蔽池化，目的是在序列中将每个Token/Patach表征汇聚成单个向量表现。这一步是为了在保留每个图像独立信息的同时，实现高效的特性提取。
在生成视频内容时，通过这种打包方法可以根据需求机动调整视频的分辨率和宽高比，无需将视频同一调整到固定的大小，方便进行多样化的练习。另外可以处置惩罚并生成保持原始宽高比的视频，在应用于差别类型的屏幕和媒体格式时非常便利。
2.4 视频压缩网络

Sora 利用视频压缩网络（Video Compression Network）来“压缩”视频，将图块转换成同一且信息更小的形式，即低维或者压缩潜空间，并重构为时空潜图块。这一压缩非常紧张，因为压缩后的图块可以大幅降低练习与推断的计算负荷，使 Sora 能够在练习过程中更加高效的学习海量数据。

低维/压缩隐空间扩散（泉源：NVIDIA）
在Sora模子的技术报告中，对视频压缩的引用基于较早的VAE（变分自编码器）工作。传统的VAE主要用于文生图的练习，现在推测Sora接纳了向量量化变分自编码器（VQ-VAE-2）技术，来同时实现压缩和编码。
VQ-VAE-2是VAE的量化改进版本，通过向量量化的方法来处置惩罚潜空间的表现。在VQ-VAE-2中，潜空间被量化为离散的向量表征，每个输入数据点都被映射到最接近的离散向量。

VQ-VAE的向量空间压缩（泉源：Google）

在分析VQ-VAE-2前，先分析下VQ-VAE的思路：
1）嵌入式空间（Embedding Space）是一个量化后的单位向量空间（ei）.
2）将一张（练习）图片颠末编码器（Encoder）, 得到特性图Ze(x).
3）将特性图中的各向量分别去嵌入式空间里找近来的ei，将向量表征为量化单位向量的组合q(z|x)。
4）替换后可以得到向量量化表征Zq(x)，再通过解码器（Decoder）输出，重构得到图片。
有了VQ-VAE的原理分析，再看VQ-VAE-2的思路。

VQ-VAE-2架构（泉源：Google）
如图所示，左边是练习过程，分上下两层。顶层（Top Level）潜空间尺寸为32x32, 底层潜空间尺寸 64 x 64。顶层先进行分层量化，得到量化后的单位向量etop。再以此单位向量为底子，与输入一起，计算底层（Bottom Level）的单位向量ebottom。顶层与底层的单位向量同时进入解码器，完成解码计算与练习。
在右边的生成过程中，解码分为两层，顶层保证全局自洽，底层保证全局高清。
在 VQ-VAE-2 中，对顶层利用了多头自注意力机制（Multi-headed Self-Attention ），有比力好的长程关联。
VQ-VAE-2可以实现对视频数据的有用压缩，将原始视频数据转换为更加高效和紧凑的量化潜空间表现。这对于模子后续处置惩罚和生成高质量视频至关紧张。
2.5 时长扩展技术

OpenAI在Sora技术报告中提到了扩展生成视频（Extending Generated Videos）技术，使 Sora 具备可以让视频在时间线上向前或向后扩展的能力。比方官方演示的中，有几段差别的视频，都是四个差别视频的视频开始，却走向相同的结尾（时间线向前扩展）。
另一方面，Sora也达到了超越其他文生视频工具的60秒生成视频时长，我们推测这也是时长扩展技术的体现。

通过多次插值实现时长扩展（泉源：NVIDIA）
预测Sora最初以低帧速率生成稀疏关键帧（时间线向前或向后），然后通过另一个插值潜扩散模子在时间上采样两次或两次以上。另外，通过调整起始帧来选择性的练习视频潜空间扩散模子进行视频预测，以自回归方式生成长视频。
2.6 安全

Sora 之中有几个紧张的安全步调，包括对抗性测试、检测分类器。
Sora团队与红队成员（错误信息、仇恨内容和私见等范畴的专家）合作，并以对抗性方式测试Sora模子。
Sora前后端还包括检测误导性内容的检测分类器。前端的文天职类检测器将检查并拒绝违反利用许可的输入提示，比方要求仇恨图像、名人肖像或他人 IP 的文本输入提示。Sora后端的图像分类检测器，会检查生成的每个视频帧，以帮助在显示之前符正当律法规和OpenAI的规则。

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

欢迎光临 ToB企服应用市场:ToB评测及商务社交产业平台 (https://dis.qidao123.com/)