MAGI-1自回归式大规模视频天生
1. 关于 MAGI-1提出 MAGI-1——一种世界模子(world model),通过自回归方式预测一系列视频块(chunk,固定长度的连续帧片断)来天生视频。
模子被训练为在时间维度上单调递增噪声的条件下对每个块进行去噪,从而实现 因果时序建模,并自然支持流式天生。
在 图像到视频 (I2V) 使命中,MAGI-1 联合多项算法创新与专用底子设施,兼具高时间同等性与可扩展性。模子还支持块级提示(chunk-wise prompting),实现平滑场景衔接、长时段合成以及细粒度文本控制。
MAGI-1 为同一高保真视频天生、灵活指令控制和实时摆设提供了有远景的方向。
2. 模子概览
Transformer-based VAE
[*]Transformer 架构的变分自编码器,空间 8× + 时间 4× 压缩
[*]解码速度快、重建质量高度竞争
自回归去噪算法
MAGI-1 按 块(每块 24 帧)而非团体进行自回归去噪。当当前块达到设定清晰度阈值,即可并行启动下一块天生,最多同时处置处罚 4 块,明显提拔效率。
https://i-blog.csdnimg.cn/direct/cd2cd85ce2dc4964866a4a3506b22304.png
扩散模子架构
基于 Diffusion Transformer,并引入多项关键创新以提拔大规模训练效率与稳固性:
[*]Block-Causal Attention
[*]Parallel Attention Block
[*]QK-Norm 与 GQA
[*]Sandwich Norm、SwiGLU
[*]Softcap Modulation
详见技能报告。
https://i-blog.csdnimg.cn/direct/114dc2b6c2db4ef9ab46c9cd576e80cd.png
蒸馏算法
采用 Shortcut Distillation:同一速度场(velocity-based)模子兼容多种推理预算。
[*]训练中在步长 {64, 32, 16, 8} 间循环采样,并逼迫“大步 = 两个小步”自洽。
[*]融合 Classifier-Free Guidance 蒸馏,在效率与保真度之间取得平衡。
3. 模子家属
模子下载链接保举硬件T5↗—MAGI-1-VAE↗—MAGI-1-24B↗H100 / H800 × 8MAGI-1-24B-distill↗H100 / H800 × 8MAGI-1-24B-distill + fp8_quant↗H100 / H800 × 4 或 RTX 4090 × 8MAGI-1-4.5B↗RTX 4090 × 1 4. 评测效果
内部人类评测
MAGI-1 在开源模子中取得 SOTA(超越 Wan-2.1,明显领先 Hailuo、HunyuanVideo),在指令遵照和运动质量方面尤为突出,可与闭源商业模子 Kling 竞争。
https://i-blog.csdnimg.cn/direct/7cd71c5fdb74425082092703cc7da546.png
物理评测(视频续帧)
模式物理 IQ ↑空间 IoU ↑时空同等 ↑加权 IoU ↑MSE ↓Magi (V2V)56.020.3670.2700.3040.005VideoPoet (V2V)29.500.2040.1640.1370.010Magi (I2V)30.230.2030.1510.1540.012Kling 1.6 (I2V)23.640.1970.0860.1440.025VideoPoet (I2V)20.300.1410.1260.0870.012Gen 3 (I2V)22.800.2010.1150.1160.015Wan 2.1 (I2V)20.890.1530.1000.1120.023Sora (I2V)10.000.1380.0470.0630.030GroundTruth100.00.6780.5350.5770.002 5. 运行指南
5.1 环境准备(保举 Docker)
# 拉取镜像
docker pull sandai/magi:latest
# 启动容器
docker run -it --gpus all --privileged \
--shm-size=32g --name magi --net=host --ipc=host \
--ulimit memlock=-1 --ulimit stack=6710886 \
sandai/magi:latest /bin/bash
源码方式
# 创建环境
conda create -n magi python==3.10.12
conda activate magi
# 安装 PyTorch
conda install pytorch==2.4.0 torchvision==0.19.0 torchaudio==2.4.0 \
pytorch-cuda=12.4 -c pytorch -c nvidia
# 安装依赖
pip install -r requirements.txt
# 安装 ffmpeg
conda install -c conda-forge ffmpeg=4.4
# 安装 MagiAttention
git clone git@github.com:SandAI-org/MagiAttention.git
cd MagiAttention
git submodule update --init --recursive
pip install --no-build-isolation .
5.2 推理命令
修改 example/24B/run.sh 或 example/4.5B/run.sh 控制输入输出。
关键参数说明
[*]--config_file:模子配置文件路径,如 example/24B/24B_config.json
[*]--mode:t2v(文本→视频) / i2v(图像→视频) / v2v(视频→视频)
[*]--prompt:文本提示(仅 t2v 模式)
[*]--image_path:输入图像路径(仅 i2v 模式)
[*]--prefix_video_path:前缀视频路径(仅 v2v 模式)
[*]--output_path:天生视频生存路径
Bash 示例
# 运行 24B
bash example/24B/run.sh
# 运行 4.5B
bash example/4.5B/run.sh
自定义示例
# 图像转视频
--mode i2v \
--image_path example/assets/image.jpeg \
# 视频续帧
--mode v2v \
--prefix_video_path example/assets/prefix_video.mp4 \
5.3 config.json 常用字段
字段寄义seed随机种子video_size_h / w输出分辨率num_frames视频时长fps帧率(4 帧 = 1 latent_frame)cfg_number原始模子 2;distill/quant 模子 1load模子权重目次t5_pretrained / vae_pretrained预训练权重路径
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
页:
[1]