IT评测·应用市场-qidao123.com技术社区

标题: MAGI-1自回归式大规模视频天生 [打印本页]

作者: 大号在练葵花宝典    时间: 3 天前
标题: MAGI-1自回归式大规模视频天生
1. 关于 MAGI-1

提出 MAGI-1——一种世界模子(world model),通过自回归方式预测一系列视频块(chunk,固定长度的连续帧片断)来天生视频。
模子被训练为在时间维度上单调递增噪声的条件下对每个块进行去噪,从而实现 因果时序建模,并自然支持流式天生
图像到视频 (I2V) 使命中,MAGI-1 联合多项算法创新与专用底子设施,兼具高时间同等性可扩展性。模子还支持块级提示(chunk-wise prompting),实现平滑场景衔接、长时段合成以及细粒度文本控制。
MAGI-1 为同一高保真视频天生、灵活指令控制和实时摆设提供了有远景的方向。
2. 模子概览

Transformer-based VAE


自回归去噪算法

MAGI-1 按 (每块 24 帧)而非团体进行自回归去噪。当当前块达到设定清晰度阈值,即可并行启动下一块天生,最多同时处置处罚 4 块,明显提拔效率。

扩散模子架构

基于 Diffusion Transformer,并引入多项关键创新以提拔大规模训练效率与稳固性:

详见技能报告。

蒸馏算法

采用 Shortcut Distillation:同一速度场(velocity-based)模子兼容多种推理预算。

3. 模子家属

模子下载链接保举硬件T5↗—MAGI-1-VAE↗—MAGI-1-24B↗H100 / H800 × 8MAGI-1-24B-distill↗H100 / H800 × 8MAGI-1-24B-distill + fp8_quant↗H100 / H800 × 4 或 RTX 4090 × 8MAGI-1-4.5B↗RTX 4090 × 1 4. 评测效果

内部人类评测

MAGI-1 在开源模子中取得 SOTA(超越 Wan-2.1,明显领先 Hailuo、HunyuanVideo),在指令遵照运动质量方面尤为突出,可与闭源商业模子 Kling 竞争。

物理评测(视频续帧)

模式物理 IQ ↑空间 IoU ↑时空同等 ↑加权 IoU ↑MSE ↓Magi (V2V)56.020.3670.2700.3040.005VideoPoet (V2V)29.500.2040.1640.1370.010Magi (I2V)30.230.2030.1510.1540.012Kling 1.6 (I2V)23.640.1970.0860.1440.025VideoPoet (I2V)20.300.1410.1260.0870.012Gen 3 (I2V)22.800.2010.1150.1160.015Wan 2.1 (I2V)20.890.1530.1000.1120.023Sora (I2V)10.000.1380.0470.0630.030GroundTruth100.00.6780.5350.5770.002 5. 运行指南

5.1 环境准备(保举 Docker)

  1. # 拉取镜像
  2. docker pull sandai/magi:latest
  3. # 启动容器
  4. docker run -it --gpus all --privileged \
  5.   --shm-size=32g --name magi --net=host --ipc=host \
  6.   --ulimit memlock=-1 --ulimit stack=6710886 \
  7.   sandai/magi:latest /bin/bash
复制代码
源码方式
  1. # 创建环境
  2. conda create -n magi python==3.10.12
  3. conda activate magi
  4. # 安装 PyTorch
  5. conda install pytorch==2.4.0 torchvision==0.19.0 torchaudio==2.4.0 \
  6.               pytorch-cuda=12.4 -c pytorch -c nvidia
  7. # 安装依赖
  8. pip install -r requirements.txt
  9. # 安装 ffmpeg
  10. conda install -c conda-forge ffmpeg=4.4
  11. # 安装 MagiAttention
  12. git clone git@github.com:SandAI-org/MagiAttention.git
  13. cd MagiAttention
  14. git submodule update --init --recursive
  15. pip install --no-build-isolation .
复制代码
5.2 推理命令

修改 example/24B/run.sh 或 example/4.5B/run.sh 控制输入输出。
关键参数说明


Bash 示例

  1. # 运行 24B
  2. bash example/24B/run.sh
  3. # 运行 4.5B
  4. bash example/4.5B/run.sh
复制代码
自定义示例

  1. # 图像转视频
  2. --mode i2v \
  3. --image_path example/assets/image.jpeg \
  4. # 视频续帧
  5. --mode v2v \
  6. --prefix_video_path example/assets/prefix_video.mp4 \
复制代码
5.3 config.json 常用字段

字段寄义seed随机种子video_size_h / w输出分辨率num_frames视频时长fps帧率(4 帧 = 1 latent_frame)cfg_number原始模子 2;distill/quant 模子 1load模子权重目次t5_pretrained / vae_pretrained预训练权重路径
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。




欢迎光临 IT评测·应用市场-qidao123.com技术社区 (https://dis.qidao123.com/) Powered by Discuz! X3.4