梦见你的名字 发表于 2024-12-30 07:08:34

Diffusion Transformer(DiT)——将扩散过程中的U-Net换成ViT:近频繁用于视

媒介

本文最开始属于此文《视频天生Sora的全面解析:从AI绘画、ViT到ViViT、TECO、DiT、VDT、NaViT等》
但考虑到DiT除了广泛应用于视频天生领域中,在机器人动作预测也被运用的越来越多,加之DiT确实是一个比较大的创新,影响力大,故独立资本文


第一部分 Diffusion Transformer(DiT):将扩散过程中的U-Net 换成ViT

1.1 什么是DiT

1.1.1 DiT:在VAE框架之下扩散去噪中的卷积架构换成Transformer架构

在ViT之前,图像领域根本是CNN的天下,包罗扩散过程中的噪声估计器所用的U-net也是卷积架构,但随着ViT的横空出世,人们天然而然开始考虑这个噪声估计器可否用Transformer架构来代替
2022年12月,William Peebles(其时在UC Berkeley,Peebles在
页: [1]
查看完整版本: Diffusion Transformer(DiT)——将扩散过程中的U-Net换成ViT:近频繁用于视