人工智能CVPR2024|Diffusion模子轻量化与计算服从优化

瑞星发表于 2024-9-6 00:39:31

CVPR2024|Diffusion模子轻量化与计算服从优化

前言

做算法应该都有顶会梦吧，发不了顶会只能刷一刷顶会了哈哈，向顶会大佬学习
扩散模子的训练和推理都需要巨大的计算成本（显卡不敷做DDPM的下游任务着实是太难熬了），以是本文整理汇总了部门CVPR2024中关于扩散模子的轻量化与计算服从优化的相关论文。

1、Diffusion Models Without Attention

Author：Jing Nathan Yan, Jiatao Gu, Alexander M. Rush
paper：https://arxiv.org/pdf/2311.18257
固然去噪概率扩散模子（DDPMs）在图像生成方面取得了显著的进展，但在高分辨率应用中面临巨大的计算挑战，特殊是依赖于自留意力机制导致计算复杂度呈二次方增长（训练过DDPM的朋友应该都对显存有着巨大渴望吧）。现在大部门办理办法都是通过加快Unet和Transformer架构中的历程，但是如许会牺牲模子的生成本领。
为了办理此题目，本文提出了扩散状态空间模子（DIFFUSSM），这是一种无需留意力机制的扩散架构，使用门控状态空间模子（SSM）作为扩散过程中的骨干网络。DIFFUSSM通过制止全局压缩来有用处理更高分辨率的图像，从而在整个扩散过程中保存详细的图像表现。
DIFFUSSM使用了长范围SSM核心和沙漏式前馈网络的交替层，不使用U-Nets或Transformers中的patchification或长范围块的缩放。采用了门控双向SSM作为核心组件，并通过hourglass架构进步服从。
论文在ImageNet和LSUN数据集上举行了评估，结果表明DIFFUSSM在FID和Inception Score指标上与现有带留意力模块的扩散模子相当或更优，同时显著淘汰了总的FLOP使用。
2、Fixed Point Diffusion Models

Author：Xingjian Bai, Luke Melas-Kyriazi
paper：https://arxiv.org/pdf/2401.08741
code：https://github.com/lukemelas/fixed-point-diffusion-models
本文提出了一种定点扩散模子（FPDM），在扩散模子中集成了固定点求解概念，通过在去噪网络中嵌入隐式固定点求解层，将扩散过程转化为一系列相关的固定点题目。该方法结合一种新的随机训练方法，显著淘汰了模子的尺寸和内存使用，并加快了训练速度。
此外，FPDM还开发了两种新技术来进步采样服从：在时间步长之间重新分配计算资源和在时间步长之间重复使用固定点解。实验证实，该方法在ImageNet、FFHQ、CelebA-HQ和LSUN-Church等数据集上显著进步了性能和服从。与开始进的DiT模子相比，FPDM参数淘汰了87%，训练时内存斲丧淘汰了60%，在采样计算或时间受限的环境下，图像生成质量也得到了改善。
3、Towards More Accurate Diffusion Model Acceleration with A Timestep Tuner

Author：Mengfei Xia, Yujun Shen, Changsong Lei, Yu Zhou, Ran Yi, Deli Zhao, Wenping Wang, Yong-jin Liu
paper：https://arxiv.org/pdf/2310.09469
code：https://github.com/THU-LYJ-Lab/time-tuner
由于很多扩散模子都需要上千个去噪步骤来生成图像，以是这些模子的推理速度都非常慢，很多对应的改进方法就是淘汰此中的去噪步骤，但会引起较大的性能退化。作者认为生成图像的质量降落是由将不准确的积分方向应用于时间步长间隔引起的，并提出了时间步长调谐器（Timestep tuner），可以或许以最小的成本为特定间隔找到更准确的积分方向，即在每个去噪步骤通过在新的时间步长上调节网络来替换原始参数化，逼迫采样分布朝向真实分布。
实验表明TimeTuner在无条件生成、高阶采样器生成、标签条件生成和文本条件生成等任务中均表现出显著的性能提升。在极度函数评估次数环境下，TimeTuner也表现出对一致性蒸馏方法的有用性。
4、Attention-Driven Training-Free Efficiency Enhancement of Diffusion Models

Author：Hongjie Wang, Difan Liu, Yan Kang, Yijun Li, Zhe Lin, Niraj K. Jha, Yuchen Liu
paper：https://arxiv.org/pdf/2405.05252
扩散模子在生成高质量和多样化的图像方面表现出卓越的性能，但这种卓越的性能是以昂贵的计算为代价的，特殊是大量使用留意力模块会导致计算资源需求的急剧增加。作者提出了留意力驱动的免训练高效扩散模子（AT-EDM）框架，该框架使用留意力图（attention maps）在运行时对冗余的token举行剪枝（pruning），从而加速DMs的推理过程，无需重新训练。
该论文

[*]提出了一种新的基于图的算法，Generalized Weighted Page
Rank（GWPR），用于识别冗余的token。
[*]提出了一种基于相似度的恢复方法，用于在卷积操纵中恢复被剪枝的token。
[*]提出了一种Denoising-Steps-Aware Pruning（DSAP）方法，用于在差别的去噪时间步中调整剪枝预算，以进步生成质量。
AT-EDM在服从方面与先前的艺术作品相比表现精彩，比方在FLOPs节流了38.8%，并且在速度上比Stable Diffusion XL快了1.53倍，同时保持了与完整模子几乎类似的FID和CLIP分数。
5、Improving Training Efficiency of Diffusion Models via Multi-Stage Framework and Tailored Multi-Decoder Architecture

Author：Huijie Zhang, Yifu Lu, Ismail Alkhouri, Saiprasad Ravishankar, Dogyoon Song, Qing Qu
paper：https://arxiv.org/pdf/2312.09181
扩散模子显著的性能受到缓慢的训练与采样的阻碍，作者认为这是由于需要跟踪广泛的正向和反向扩散轨迹，并采用跨多个时间步长（即噪声程度）具有大量参数的大型模子，以是作者提出了一个受经验发现启发的多阶段框架。该框架通过将时间间隔分割成多个阶段，并在每个阶段使用定制的多解码器U-Net架构，结合了时间依赖模子和通用共享编码器。
该论文中的工作有：

[*]识别了导致训练扩散模子服从低下的两个关键因素：模子容量需求的显著变化和梯度的不一致性
[*]提出了一个新的多阶段架构，该架构通过将时间间隔分割成多个阶段，并在每个阶段使用定制的多解码器U-Net架构，有用进步了训练和采样服从
[*]在CIFAR-10和CelebA数据集上举行了广泛的数值实验，证实了所提出框架的有用性。
6、DeepCache: Accelerating Diffusion Models for Free

Author：Xinyin Ma, Gongfan Fang, Xinchao Wang
paper：https://arxiv.org/pdf/2312.00858
code：https://github.com/horseee/DeepCache
扩散模子由于其显著的生成本领，在图像合成领域得到了亘古未有的关注。但这些模子通常会产生大量的计算成本，紧张归因于一连的去噪过程和冗余的模子尺寸。而传统压缩扩散模子的方法通常涉及广泛的重新训练，这在成本和可行性上都存在挑战。
作者提出了一个简朴有用的加速算法DeepCache，在运行时动态压缩扩散模子，进步图像生成速度，无需额外训练负担。详细而言，DeepCache使用在扩散模子的一连去噪步骤中观察到的固有时间冗余，跨相邻去噪阶段缓存和检索特征，从而淘汰冗余计算。使用U-Net的特性，重用高级特征，同时以非常便宜的方式更新低级特征。反过来，这种创新计谋使Stable Diffusion v1.5的加速因子到达2.3倍，CLIP Score仅降落0.05，LDM-4-G的加速因子到达4.1倍，ImageNet上的FID仅降落0.22。此外，在类似的吞吐量下，DeepCache有用地实现了与DDIM或PLMS相当乃至略有改善的结果。
7、Accelerating Diffusion Sampling with Optimized Time Steps

Author：Shuchen Xue, Zhaoqiang Liu, Fei Chen, Shifeng Zhang, Tianyang Hu, Enze Xie, Zhenguo Li
paper：https://arxiv.org/pdf/2402.17376v1
扩散模子大量的采样步骤导致其服从低下。用于扩散模子的高阶数值常微分方程（ODE）求解器使得可以或许以更少的采样步骤生成高质量的图像，但大多数采样方法仍旧采用统一的时间步长，这种方法对于少量采样步的环境是不理想的。为了办理这个题目，论文作者提出了一个计划优化题目的通用框架，为扩散模子的特定数值ODE求解器寻求更合适的时间步长。该优化题目旨在最小化ODE的真实解和对应于数值求解器的近似解之间的距离。优化题目可以使用约束信托域方法在不到15秒内办理。
该方法可以高效地结合最新的采样方法UniPC，显著进步图像生成性能。该方法也是可以作为一种即插即用的方式，与各种预训练的扩散模子结合使用，实现开始进的采样性能。
总结

本文是对2024CVPR发表的关于扩散模子服从优化的几篇论文的整理汇总，如有不敷欢迎指正。
参考链接：https://github.com/52CV/CVPR-2024-Papers?tab=readme-ov-file#8

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

页: [1]

ToB企服应用市场:ToB评测及商务社交产业平台's Archiver

CVPR2024|Diffusion模子轻量化与计算服从优化