ToB企服应用市场:ToB评测及商务社交产业平台

标题: Stable Diffusion在各种显卡上的加速方式测试,最高可以提速211.2% [打印本页]

作者: 九天猎人    时间: 2024-8-23 21:54
标题: Stable Diffusion在各种显卡上的加速方式测试,最高可以提速211.2%
Stable Diffusion是一种基于扩散模型的图像天生技术,能够从文本天生高质量的图像,适用于CG,插图和高分辨率壁纸等领域。
但是它计算过程复杂,使得它的天生速率较慢。所以研究职员就创造了各种提高其速率的方式,比如Xformers、Aitemplate、TensorRT和onflow。在本文中我们将对这些加速方法举行了一系列对比测试。
在本文中,我们将介绍这些加速方法的原理和性能测试结果,并提供对差别显卡的成本效益总结,我们的目标时在并在2秒内天生高质量的图像。
通过我们的试验与RTX 3090上的Xformers相比,OneFlow实现了211.2%的加速,在RTX 4090上实现了205.6%的加速。所以一个高配的GPU还是很必要的。
加速方案原理及特性

以下表格整理了如今能够看到的加速方案

本文使用Xformers, Aitemplate, TensorRT和onflow举行测试。由于NvFuser在原理上与Xformers相似,都使用了FlashAttention技术。DeepSpeed和colossalAI重要是为训练加速而计划的,而OpenAI Triton则是一个模型摆设引擎,适用于批大小的加速,但不适用于优化延迟场景,所以这些都包含在本文中。
我们使用VoltaML来评估Aitemplate的加速效果,使用Stable Diffusion web来评估Xformers的加速,使用官方TensorRT示例来评估TensorRT的性能,并将OneFlow集成到Diffusion中来测试其加速率。
加速方案测试

接下来,我们将介绍相关的测试配置
1、测试设置
我们的性能度量是每秒迭代数(its/s)。图像设置为512*512,步骤100
提示词为:A beautiful girl, best quality, ultra-detailed, extremely detailed CG unity 8k wallpaper, best illustration, an extremely delicate and beautiful, floating, high resolution.
Negative提示: Low resolution, bad anatomy, bad hands, text error, missing fingers, extra digit, fewer digits, cropped, worst quality, low quality, normal quality, jpeg artifacts, signature, watermark, username, blurry, bad feet, fused body.
Sampler: Euler a
模型:Stable Diffusion 1.5
2、测试结果
在各种gpu上的性能测试结果,如下图所示(上图第一举动Xformers,第三举动Aitemplate ,第四举动OneFlow ):

加速率比较如下:OneFlow > TensorRT > Aitemplate > Xformers。
与RTX 3090上的Xformers相比,OneFlow实现了211.2%的相对加速,在RTX 4090上实现了205.6%的加速。
以下是一个结果:

GPU性价比

通过对差别的gpu举行了成本效益分析,得到以下结论:
从性价比角度来看,RTX4090 GPU性价比最高,如今RTX 2080Ti是最高性价比,极低端的gpu会增长整体成本。所以不发起用低端入门级GPU。
我们这里选择的几个低端gpu,包罗M60、1660s和1080,题目如下:
1、GPU如1660和1080不支持加速方案,如TensorRT, Aitemplate,和OneFlow,大概是由于内存不足或GPU不兼容
2、此中1660s(1080)在天生512*512的20步图像,耗时7.66s (7.57s),达到2.61 it/s (2.64 it/s),固然慢,但是可以用,如果你时间富裕或者只是玩一下可以思量
3、M60达到1.27 it/s, 20步天生512*512图像需要15.74s,比1660s又慢了1倍

选择的发起

1、固然RTX 4090有最高的速率,但RTX 3090也是可以思量,RTX 3090的性能优于其他同级别的gpu,如A5000和A4000(下面价格基于云服务提供商的GPU价格计算,自购肯定RTX 4090,由于比3090差不了多少钱)。

2、更大的VRAM允许缓存更多的模型,减少模型加载时间,并显著加速图像天生过程。
RTX 3090和RTX 4090都有24GB的VRAM,但如果稳固扩散web是基于VRAM使用举行优化,RTX 3090大概在VRAM成本上有优势。如果优先思量推理速率,RTX 4090是最佳选择,由于它的推理时间大约是RTX 3090的一半。
3、差别gpu的更多具体信息,请参阅下面的图表。

以上就是完备的测试,希望对你有所帮助。
https://avoid.overfit.cn/post/4d41ab2ecdce462786892e315dc49ecc
作者:Omniinfer

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。




欢迎光临 ToB企服应用市场:ToB评测及商务社交产业平台 (https://dis.qidao123.com/) Powered by Discuz! X3.4