金歌 发表于 2025-4-21 02:03:10

AMD核显推理Stable Diffusion

目的

近期,我开始了尝试使用Stable Diffusion举行文生图和。为此,我也尝试了多种在线服务,如WHEE。固然在线平台可以或许提供不错的生成效果,但是生成的图片太多的话最终照旧需要收费的。
因此我想尝试在本地摆设SD模型举行图像生成。目前我手上性能最强的主机只有UM790 Pro迷你主机了。可是它搭载了AMD的核显iGPU(AMD Radeon™ 780M),固然它的性能靠近GTX1650,但是摆设SD模型肯定没有英伟达的GPU方便,而且还不支持ROCm。
在此记载一下我使用UM790 Pro本地摆设SD模型的流程,希望能帮到大家。如有问题,还请批评指正。
准备条件



[*]UM790 pro迷你主机(搭载780M核显)
[*]核显需要支持DirectML,否则只能使用CPU
情况准备


[*]安装conda情况
conda的安装这里就不赘述了,可以直接参考百度。安装完成之后,我们需要创建python3.10的情况。网上参考资料说directml似乎最高支持到3.10(不保真)。conda create -n sd_directml python=3.10.13
conda activate sd_directml
我这里安装的版本为3.10.13,之后的操纵建议都在这个conda情况中举行。
[*]安装pyenv
由于之后使用的SD项目安装时会自动创建pyenv情况,因此假如没有安装pyenv的话还需要举行安装。windows情况下安装pyenv的教程如下,在此就不举行赘述了。
python多情况管理工具——pyenv-win安装与使用教程
安装完成后在工程目录下进入和退出pyenv情况可使用如下下令venv\Scripts\activate#进入
venv\Scripts\deactivate.bat#退出

安装stable-diffusion-webui-directml

起首将其项目克隆下来
git clone https://github.com/lshqqytiger/stable-diffusion-webui-directml.git
cd stable-diffusion-webui-directml
git submodule init
git submodule update
之后我们实行脚本举行安装
webui.bat --skip-torch-cuda-test --precision full --no-half

在安装的时间会安装onnxruntime这是我们使用iGPU举行模型推理的关键。但是安装的并不是directml版本,因此在脚本实行结束后,我们需要退出脚本并进入到工程目录下面的pyenv情况中手动安装onnxruntime-directml,具体下令如下
venv\Scripts\activate
pip uninstall onnxruntime
pip install onnxruntime-directml
#venv\Scripts\deactivate.bat
之后可以实行python下令检察当前onnxruntime支持的excutionprovider
import onnxruntime as ort

# 获取当前系统上可用的所有执行提供者
providers = ort.get_available_providers()

print("Available Execution Providers:")
for provider in providers:
    print(provider)
不出意外的话会看到dmlexcutionprovider,说明我们可以使用directml调用iGPU运行SD模型了。
项目设置

重新运行下令
webui.bat --skip-torch-cuda-test --precision full --no-half

在打开的web界面中找到Settings->ONNX Runtime,并按下图举行设置
https://i-blog.csdnimg.cn/blog_migrate/3b080eb86e45d969441d9d79b095857f.png
其中的”Use ONNX Runtime instead of Pytorch implementation“就是选择是否使用ONNXRuntime的,勾选后就能调用iGPU,取消勾选就是使用的CPU。
文生图测试

https://i-blog.csdnimg.cn/blog_migrate/e461f90c84ad896fc72f88043b8848b1.png
https://i-blog.csdnimg.cn/blog_migrate/f957aecc43c5b5fa16e3e9dca997053f.png
以上简单生成了一个小狗睡觉的图片,可以发现效果还可以。在实际测试中,发现采样20步使用CPU推理时需要1分半钟,使用GPU时只需要半分钟,速率有了显着的提升。
除此最基本的使用之外,还支持微调模型的使用,可以参考
【Stable Diffusion】微调模型详细教程 - embedding, hypernetwork, LoRA
参考资料



[*]StableDiffusion 适用于 Windows+DirectML+iGPU
[*]python多情况管理工具——pyenv-win安装与使用教程
[*]【Stable Diffusion】微调模型详细教程 - embedding, hypernetwork, LoRA

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
页: [1]
查看完整版本: AMD核显推理Stable Diffusion