人工智能-没想到我还要求着AI动起来（Stable Diffusion进阶篇：ComfyUI SVD图片转视

络腮胡菲菲 发表于 2024-10-6 20:46:05

没想到我还要求着AI动起来（Stable Diffusion进阶篇：ComfyUI SVD图片转视

前言

在上一篇文章中讲到了怎样下载安装ComfyUI，目的就是为了今天的图片转视频，毕竟前次的Gen2让我的钱包不是很满意。
当然如果完全没接触过ComfyUI或者WebUI看这期视频跟着操作也是可以的，前提是得先下载安装好
本文涉及的工作流和插件，需要的朋侪请扫描免费获取哦
https://i-blog.csdnimg.cn/direct/b7c4d329f8144768b62c463116f1da97.png#pic_center
如果是已经接触过WebUI的小同伴们来说这篇文章照旧很好上手的。
在上篇文章的末端我简朴地操作了一遍ComfyUI而且用动图演示了一下：
https://i-blog.csdnimg.cn/blog_migrate/71e94c55785b6a4e7e7ddd1ca5ab603d.gif
这个就是ComfyUI的一个完整的工作流程，像我这样的比力懒的大概会以为要是想增加其他功能要连线什么的好麻烦，这个时候有一个简朴的方法。
打开ComfyUI的官方Github链接：
https://github.com/comfyanonymous/ComfyUI
https://i-blog.csdnimg.cn/blog_migrate/4ff1e3b0fea6761f9eddd2768c939712.png
选择这个ComfyUI Examples，打开之后会有很多工作流程：
https://i-blog.csdnimg.cn/blog_migrate/2f9ef39348f4ad4331afa6d0317696f9.png
然后点击进入，例如我点开这个3D，就会进入到这样的页面
https://i-blog.csdnimg.cn/blog_migrate/76e165140db7fae967c1f6b6679c504e.png
然后将这张图片保存到本地，之后只需要将图片拖到ComfyUI界面中，体系就会主动辨认到这个工作流程并更新。
https://i-blog.csdnimg.cn/blog_migrate/69c4e80bbcee3a90d403a99138fa9580.gif
怎么样，是不是超级无敌方便，同时也可以根据本身的喜好对工作流进行微调，之后记得点击右侧的Save保存即可，这样也方便后续的导入利用。
好了，简朴的先容学习就到这里，让我们来进入今天的正题吧！
https://i-blog.csdnimg.cn/blog_migrate/a97b49bebe3d2e86cffd459716820ad2.png
SVD的准备工作
固然之前大概讲过但是这里再复习一次，SVD全称是Stable Video Diffusion稳定视频扩散模型，是由Stabilityai公司开源发布的图像转视频的潜伏扩散模型。
从效果上看Svd的天生效果略优于pika和runway(Gen2)，同时SVD是免费开源的模型。
免费的东西谁不喜好呢？只需要在Hugging face上下载svd模型就可以。
https://i-blog.csdnimg.cn/blog_migrate/2fe779df630027d6df71d6a0f0bc6ead.png
这里有两个模型，分别是svd模型和svd xt模型，之前下载过的小同伴可以不需要再下载。
这两个模型的区别在于svd模型可以天生14帧的动画而svd xt可以天生25帧的动画，如果装备比力不错例如3060以上性能的可以下载svd xt试试。
除此之外还需要安装一个节点软件：ComfyUI-VideoHelperSuite
https://i-blog.csdnimg.cn/blog_migrate/cb2596ccfe12901fdfb444c54d54c8a7.png
如果之前学过animatediff就应该下载过，这个插件在工作流中需要用到video combine模块，这模块可以方便保存和导出不同格式的视频。
这些节点软件下载好后都要解压放在这个custom_nodes文件夹中：
**根目录:\ComfyUI\ComfyUI_windows_portable\ComfyUI\custom_nodes
**
https://i-blog.csdnimg.cn/blog_migrate/0280100c75af52d1d004971495e52cf1.png
准备完毕之后就正式开始今天的学习啦！
**SVD的利用（逐步操作）
**
第一步：
打开ComfyUI保持默认的工作流，然后在空缺处鼠标左键双击输入SVD，然后就会弹出SVD_imag2vid_Conditioning
https://i-blog.csdnimg.cn/blog_migrate/534a34424cdfe2a3ab9ad1b9499678bb.gif
这个模块的功能是以SVD图片转视频为条件
第二步：
‍由于SVD_imag2vid_Conditioning上并没有可以毗连Checkpoint的地方，所以要点击‍Clip_vision往左拖拽，选择Image Only Checkpoint Loader(imag2vid model)‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍
https://i-blog.csdnimg.cn/blog_migrate/d37706e341d1bcf717b1f50a4299c35c.gif
而且将模型上的VAE节点毗连回SVD的vae上，这样Clip bision节点就毗连好了。
https://i-blog.csdnimg.cn/blog_migrate/3aecccf43527d7d2fb5f703688a97fad.png
接下来就把赤色框内的模块都删撤除，用不着了
https://i-blog.csdnimg.cn/blog_migrate/300d23585a2d068a8fccdf81f8aa9c7d.png
第三步：
在空缺处鼠标左键双击，搜LoadIMAGE，这样得到的模块可以将用来转为视频的图片加载进来。简朴来说就是用来放想要动起来的图片的。
https://i-blog.csdnimg.cn/blog_migrate/f6ed358f5b1f3634938be603c4c2f539.gif
而且将图片节点毗连到int_image上
https://i-blog.csdnimg.cn/blog_migrate/ca83737cfc3cb473714d67fac76f36ba.png
第四步：
将前两个模块分别毗连到KSampler上，分别对应正提示词、负提示词、潜空间和模型。
https://i-blog.csdnimg.cn/blog_migrate/322a4ddefe186003d682b5095ea1ee13.gif
https://i-blog.csdnimg.cn/blog_migrate/9e0e38a8aeff5141c28e2c54170fd26b.png
**第五步（接下来我的电脑出现了点题目，部门演示暂时用教程视频截图替代）：
**
鼠标左键双击空缺处，输入VideoCombine得到该节点。
https://i-blog.csdnimg.cn/blog_migrate/f6df47667d279d1cfee9878dc88875e0.png
这个节点是需要下载了先前的VideoHelperSuite才有，然后将VAE与该节点进行毗连，目的是为了可以或许更好地把输出的图片序列转换为视频。
https://i-blog.csdnimg.cn/blog_migrate/36a89b72417e0be3d2a4ddf363a92f0c.png
与此同时将filename_prefix也就是前缀改为svd，format视频格式改为video/h264-mp4
https://i-blog.csdnimg.cn/blog_migrate/c165becc7cc4b0611cf95e45f76e3970.png
第六步：
在鼠标右键检察图像属性后，将对应的原图像宽高输入进SVD_img2vid_Conditioning中
https://i-blog.csdnimg.cn/blog_migrate/097cb97300b1fa8b80bb0373c7d8db62.png
然后再将一条VAE的线从Image Only Checkpoint Loader毗连到VAE Decode
https://i-blog.csdnimg.cn/blog_migrate/2ad2de6ce0a134e5945d9c0cf3791d98.gif
https://i-blog.csdnimg.cn/blog_migrate/b3ddad4efc0a3cbeb270f0c1fc1e9642.png
第七步：
这个时候实在已经可以天生动图了，但是在这个情况下天生的效果颜色差别会过大画面崩坏。
究其原因是因为KSample上的CFG数值为8，在文生图的情况下CFG的数值为5-8，而利用SVD的时候发起数值为1-3区间。
https://i-blog.csdnimg.cn/blog_migrate/c05aa8dff43a2543c9f33ac351dec390.png
当CFG越接近1，其初始图像对画面的控制力就越小。但是因为这里用的初始图像是人物，所以将CFG值改为3最好。
这样图像效果看着还可以（取自原视频教程演示）
https://i-blog.csdnimg.cn/blog_migrate/d8904d681b106d6709076ceb24daac62.gif
‍**第八步：**‍
固然看着已经差不多了，但是需要一些操作。这里空缺处双击鼠标右键，输入VideoLinearCFGGuidance。
https://i-blog.csdnimg.cn/blog_migrate/904e77592baace5ff5e2d86d076a8cbc.gif
‍这个模块通过跨帧缩放CFG来进行视频采样，听着有点像之前的Ebsynth。
根据原教程来说：距离初始图像距离较远的帧会渐渐接受较高的CFG值。
将这个模块与SVD和KSample毗连起来
https://i-blog.csdnimg.cn/blog_migrate/abd6c6175c4c9faad4830a37a167eb61.gif
https://i-blog.csdnimg.cn/blog_migrate/6f09ab62d70c82125f3dd69969d93f98.png
再次天生试试看：
https://i-blog.csdnimg.cn/blog_migrate/9ac54af6324a60ff4cc11bbcfe3da2b1.gif
可以看到人物的动作更丰富了些，但是由于初始CFG值较低，肢体和面部会有比力显着的崩坏感。
第八步：
接下来就需要到SVD中进行参数调整
https://i-blog.csdnimg.cn/blog_migrate/3461bb1dec4129f7b6bf59ea43a771a2.png
这个width和height很好理解，就是天生视频的宽高，发起尺寸在1500以内。
video_frames就是天生的运动帧数，根据硬件装备条件设置，一般推荐在25帧以内。
motion_bucket_id数值越高，输出画面中的运动幅度就越大。一般数值在100以内，最多不超过200。
FPS(frames per second)就很好理解了，就是每秒的帧数，在这里一般为6或者8。
agumentation_level是指添加到输入图像的噪声量，较高的噪声会低落与输入图像的相似度，一般在0.1以内最多不超过0.5
将参数调整后再试一次：
https://i-blog.csdnimg.cn/blog_migrate/460df0b3dc0884b6d4cf6119418c2258.png
https://i-blog.csdnimg.cn/blog_migrate/6aa5a00ebdf34e2f71a2c81c67d9bce0.gif
适当地增加Augmentation_level并不会使得画面崩坏，反而使得人物动作更加自然。
在视频制作中CFG、Motion_bucket_id和augmentation_level都是需要进行动态调整的，不同的画面主体需要不同的参数，实在不知道要怎么做的可以利用下面的官方推荐参数：
https://i-blog.csdnimg.cn/blog_migrate/a0c791f17bf60b0faa347db1d710d632.png
**题目总结：**‍
目前的操作过程中有个题目大概会出现
有些同学大概找不到Video Combine跟我一样，那就有几个大概，第一是VideoHelperSuite没有放在custom_nodes文件夹中。
https://i-blog.csdnimg.cn/blog_migrate/852bc14b958e1dbc2f26580363da43c4.png
如果确认在文件夹中但是仍旧没有搜索到的话可以有两个选择，下载一个管理包（毗连在文末），用管理文件来下载插件：
https://i-blog.csdnimg.cn/blog_migrate/8e8f4073215d756e138bb71b7359a61f.png
如果出现了下载失败的情况，那我暂时也没办法，可以私信我我找到办法了就复兴。
第二种选择是去B站搜索秋葉启动器，之前不停用的是WebUI版本实在也有ComfyUI版本可以下载。
如果还有什么其他题目可以看原视频教程的评论区，我会把链接都放在文末。
那今天的内容就到这里竣事啦！大伙下篇笔记见，拜了个拜！
https://i-blog.csdnimg.cn/blog_migrate/1e67a7b4310a622f6a0f22443f7cef45.png
1girl, upper body, psychedelic, latex bodysuit,wavy hair, splashing, abstract background
Negative prompt: (worst quality:2), (low quality:2), (normal quality:2), lowres, bad anatomy, watermark

[*] Steps: 20
[*] Sampler: DPM++ 2M Karras
[*] CFG scale: 7
[*] Seed: 3403042071
[*] Size: 512x512
[*] Model hash: e4a30e4607
[*] Model: majicmixRealistic_v6
[*] Denoising strength: 0.7
[*] Clip skip: 2
[*] Hires upscale: 2
[*] Hires upscaler: R-ESRGAN 4x+
[*] Version: v1.6.0-2-g4afaaf8a0
这里直接将该软件分享出来给大家吧~
1.stable diffusion安装包

随着技能的迭代，目前 Stable Diffusion 已经可以或许天生非常艺术化的图片了，完全有赶超人类的架势，已经有不少工作被这类服务替代，比如制作一个 logo 图片，画一张虚拟老婆照片，画质堪比相机。
最新 Stable Diffusion 除了有win多个版本，就算说底端的显卡也能玩了哦！此外还带来了Mac版本，仅支持macOS 12.3或更高版本。
https://i-blog.csdnimg.cn/blog_migrate/b84186be45babb6077644773e3d6c2c1.png
2.stable diffusion视频合集

我们在学习的时候，往往书籍源码难以理解，阅读困难，这时候视频教程教程是就很适合了，生动形象加上案例实战，一步步带你入坑stable diffusion，科学风趣才能更方便的学习下去。
https://i-blog.csdnimg.cn/blog_migrate/829988ae58ef7d916bf2e9df63020281.png
3.stable diffusion模型下载

stable diffusion往往一开始利用时图片等无法到达理想的天生效果，这时则需要通过利用大量练习数据，调整模型的超参数（如学习率、练习轮数、模型大小等），可以使得模型更好地顺应数据集，并天生更加真实、准确、高质量的图像。
https://i-blog.csdnimg.cn/blog_migrate/62633e70f668ee42a601a31017ba4e6e.png
4.stable diffusion提示词

提示词是构建由文本到图像模型解释和理解的单词的过程。可以把它理解为你告诉 AI 模型要画什么而需要说的语言，整个SD学习过程中都离不开这本提示词手册。
https://i-blog.csdnimg.cn/blog_migrate/0581dbb9ef9e0ed359201f5a37fd23c9.png
5.SD从0到落地实战演练

https://i-blog.csdnimg.cn/blog_migrate/11f12cfbf4da8f3fb1bd9bf2ec58a7cf.png
如果你能在15天内完成所有的任务，那你堪称天才。然而，如果你能完成 60-70% 的内容，你就已经开始具备成为一名SD大神的精确特性了。
这份完整版的stable diffusion资料我已经打包好，需要的点击下方插件，即可前往免费领取！
https://i-blog.csdnimg.cn/direct/f8d90af65eb945aea4802cb81f571e68.png#pic_center

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

页: [1]

qidao123.com技术社区-IT企服评测·应用市场's Archiver

没想到我还要求着AI动起来（Stable Diffusion进阶篇：ComfyUI SVD图片转视