AIGC研究回顾2—CV类微调方法—DreamBooth

李优秀 · 2024-12-20 07:44:43

1. 方法总结

全参微调sd模型（用文生图方式），文中对目的(Object)用特别的标志(Rare-token Identifiers)限定，让微调后的模型能识别这个标志以生成对应的目的。
论文方法的原图如下：

2. 方法概述

图中黄色部分的模型即需要微调的模型，精简理解如下：

微调前
可以把右侧下方的<黄色模型>看成预训练的sd(微调前)，这时，’A dog’生成各类狗。
微调过程
用3-5张含有特定类别的狗来微调<黄色模型>，这时的文本（text)需要在类别前（文中记作[class noun],即狗）加一个特别字符(文中记作[V])，即 ’A [V] dog’搭配对应的3-5张图片，微调sd生成图片类别中狗。

留意：新增的特别标志可以是多个，即标注特定目的(object)外, 还可以对图片其他特性，如背景(subject)、目的颜色举行标志，这个在效果中有展示。

上述数据来自论文记录，原文如下：

We find that 1000 iterations with lambda 1 and learning rate 1e-5 for Imagen [61] and 5e-6 for Stable Diffusion [59],
and with a subject dataset size of 3-5 images is enough to achieve good results.
During this process, 1000 a [class noun] samples are generated - but less can be used.
The training process takes about 5 minutes on one TPUv4 for Imagen, and 5 minutes on a NVIDIA A100 for Stable Diffusion.

复制代码

3. 效果

3.1 基本功能

生成特定类别的目的

3.2 额外标志

这里第1行新增了颜色标志，第2行新增了背景标志（在text末尾标志）

3.3 其他应用

4. 失败案例

方法也不是完全有效，a案例是背景失效，b案例是目的和背景存在耦合，c案例是过拟合，即模型失效仅生成训练集图片

5. 总结

方法长处是简单有效，缺点是原论文有点故弄玄虚，过于“包装”了一些。
6. Reference

DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation
https://zhuanlan.zhihu.com/p/669827945

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

		自动登录	找回密码
密码			立即注册

0 个回复