AIGC研究回顾2—CV类微调方法—DreamBooth

打印 上一主题 下一主题

主题 546|帖子 546|积分 1638

1. 方法总结

   全参微调sd模型(用文生图方式),文中对目的(Object)用特别的标志(Rare-token Identifiers)限定,让微调后的模型能识别这个标志以生成对应的目的。
  论文方法的原图如下:

2. 方法概述

图中黄色部分的模型即需要微调的模型,精简理解如下:


  • 微调前
    可以把右侧下方的<黄色模型>看成预训练的sd(微调前), 这时,’A dog’生成各类狗。
  • 微调过程
    用3-5张含有特定类别的狗来微调<黄色模型>,这时的文本(text)需要在类别前 (文中记作[class noun],即狗)加一个特别字符(文中记作[V]), 即 ’A [V] dog’搭配对应的3-5张图片,微调sd生成图片类别中狗。
   留意:新增的特别标志可以是多个,即标注特定目的(object)外, 还可以对图片其他特性,如背景(subject)、目的颜色举行标志,这个在效果中有展示。
  

  • 微调设置

    • 损失函数:均方偏差,即reconstruction loss
    • 数据:目的图片3-5张
    • 学习率: Imagen为1e-5,SD为5e-6
    • 微调迭代次数:1000次左右
    • 时间斲丧: 5分钟(TPUv4 for Imagen, A100 for Stable Diffusion)

上述数据来自论文记录,原文如下:
  1. We find that 1000 iterations with lambda 1 and learning rate 1e-5 for Imagen [61] and 5e-6 for Stable Diffusion [59],
  2. and with a subject dataset size of 3-5 images is enough to achieve good results.
  3. During this process,  1000 a [class noun] samples are generated - but less can be used.
  4. The training process takes about 5 minutes on one TPUv4 for Imagen, and 5 minutes on a NVIDIA A100 for Stable Diffusion.
复制代码


  • 数据格式

3. 效果

3.1 基本功能

生成特定类别的目的


  • 卡通人物



  • 闹钟(最后一行)

  • 三个特定类别(书包、花瓶、茶壶)

3.2 额外标志

这里第1行新增了颜色标志,第2行新增了背景标志(在text末尾标志)

3.3 其他应用



  • 目的心情编辑



  • 目的装饰编辑

4. 失败案例

方法也不是完全有效,a案例是背景失效,b案例是目的和背景存在耦合,c案例是过拟合,即模型失效仅生成训练集图片

5. 总结

方法长处是简单有效,缺点是原论文有点故弄玄虚,过于“包装”了一些。
6. Reference



  • DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation
  • https://zhuanlan.zhihu.com/p/669827945

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

李优秀

金牌会员
这个人很懒什么都没写!

标签云

快速回复 返回顶部 返回列表