汕尾海湾 发表于 2024-9-22 13:43:40

AIGC学习条记

提示:文章写完后,目次可以主动天生,怎样天生可参考右边的帮助文档
媒介

提示:这里可以添加本文要记载的大概内容:
记载一下学习AIGC,参考链接: 爆火的AIGC到底是什么
提示:以下是本篇文章正文内容,下面案例可供参考
一、stable diffusion

1.1 diffusion model

正向扩散:
                                                            x                                  t                                          =                                                      α                                     ˉ                                                                  x                                  0                                          +                                                      1                                     −                                                                  α                                           ˉ                                                      t                                                                   ε                                    x_t=\sqrt{\bar{\alpha}}x_0+\sqrt{1-\bar{\alpha}_t}\varepsilon                        xt​=αˉ            ​x0​+1−αˉt​            ​ε
逆向扩散:计算太复杂,练习网络来模仿
练习过程:为每个图像随机选择时间步长 t ,将高斯噪声应用于图像,将时间步长转换为嵌入向量。
练习步骤:随机选择一个时间步长编码,通过扩散公式向图像中添加噪声,将添加噪声后的图片输入,练习U-Net,比较预测的噪声和实际的差距,重复步骤。
采样

采样就是把噪声图像还原。
步骤:


[*]采样一个高斯噪声,T确定。
[*]利用练习的 U-Net 预测图像的噪声,利用如下公式一步一步推导出原图像:
                                                            x                                             t                                     −                                     1                                                      =                                           1                                                             α                                        t                                                                               (                                             x                                     t                                              −                                                             1                                        −                                                       α                                           t                                                                                             1                                           −                                                                            α                                                 ˉ                                                            t                                                                                                   ε                                     θ                                                         (                                                   x                                        t                                                ,                                     t                                     )                                              )                                          +                                                      β                                     t                                                      ε                                    x_{t-1}=\frac{1}{\sqrt{\alpha _t}}\left( x_t-\frac{1-\alpha _t}{\sqrt{1-\bar{\alpha}_t}}\varepsilon _{\theta}\left( x_t,t \right) \right) +\sqrt{\beta _t}\varepsilon                        xt−1​=αt​                     ​1​(xt​−1−αˉt​                      ​1−αt​​εθ​(xt​,t))+βt​            ​ε


[*]输出去噪图像
这样一步一步太慢,以是有了stable diffusion。
1.2 stable diffusion



[*]通过使用练习过的编码器 E ,压缩图像。
[*]通过使用练习过的解码器 D ,还原图像。
将图像压缩以后,在潜伏空间中举行正向和反向扩散。
stable diffusion可以根据文本天生图像。


[*]先用语言模型(Transformer)将文本转换为嵌入向量,通过multi-Attention机制映射到U-net。
练习

和上面的练习过程差不多,不一样的地方:


[*]输入的是潜伏数据不是原图像。
[*]添加了个条件输入                                                   τ                               θ                                    (                            y                            )                                  \tau_{\theta}(y)                     τθ​(y)(这个就是语言模型中用来把文本转换为嵌入的)。
总结

Stable Diffusion 要比 Diffusion Model 快很多。
二、Generative AI

2.1 单模态

只能接受单一类型的输入,产生对应类型的输出。


[*]天生式语言模型:GPT-3
[*]天生式视觉模型:GAN、VAE
2.2多模态

2.2.1 视觉语言Encoder:concatenated encoder(级联编码器)、cross-aligned encoder(交织对齐编码器)



[*]concatenated encoder:将两个不同模态的模型连接起来
[*]cross-aligned encoder:使用tow-tower结构,各自单独学习,然后对两个模态的特性举行连合表达
文本音频天生

文本代码天生

三、回首一下Transformer

3.1 Attention



[*]计算相似性
                                              S                               i                                           m                                  i                                          =                               Q                               u                               e                               r                                           y                                  i                                          ⋅                               K                               e                                           y                                  i                                                 Sim_i=Query_i\cdot Key_i                        Simi​=Queryi​⋅Keyi​
[*]计算                                                   a                               i                                          a_i                     ai​
                                                          a                                  i                                          =                               s                               o                               f                               t                               m                               a                               x                               (                               S                               i                                           m                                  i                                          )                               =                                                      e                                                   S                                        i                                                       m                                           i                                                                                                    ∑                                                       j                                           =                                           1                                                                     L                                           x                                                                              e                                                       S                                           i                                                         m                                              j                                                                                                       a_i=softmax(Sim_i)=\frac{e^{Sim_i}}{\sum_{j=1}^{L_x}{e^{Sim_j}}}                        ai​=softmax(Simi​)=∑j=1Lx​​eSimj​eSimi​​
[*]计算                                       A                            t                            t                            e                            n                            t                            i                            o                            n                                  Attention                     Attention
                                              A                               t                               t                               e                               n                               t                               i                               o                               n                               =                                           ∑                                             i                                     =                                     1                                                         L                                     x                                                                  a                                  i                                          V                               a                               l                               u                                           e                                  i                                          (                               K                               e                                           y                                  i                                          =                               V                               a                               l                               u                                           e                                  i                                          =                                           h                                  i                                          )                                    Attention=\sum_{i=1}^{L_x}a_iValue_i (Key_i=Value_i=h_i)                        Attention=i=1∑Lx​​ai​Valuei​(Keyi​=Valuei​=hi​)
                                                    h                               i                                          h_i                     hi​是Encoder里面的隐含层。
3.2 self-Attention

和上面一样,                                 Q                         u                         e                         r                         y                         =                         K                         e                         y                              Query=Key                  Query=Key。

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
页: [1]
查看完整版本: AIGC学习条记