马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。
您需要 登录 才可以下载或查看,没有账号?立即注册
x
提示:文章写完后,目次可以主动天生,怎样天生可参考右边的帮助文档
媒介
提示:这里可以添加本文要记载的大概内容:
记载一下学习AIGC,参考链接: 爆火的AIGC到底是什么
提示:以下是本篇文章正文内容,下面案例可供参考
一、stable diffusion
1.1 diffusion model
正向扩散:
x t = α ˉ x 0 + 1 − α ˉ t ε x_t=\sqrt{\bar{\alpha}}x_0+\sqrt{1-\bar{\alpha}_t}\varepsilon xt=αˉ x0+1−αˉt ε
逆向扩散:计算太复杂,练习网络来模仿
练习过程:为每个图像随机选择时间步长 t ,将高斯噪声应用于图像,将时间步长转换为嵌入向量。
练习步骤:随机选择一个时间步长编码,通过扩散公式向图像中添加噪声,将添加噪声后的图片输入,练习U-Net,比较预测的噪声和实际的差距,重复步骤。
采样
采样就是把噪声图像还原。
步骤:
- 采样一个高斯噪声,T确定。
- 利用练习的 U-Net 预测图像的噪声,利用如下公式一步一步推导出原图像:
x t − 1 = 1 α t ( x t − 1 − α t 1 − α ˉ t ε θ ( x t , t ) ) + β t ε x_{t-1}=\frac{1}{\sqrt{\alpha _t}}\left( x_t-\frac{1-\alpha _t}{\sqrt{1-\bar{\alpha}_t}}\varepsilon _{\theta}\left( x_t,t \right) \right) +\sqrt{\beta _t}\varepsilon xt−1=αt 1(xt−1−αˉt 1−αtεθ(xt,t))+βt ε
这样一步一步太慢,以是有了stable diffusion。
1.2 stable diffusion
- 通过使用练习过的编码器 E ,压缩图像。
- 通过使用练习过的解码器 D ,还原图像。
将图像压缩以后,在潜伏空间中举行正向和反向扩散。
stable diffusion可以根据文本天生图像。
- 先用语言模型(Transformer)将文本转换为嵌入向量,通过multi-Attention机制映射到U-net。
练习
和上面的练习过程差不多,不一样的地方:
- 输入的是潜伏数据不是原图像。
- 添加了个条件输入 τ θ ( y ) \tau_{\theta}(y) τθ(y)(这个就是语言模型中用来把文本转换为嵌入的)。
总结
Stable Diffusion 要比 Diffusion Model 快很多。
二、Generative AI
2.1 单模态
只能接受单一类型的输入,产生对应类型的输出。
- 天生式语言模型:GPT-3
- 天生式视觉模型:GAN、VAE
2.2多模态
2.2.1 视觉语言Encoder:concatenated encoder(级联编码器)、cross-aligned encoder(交织对齐编码器)
- concatenated encoder:将两个不同模态的模型连接起来
- cross-aligned encoder:使用tow-tower结构,各自单独学习,然后对两个模态的特性举行连合表达
文本音频天生
文本代码天生
三、回首一下Transformer
3.1 Attention
- 计算相似性
S i m i = Q u e r y i ⋅ K e y i Sim_i=Query_i\cdot Key_i Simi=Queryi⋅Keyi
- 计算 a i a_i ai
a i = s o f t m a x ( S i m i ) = e S i m i ∑ j = 1 L x e S i m j a_i=softmax(Sim_i)=\frac{e^{Sim_i}}{\sum_{j=1}^{L_x}{e^{Sim_j}}} ai=softmax(Simi)=∑j=1LxeSimjeSimi
- 计算 A t t e n t i o n Attention Attention
A t t e n t i o n = ∑ i = 1 L x a i V a l u e i ( K e y i = V a l u e i = h i ) Attention=\sum_{i=1}^{L_x}a_iValue_i (Key_i=Value_i=h_i) Attention=i=1∑LxaiValuei(Keyi=Valuei=hi)
h i h_i hi是Encoder里面的隐含层。
3.2 self-Attention
和上面一样, Q u e r y = K e y Query=Key Query=Key。
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。 |