LLM推理优化系统工程概述
停止到目前市面上比较主流的基于笔墨生成影像的模型都是基于了3大部分构成的。
Encoder Model , Generation Model ,Decoder Model。而且这三个部分是分开训练,然后组合在一起从而构成了文生图大模型。
图片来源于B站李宏毅教授讲问生图原理,侵删。
下面我们可以看一下Stable Diffusion, DAll -E ,以及Imagen的架构示意图。它们基本上也都是基于这三大部分构成的。
一、关键的前置认知:
1.1 基础概念:
FID分数:是一种衡量生成图像质量的指标,较低的FID分数表示更好的图像质量。
- “red points: real images” 表示红色点代表真实图像的特征向量。
- “blue points: generated images” 表示蓝色点代表生成图像的特征向量。
- “FID = Frechet distance between the two Gaussians” 表示FID是两个高斯分布之间的弗雷歇距离。
- “Smaller is better” 表示FID值越小,表示生成图像的质量越好。
CLIP Score:是一个用于评估文本到图像生成任务中生成图像与输入文本相关性的指标。
即文本进变向量,图像进变向量。然后比较两个向量在高斯分布上的距离。分值越高越好。
1.2 紧张结论:
(a)表现了差别巨细(Small, Large, XL, XXL)的T5编码器对最终图像生成质量的影响。随着T5模型巨细的增加,其在低CLIP Score范围内的表现有所改善,但高出某个阈值后,较大的模型不再显著提拔图像质量,乃至大概导致过拟合,从而影响性能。
(b)展示了差别巨细(300M, 500M, 1B, 2B参数量)的U-Net模型对图像生成质量的影响。随着模型复杂度(即参数量)的增加,U-Net在进步图像质量方面表现出了肯定的优势,但在高CLIP Score区域,较大的模型大概会导致过拟合,从而影响生成图像的质量。
综上,在生成图像模型中,编码器(如T5)的紧张性高出了生成模型(如U-Net)。具体表现为,随着编码器规模的增加,生成图像的质量显著进步,而生成模型规模的增加对生成图像质量的提拔相对较小。因此,编码器在生成图像模型中的作用更为关键。
即,一个好的文生图模型,Encoder是关键的核心,而且其关键程度要大于Generation Model!!!
二、文生图模型的工作原理
2.1 文生图模型的基本原理
- 其核心的逻辑是,
- 正向(加噪过程):一张图像 —> 加噪 —> 加噪 —>加噪… 直至酿成纯噪声
- 反向(去噪过程):纯噪声 —> 去噪 —> 去噪 —>去噪… 直至还原成一张图片
- 这是一个AE(Auto Encoder)模型的变体,即自编码模型
- 学习的过程就是,将一段向量转换成一张图片的过程(加噪,去噪的过程)。
- 实际推理的过程,就是“噪声”变向量的过程。
2.2 正向(Forward Process)&反向(Backward Process)过程逻辑阐明:
上图就是一个典型加噪过程。在Encoder对图像举行编码后,开始分步调加躁。直至加至纯噪声。不外这时的“纯噪声”实际上是指图像已经无法辨认出其原始内容,但严格来说,它并不是一个完全随机的噪声向量。它的像素值仍然遵循某种概率分布,但不再保存任何关于原始图像的信息。
上图就是一个典型降噪的过程。我们会看到一系列重复的去噪模块(Denoise Block),每个模块都试图从当前的噪声图像中移除一部分噪声。每次去噪操作后,图像的某些部分变得更加清晰,表现出更多的布局信息。例如,我们可以观察到一些颜色块逐渐形成图案,暗示着图像内容的逐步规复。
去噪过程是循环举行的,每次迭代都会使图像更加靠近原始状态。图片中展示了多轮迭代的效果,可以看到图像从最初的混乱状态逐渐变革为具有更多可识别特征的状态。
2.3 解码器(Decoder)的原理
在最后一轮去噪之后,图像被传递给一个解码器(Decoder)。解码器的任务是将去噪后的特征重新组合成完整的图像。
其实核心本质,就是把所谓的中间产物(Latent Representation) 还原为一张图片。让生成图片与原始图片向量,在高斯分布上,越靠近越好。
通过大量的数据举行训练,使整个模型学习文本和图像之间的对应关系。
2.4 推理过程阐明
- 首选输入文档,例如:“一只雪地里的猫”;
- 利用预训练的文本编码器(如BERT、T5)将文本描述转换为固定长度的向量表示;
- 将文本编码的向量作为条件输入到图像生成模型中;–Vtext
- 生成模型从一个随机噪声向量开始; – Z
- 通过一系列生成步调,逐步减少噪声,规复图像的布局信息。逐步将噪声向量转换为与文本描述匹配的图像。 – Vtext和Z生成中间特征向量f
- 生成模型输出一张图像,该图像应与输入的文本描述相匹配。-- f转换为生成的图像Xgen
以下是,训练过程与推理过程在架构上的区别示意图:
推理过程的核心本质是,首先举行多模态抽特征,生成一个向量。由这个向量去干扰去噪的过程。由此可以实现控制生成的结果。
针对所有自学遇到困难的同学们,我帮各人系统梳理大模型学习脉络,将这份 LLM大模型资料 分享出来:包括LLM大模型册本、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程等, |