IT评测·应用市场-qidao123.com技术社区

标题: 多模态论文条记——CogVLM和CogVLM2 [打印本页]

作者: 冬雨财经    时间: 2025-1-7 18:22
标题: 多模态论文条记——CogVLM和CogVLM2
各人好,这里是好评条记,公主号:Goodnote,专栏文章私信限时Free。本文具体先容多模态模型的LoRA版本——CogVLM和CogVLM2。在SD 3中使用其作为captioner基准模型的原因和优势。
  

   
   
  起首我们必要知道CogVLM是主要用于图像生成文本的。在此之前,我们已经先容了BLIP和BLIP2,但是BLIP模型生成的文本描述较为简单,模型训练则必要更具体、准确的图像描述或字幕。
在上期文章中将先容了模型Coca(Contrastive Captioners,谷歌出品),OpenAI的DALL·E 3在处置惩罚图像-文本训练数据集就是基于谷歌的CoCa模型,微调一个image captioner,用来合成图像的caption。
   Coca参考历史文章:多模态论文条记——Coca
  同样,在SD 3中也使用了模型去优化图像-文本数据会合的文本描述,只不外SD 3中使用了CogVLM。
SD 3先容参考 SD 系列文章:Stable Diffusion 3详解
CogVLM

论文

CogVLM: Visual Expert for Pretrained Language Models
背景

VLMs 的任务与挑衅

VLM 的应用任务: 视觉语言模型具有广泛的应用场景,例如:图像描述、视觉问答、视觉定位、分割等。这些任务必要模型具备强大的多模态推理本事,而这种本事通常依赖于对视觉和语言数据的深度理解与融合
训练 VLM 的挑衅: 训练与大规模语言模型(如 LLaMA2)性能相匹配的 VLM 是一项复杂任务。当前的主流方法是复用已有的预训练语言模型(如 GPT),并在此基础上扩展视觉处置惩罚本事。而这个扩展过程的核心挑衅在于解决视觉特征和语言特征的对齐问题。
现有方法及其局限性

浅层对齐方法(Shallow Alignment Methods)

代表方法有 BLIP 2(原文为:InstructBLIP,)MiniGPT-4

   BLIP2 参考历史文章:多模态论文条记——BLIP2
  深度融合方法(Deep Fusion Methods)

代表方法有 LLaVA-1.5PaLIQwen-VL

   注意:
  
  CogVLM 的创新点

CogVLM 提出了新的解决方案,答复了一个核心问题:是否能在保留语言模型 NLP 本事的同时,赋予其强大的视觉理解本事?
CogVLM 的方法:引入视觉专家(Visual Expert)

   这个灵感来源于:P-Tuning 与 LoRA 的对比
  
  P-Tuning和LoRA请分别参考微调系列文章:
  
  模型架构


   图4. CogVLM的架构。(a) 关于输入的示意图,其中一张图像由预训练的ViT处置惩罚,并映射到与文本特征相同的空间。(b) 语言模型中的Transformer模块。图像特征具有差别的QKV矩阵和FFN。只有紫色部门是可训练的。
  CogVLM模型共包罗四个基本组件:ViT 编码器,MLP 适配器,预训练大语言模型(GPT-style)和视觉专家模块。
视觉专家模块

在传统的多模态模型中,图像在处置惩罚过程中每每被看成“附庸”来处置惩罚,图像特征通常被直接对齐到文本特征的输入空间(拼接到一起,如LLaVA、ViT、ViLT等)。

CogVLM 通过引入 视觉专家 来改变这一思绪,接纳 视觉优先 的方法。

架构

CogVLM 中,视觉专家模块被引入到每一层,以实现深度视觉-语言特征融合。这个模块主要由两部门组成:
工作流程

视觉专家模块在每个transformer层对图像特征进行专门处置惩罚,使得模型更好理解和融合视觉信息。
输入拆分

起首,输入的隐藏状态                                    X                              X                  X(hidden states)会被拆分成图像隐藏状态(                                             X                            I                                       X_I                  XI​)和文本隐藏状态(                                             X                            T                                       X_T                  XT​)。
   其中,输入的隐藏状态为                                         X                            ∈                                       R                                           B                                  ×                                  H                                  ×                                  (                                               L                                     I                                              +                                               L                                     T                                              )                                  ×                                  D                                                       X \in \mathbb{R}^{B \times H \times (L_I + L_T) \times D}                     X∈RB×H×(LI​+LT​)×D:
  
  注意力计算

视觉专家模块中的注意力机制计算过程如下:
FFN层

在计算完注意力后,视觉和文本特征会被进一步通报到前馈神经网络(FFN)层
                                         FFN                            (                            X                            )                            =                            concat                            (                                       FFN                               I                                      (                                       X                               I                                      )                            ,                                       FFN                               T                                      (                                       X                               T                                      )                            )                                  \text{FFN}(X) = \text{concat}(\text{FFN}_I(X_I), \text{FFN}_T(X_T))                     FFN(X)=concat(FFNI​(XI​),FFNT​(XT​))

训练细节

CogVLM的训练是氛围两阶段,第一阶段进行预训练,第二阶段,对卑鄙任务进行针对性微调。
   这个两阶段的训练过程,在大模型中很常见,例如LLaVA也是两阶段:
  
  LLaVA参考历史文章:多模态论文条记——LLaVA

  1. 预训练阶段

数据集:

预训练超参数:参考论文原文表5。
预训练第一阶段:图像描述损失函数

在预训练的第一阶段,主要使用 图像描述损失函数 来进行训练,目标是让模型学会根据图像生成描述文本。具体来说,模型被训练去猜测图像对应的文本序列中的下一个标记(token)。
   使用了15亿图像文本对,进行12万次迭代,批量大小为8192。
  
预训练第二阶段:图像描述损失函数 + 指代表达理解(REC)任务的损失函数

第二阶段,除了图像描述任务外,还引入了 指代表达理解(REC)任务。REC任务要求根据物体的文本描述猜测图像中的边界框位置,接纳雷同VQA的训练形式(问题:物体在那里?答案:                                   [                                   x                            0                                  ,                                   y                            0                                  ,                                   x                            1                                  ,                                   y                            1                                  ]                              [x_0,y_0,x_1,y_1]                  [x0​,y0​,x1​,y1​])。
   在第二阶段,训练进行了6万次迭代,批量大小为1024,最后3万次迭代中提拔了输入分辨率(从224×224到490×490),以增长图像细节和增强模型的泛化本事。
  
2. SFT有监视微调


这些训练细节展示了 CogVLM 的多阶段训练过程,其中预训练和微调的联合确保了模型可以或许高效地理解和生成图像与文本之间的关系。
CogVLM2

论文

CogVLM2: Visual Language Models for Image and Video Understanding
优化

CogVLM 2与第一代CogVLM雷同,CogVLM 2在注意力和FFN模块中都接纳了视觉专家的架构。这种架构创新促进了视觉和语言特征的深度融合,同时保留了模型固有的语言本事。
与第一代模型差别,CogVLM 2进一步接纳2×2下采样模块,在保持效率的同时提高输入分辨率,并使用LLaMA 3-8B作为LLM骨干。别的,我们从多样性和质量方面不断增强训练前和训练后数据,具体信息见第3.1节和第4.1节。
CogVLM2CogVLM 的基础上做了多项优化和改进,主要表现在以下几个方面:
1. 视觉专家模块的改进


2. MLP 适配器的增强


3. 视觉优先的加强


历史文章

呆板学习

呆板学习条记合集
深度学习

深度学习条记合集
多模态论文

深度学习条记——ViT、ViLT
深度学习条记——DiT(Diffusion Transformer)
深度学习条记——CLIP、BLIP
多模态论文条记——BLIP2
深度学习条记——VQ-VAE和VQ-VAE-2
多模态论文条记——dVAE(DALL·E的核心部件)
多模态论文条记——LLaVA
多模态论文条记——Coca

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。




欢迎光临 IT评测·应用市场-qidao123.com技术社区 (https://dis.qidao123.com/) Powered by Discuz! X3.4