马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。
您需要 登录 才可以下载或查看,没有账号?立即注册
x
✅ 目次
章节编号标题第1章多模态联合训练的三种典型场景第2章图文音输入的数据表示方式全解第3章多模态模子的主流融合架构分析第4章如何实现模态间对齐?语义 × 时间 × 空间第5章联合训练的丧失函数筹划与优化策略第6章工程实战:如何用开源框架构建图文联合训练模子第7章工程实战:如何做多模态预处置惩罚 × 批处置惩罚 × 模态掩码训练第8章模态扩展与适配机制:如何快速集成新模态(如视频/传感器)第9章模子性能评估指标:明白一致性 × 多模态精度 × 概念覆盖率第10章多模态模子的未来趋势与开发发起 第1章 多模态联合训练的三种典型场景
多模态联合训练不是噱头,它是构建通用智能的关键一步。
而现在在大模子领域最主流的多模态训练目标,大致分为以下三类:
1.1 图文问答类(VQA)
- 典型代表:GPT-4V、DeepSeek-VL、BLIP2
- 目标:给图问问题,模子输出自然语言回答
- 样例:
- {
- "image": "cat_on_bed.jpg",
- "question": "图中这只猫在干嘛?",
- "answer": "这只猫正躺在床上休息。"
- }
复制代码 - 特点:需要明白图片中的实体、动作、关系等视觉信息,并将其语言化。
1.2 图文天生类(Image Caption / 文生图)
- 图生文(Caption):BLIP、GIT、MiniGPT-4 等
- 文生图:DALL·E、Stable Diffusion、DeepFloyd-IF
图生文要求视觉 → 语言编码融合
文生图则反过来,语言引导 → 图像解码器天生
- 两者本质上都夸大模态之间的“可转换性”和“共识空间对齐”
1.3 多轮多模态交互(Agent底子)
- 图 + 文 + 语音的连续输入 → 多轮问答 / 决策
- 示例:
用户语音提问:“这张图片里有几个人?”
→ 模子辨认音频 → 提取图片特性 → 语言回答
这类场景,模态间的协同调理能力非常紧张,训练时需考虑时间顺序、上下文关联与模态均衡。
第2章 图文音输入的数据表示方式全解
联合训练前,第一步是把不同模态的输入统一表示,这决定了训练能否对齐。
我们来看三种主模态的数据表示方式。
2.1 文本表示:Tokenizer + Positional Embedding
- 传统文本编码器(如BERT、LLAMA)处置惩罚:
- 分词器 → Token序列 → 词嵌入
- 加入位置编码(固定 / 可学习)
- 联合训练中,通常共享语言模子的嵌入层参数
2.2 图像表示:Patch化 + 视觉编码器(ViT / CNN)
图像表示两种主流方式:
方法描述ViT(Vision Transformer)将图像划分为 patch(如 16×16),线性投影为 token,然后送入 TransformerCNN(ResNet)输出中心层特性图,再全连接或 Flatten 天生视觉 token 序列 此外,部分模子(如 GIT)直接输出多层图像 token,模拟文本结构。
2.3 语音表示:Mel频谱 + 音频编码器(如 Whisper)
音频数据必须先转为二维结构:
- 通常用 Mel 频谱表示:将音频片段转成频率×时间的图像
- 然后用 CNN / ViT 提取特性 → 压缩为 token 序列
语音表示每每比图文更稀疏,训练中需要留意:
- token 长度一致性处置惩罚(padding / mask)
- 特性尺度化(避免分布漂移)
第3章 多模态模子的主流融合架构分析
多模态模子的“融合架构”,决定了不同模态之间如何协同工作。现在主流有三大路线:
3.1 Early Fusion(早期融合)
定义: 在模子输入之前就将不同模态拼接或压缩为统一表示。
- 比方:图像token + 文本token → 一起输入 Transformer
- 应用:BLIP2、MiniGPT-4 采用此方式
- 长处:简单高效,直接共享 Transformer 编码能力
- 缺点:不同模态信息权庞大概不均衡,导致模子偏向“语言主导”
示例:
- <image_patch_1> <image_patch_2> ... <text_token_1> <text_token_2> ...
复制代码 3.2 Late Fusion(后期融合)
定义: 模态间信息分别独立处置惩罚,最后阶段再融合输出结果。
- 每个模态用独立模块提特性 → 再整合判断或决策
- 应用:搜刮引擎中的图文排序、部分多模态检索使命
- 长处:可扩展性强,模态间解耦
- 缺点:无法捕获跨模态深度语义依赖
3.3 Cross-modal Fusion(交织融合 / 中期融合)
这是当前最盛行也最复杂的方式——在中心层实现模态间交互。
- 通常是:Encoder分别提特性 → Cross Attention交互 → 输出结果
- 应用:Flamingo、OpenFlamingo、BLIVA、LLaVA
- 长处:能建模跨模态细粒度关系,比方“图中哪个人正在语言?”
- 缺点:训练和调优更复杂,需留意模态尺寸匹配与mask策略
融合架构选择发起:
应用方向保举融合方式快速构建 / 微调模子Early Fusion可解释性强 / 解耦Late Fusion高性能 / 多模态互动Cross-modal Fusion 第4章 如何实现模态间对齐?语义 × 时间 × 空间
对齐问题,是多模态训练的核心难题。
你不能指望模子自己知道图中猫是“cat”,音频里 meow 也是“cat”。
因此需要做以下三个维度的“模态对齐”:
4.1 语义对齐(Semantic Alignment)
目标:不同模态表达相同概念 → 向量空间距离更近
- 通常用 CLIP-style 对比学习实现
- 图像 → ViT
- 文本 → BERT / LLaMA
- 丧失函数:InfoNCE 或 Cross-Entropy
- L = - log ( exp(sim(I, T⁺)) / ∑ exp(sim(I, Tᵢ)) )
复制代码 4.2 时间对齐(Temporal Alignment)
适用于多模态视频 / 音频+字幕等场景。
- 示例:视频中 1:30 秒出现“猫叫”,音频中 1:31 秒有“meow”
- 方法:
- 欺凌 Token 时间片对齐(Align时序Mask)
- 使用 CTC 丧失辅助建模时间结构
4.3 空间对齐(Spatial Alignment)
- 多见于图文问答、OCR、图文定位使命
- 目标:语言描述中提到的对象能准确映射到图像空间位置
- 方法:
- 图像patch位置加入可学习位置向量
- 文本Token加上视觉引导(如位置留意力)
|