目次
前言
几个高频口试标题
为什么Transformer适合做多模态使命?
为什么现在大家会转向Transformer做多模态使命?
为什么Transformer可以做图像也可以做文本,为什么它适合做一个跨模态的使命?
算法原理
什么是多模态
多模态怎样实现
多模态融合办法
a) 简单操纵融合办法
b) 基于注意力机制的融合办法
c) 基于双线性池化的融合办法
CV方向多模态融合论文
Pretraining Objectives
多模态融合方法
1.1早期融合
1.2 晚期融合
1.3 混淆融合
多模态融合架构(神经网络模型的基本结构情势)
1.1联合架构
1.2协同架构
1.3编解码架构(自监督)
自动驾驶中的多模态融合感知
多模态融合感知的配景
数据格式
融合方法
数据级融合
特征级融合
对象级融合
不对称融合
当前存在的挑战
算法拓展
多模态融合的BEV目的检测AutoAlign V1
配景介绍
AutoAlign方法
多模态融合的BEV目的检测AutoAlign V2
配景
AutoAlignV2方法
代码实现
python
前言
多模态融合Multimodal Fusion也称多源信息融合(Multi-source Information Fusion),多传感器融合(Multi-sensor Fusion)。多模态融合是指综合来自两个或多个模态的信息以举行预测的过程。在预测的过程中,单个模态通常不能包罗产生准确预测效果所需的全部有用信息,多模态融合过程结合了来自两个或多个模态的信息,实现信息增补,拓宽输入数据所包罗信息的覆盖范围,提升预测效果的精度,进步预测模型的鲁棒性。
目前已有的多模态图像融合模型很多采用自编码器结构,如下图 a。
但是这种方式有三个缺陷:
1. CNN 的表明性较差,难以控制,对跨模态特征提取不敷充实,如上图 a 前两种都是多模态输入共享编码器,因此难以提取到模态特有的特征,而第三种双分支结构则忽略了各个模态共有属性;
2. 上下文独立的 CNN 结构只能在相对小的感受野内
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。 |