ResNet改进(27):融合EfficientViT 高效混淆网络计划
在计算机视觉范畴,卷积神经网络(CNN)和视觉Transformer(ViT)各有优势。今天分享的是一种将两者巧妙联合的方案——在ResNet18基础上引入轻量化ViT模块的计划思绪。
整体架构概览
这个混淆网络重要由三部分构成:
[*] ResNet18骨干网络:作为特征提取器,去掉了原模子的平均池化层和全连接层
[*] 高效ViT模块:嵌入在ResNet18的最后阶段,融合局部与全局特征
[*] 分类头:简朴的全局平均池化+全连接层
这种计划既保存了CNN强大的局部特征提取能力,又通过轻量化的注意力机制引入了全局建模的优势。
https://i-blog.csdnimg.cn/direct/32ba6afa96db43c58f6090ebab566603.png
核心组件解析
1. 高效ViT模块计划
这个轻量化ViT模块(EfficientViTBlock)有几个精妙之处:
双分支结构:
[*]
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
页:
[1]