羊蹓狼 发表于 2024-7-12 07:47:30

【语义分割】12个主流算法架构介绍、数据集推荐、总结、挑衅和未来发展

背景

语义分割是将图像中的每个像素按其语义类别进行分类,从而实现像素级别的语义理解。其在自动驾驶、医学图像、结构损伤检测等领域有着广泛的应用。
https://img-blog.csdnimg.cn/direct/ebcdae32183448f8b2dbef0885b523f2.png


1.主流算法架构

1.1 U-Net

论文地点:https://arxiv.org/abs/1505.04597
https://img-blog.csdnimg.cn/direct/3d3a1f7f47774633a03843c66de33e0a.png
U-Net2015年由Ronneberger等人提出,是经典的编码-解码架构。此中编码器部分使用卷积层和池化层逐步提取输入图像的特性,获取输入图像特性的潜伏表现。解码器部分使用转置卷积和卷积从编码器的各级分辨率级别还原目标的细节特性。U-Net因其结构简朴、易于训练和有效性而受到青睐,同时也为图像分割任务提供了一个强盛的基准模子。


1.2 SegNet

论文地点:https://arxiv.org/abs/1511.00561
https://img-blog.csdnimg.cn/direct/fa851ab4f64049698da2a086220a7b65.png
SegNet是2016年由Cambridge提出旨在办理自动驾驶的图像语义分割深度网络。SegNet与U-Net网络雷同,重要的区别在于SegNet提出了纪录池化的位置,反池化时规复。SegNet在解码规复信息时不再和编码器对应的分辨率级别进行拼接操作,而是直接进行转置卷积。


1.3 PSPNet

论文地点:https://arxiv.org/pdf/1612.01105.pdf
https://img-blog.csdnimg.cn/direct/9eb1fd9484a742859233b6a1f9fe964d.png
PSPNet是2017年提出的一种用于语义分割的深度卷积神经网络。其架构的重要特点是金字塔池化模块(Pyramid Pooling Module)。PSPNet最大的创新是引入金字塔池化模块,通过不同标准的池化操作获得全局和局部信息。输入特性图被分割为不同大小的地域,并进行池化操作以提取每个地域的特性。不同池化标准下的特性被级联在一起,形成了一个更加丰富和多样的特性表现。


1.4 UNet++

论文:https://arxiv.org/pdf/1807.10165.pdf
https://img-blog.csdnimg.cn/direct/6e3219fb5b8149fda268407b597d8155.png
Unet++于2018年提出,Unet++继承了Unet的结构,同时又借鉴了DenseNet的稠密毗连方式。其重要有四个结构特点:
(1)麋集毗连的多级UNet结构:UNet++接纳了分层的、多级的UNet结构。每个UNet++模块都由一个编码器和多个解码器组成。每个解码器的特性图与上一级解码器的全部特性图相毗连,形成了一种麋集毗连的结构,有助于更好地传递和使用不同层级的信息。
(2)嵌套毗连与跳跃毗连:UNet++结构通过嵌套毗连将不同分辨率的特性图相互毗连,以多层级方式传递信息。跳跃毗连也被保存在不同条理,使得不同分辨率的信息可以更有效地在编码器和解码器之间传递。
(3)特性重组和特性融合:每个UNet++模块内部,通过特性重组和特性融合操作,将不同分辨率和不同层级的特性图联合起来,增强了特性表达的多样性和丰富性。
(4)多标准特性提取:UNet++在编码器和解码器中都包罗了多标准特性提取模块,有助于捕捉不同标准下的语义信息。


1.5 DeepLabv3+

论文:https://arxiv.org/pdf/1802.02611v3.pdf
https://img-blog.csdnimg.cn/direct/1bc5435bad804e2ca6eb866b94101717.png
DeepLabv3+是由Google于2018年提出的图像语义分割模子,旨在办理语义分割任务中的精度和效率问题。它是DeepLab系列模子的最新版本,联合了深度卷积网络和空洞卷积网络的优势,并引入了空间金字塔池化模块(ASPP)和解码器模块,使用多标准信息增强模子的性能,有助于办理对象标准不一致的问题。
DeepLabv3+整体来说也是一个编码-解码架构,此中编码器中的DCNN是可以按照具体任务需求修改的backbone。举例来说,DCNN可以是高效轻便的MobileNet、EfficientNet,也可以是深度残差网络ResNet,也可以是经典的Xception、Inception等网络。具体的架构方案需要根据当前的任务做具体的设计和调解。


1.6 HRNet

论文:https://arxiv.org/pdf/1904.04514.pdf
https://img-blog.csdnimg.cn/direct/e08058522af84370aec8868b8c7fb60f.png
HRNet于2019年提出,作者通过通过聚合来自全部并行卷积的(上采样的)表现来增强高分辨率表现,而不是仅聚合来自高分辨率卷积的表现。这种架构设计模式是模子有更强的表征本领。其架构的重要特点如下:
(1)多分辨率特性金字塔:HRNet在网络的不同分支中保持多个分辨率的特性图,同时通过高分辨率和低分辨率的交互,保存了更多的细节信息。通过多个分支,每个分支都以不同的分辨率来处理惩罚输入图像,然后进行特性融合,以综合不同分辨率的信息。
(2)多层级信息融合:HRNet内部进行多层级的信息融合,使得不同分辨率特性图之间可以相互交流和融合,充分使用不同分辨率的特性。
(3)高分辨率信息保存:通过保存高分辨率特性图,HRNet在姿态估计和图像分割任务中可以大概更好地捕捉和使用细节信息,制止了传统网络中由于下采样导致的低分辨率特性损失问题。
(4)通道交流:HRNet在不同分辨率特性图之间引入了通道交流(channel fusion),使得不同分辨率的特性图可以相互交流和融合,提高了特性的丰富性和表达本领。


1.7 U2Net

https://img-blog.csdnimg.cn/direct/6c42afadb5ba48619c3006a5eaa06db7.png
U2Net于2020年发表于CVPR。U2Net的主体是一个两层嵌套的U型结构,网络中的每个编码器和解码器模块也是雷同UNet的结构,也就是在大的UNet中嵌入了一堆小UNet。其架构的重要特点如下:
(1)ReSidual U块(RSU)中混合了不同大小的感受野,它可以大概从不同的标准捕捉更多的上下文信息。
(2)RSU块中使用了池化操作,它增长了整个架构的深度,而不显著增长盘算成本。这种架构使得使用者可以大概从头开始训练深度网络,而无需使用图像分类任务中的主干(backbone)。


1.8 HRNet-OCR

论文:https://arxiv.org/pdf/1909.11065.pdf
https://img-blog.csdnimg.cn/direct/e75b85a6cfe94eb3a77fff28accc1905.png
https://img-blog.csdnimg.cn/direct/43751089abee47adbeb5baaa080facc8.png
HRNet-OCR于2021年提出,它在HRNet的基础上,进一步引入了OCR Object-Contextual Representations)机制。这种OCR机制是一种简朴而有效的对象上下文表现方法,资助网络更好地理解图像中不同对象之间的关系和上下文信息。OCR模块在每个HRNet分支上引入了空间注意力机制(Spatial Attention)和对象级别的上下文信息建模。空间注意力机制有助于网络学习不同地域的紧张性,对象级别的上下文信息资助网络更好地理解对象之间的联系。


1.9 SETR

论文地点:https://arxiv.org/pdf/2012.15840.pdf
https://img-blog.csdnimg.cn/direct/bd03ca4e2d9f4ece89a168d0dfc1bb9d.png
SETR于2021年提出,是基于ViT来进行语义分割的第一个代表模子。它提出以纯Transformer结构的编码器来取代CNN编码器,改变现有的语义分割模子架构。其架构的重要特点如下:(1)Image to sequence 图像序列化方法:作者参考了ViT的做法,即对输入图像进行切片处理惩罚,将每一个2D的图像切片(patch)视为一个“1D”的序列作为整体输入到网络当中。(2)Transformer: 通过将序列输入到Transformer架构可进行特性的提取,其重要包罗两个部分Multi-head Self-Attention (MSA) and Multilayer Perceptron (MLP) blocks。(3)解码:作者给出了三种解码上采样方式,即朴素上采样、渐进上采样、多级特性融合(雷同于特性金字塔)。


1.10 SegFormer

论文地点:https://arxiv.org/pdf/2105.15203.pdf
https://img-blog.csdnimg.cn/direct/9887be8b905b43b0835b6ea75db12eb6.png
SegFormer于2021年提出,其架构的重要特点如下:
(1)patch的局部一连性:之前ViT做patch embedding时,每个patch都是独立的,而SegFormer对patch设计成有重叠的,保证局部一连性。
(2)多标准融合:Encoder输出多标准的特性,Decoder将多标准的特性融合在一起,这使得模子可以大概同时捕捉高分辨率的大略特性和低分辨率的细小特性,优化分割结果。
(3)轻量级decoder: 编码器中分层Transformer的设计使其相较于CNN有更大的感受野,这使得在设计decoder时可以仅由MLP层组成。所以decoder的盘算量和参数目非常小,从而使得整个模子可以高效运行,简朴直接。而且,通过聚合不同层的信息,联合了局部和全局注意力。


1.11 Swin-UNet

论文地点:https://arxiv.org/pdf/2105.05537.pdf
https://img-blog.csdnimg.cn/direct/ba207246088b44c1ac539e7059a2a865.png
Swin-UNet于2021年提出,它是一个类Unet的纯Transformer。Token化的图像patch被输入到基于transformer的U型编码器-解码器架构中,并具有跳跃毗连,用于局部全局语义特性学习。具体来说,Swin-UNet使用带有移位窗口(shifted windows)的分层Swin Transformer作为编码器来提取上下文特性,设计了一种基于对称Swin Transformer的patch expanding层解码器,对特性图进行上采样操作,规复特性图的空间分辨率。

1.12 SegNeXt

论文地点:https://arxiv.org/abs/2209.08575
https://img-blog.csdnimg.cn/direct/a380af667f0c440a839074ad0978e265.png
SegNeXt于2022提出,展示了卷积注意力在编码上下文信息上比transformer自注意力更有效。其架构特点重要如下:
(1)接纳一种新的多标准卷积注意力(Multi-Scale Convolutional Attention, MSCA)。MSCA包罗三个部分,分别是,深度可分离卷积(获取局部信息),多分支深度可分离strip卷积(以捕捉多标准上下文),1×1卷积(建模不同通道之间的关系)
(2)在解码器中,轻量级的Hamburger 以进一步建模全局上下文。

2. 数据集推荐

在这里,小编针对道路交通领域,推荐一个易于上手的道路标记数据集CeyMo Dataset。全部图像均配备有像素级人工标注的道路标记真值图像(Ground-truth)。数据集的具体信息可见GitHub - oshadajay/CeyMo: CeyMo: See More on Roads - A Novel Benchmark Dataset for Road Marking Detection (IEEE/CVF WACV 2022)。针对语义分割任务,为了方便测试,小编将数据集进行了处理惩罚,将原来的11个标记类别变成了一个类别。如果想要处理惩罚后的数据集,可从百度网盘下载。
链接:https://pan.baidu.com/s/1p6mGDiCGEAvoyBMwD0twow?pwd=2twg
提取码:2twg
此外,小编用处理惩罚后的数据集测试了几个语义分割模子。全部语义分割架构均在Tensorflow2.0环境下测试。在测试集上参考测试结果如下:
Model
F1-score(%)
IOU(%)
UNet
91.00
82.81
DeepLabv3+
89.96
81.12
HRNetV2-W48
86.36
75.46
HRNet-OCR
88.20
78.30
PSPNet
88.10
78.15
SegNet
88.80
78.85
SegFormer
88.91
79.43
SegNeXt
90.29
82.98

总结

回顾近10年来经典的语义分割模子,无论是基于CNN的架构还是基于Transformer的架构,最核心的理念是“编码-解码”。直观上来讲,就是通过下采样获取特性的潜伏表现,再通过上采样从抽象的底层特性表现中规复目标的细节信息。
从交通、医学、遥感、自动驾驶、智能施工管控等领域近些年发表的关于语义分割的论文来看,接纳的架构大多是以上所提到的模子的变体,包罗但不限于添加各种注意力机制模块、更换主流的特性提取网络backbone、CNN与transformer混合设计、多标准特性融合。此中一个重要缘故原由是面临不同的分割任务和分割对象,已有的语义分割架构并不能保证表现得很精彩。所以,在使用语义分割算法办理自己特定领域的问题时,往往需要联合现实需求(精度为第一要素、速度为第一要素、还是速度和精度要达到精彩的平衡),对架构进行改造设计。

挑衅与未来发展

目前来看,各种语义分割架构层出不穷,但本质上都是基于最小元素“卷积”或“Transformer”的各种组合变体。未来,针对特定的专业分割任务,仍需要联合具体场景和需求,选择或搭建适合自己的架构体系。
除此之外,以上所提到的语义分割架构全是基于监视学习的,也就是有标签的深度学习。但现实环境是,很多任务的标签获取很难大概非常珍贵。面临这一痛点,基于自监视学习、半监视学习以及无监视学习的深度学习范式是一个非常不错的研究思绪。目前,已有很多学者开展了对自监视学习、半监视学习以及无监视学习的研究,并取得了肯定的希望。关于这一块的内容,小编将在后续进行介绍。

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
页: [1]
查看完整版本: 【语义分割】12个主流算法架构介绍、数据集推荐、总结、挑衅和未来发展