VM-UNet: 基于视觉 Mamba 架构的医学图像分割型模 论文详解
VM-UNet: 基于视觉 Mamba 架构的医学图像分割型模https://i-blog.csdnimg.cn/direct/3f497eb6be0d46088fb10fe5fe349a81.png
论文地址:https://arxiv.org/abs/2402.02491
项目地址:https://github.com/JCruan519/VM-UNet
Abstract
在医学图像分割领域,基于CNN和基于Transformer的模子都得到了广泛的探索。然而,CNN在长途建模能力方面表现出范围性,而Transformer则受到二次计算复杂性的阻碍。近来,以Mamba为例的状态空间模子(SSM)作为一种很有前途的方法出现了。它们不仅在长途相互作用建模方面表现优异,而且保持了线性计算复杂度。本文利用状态空间模子,提出了一种用于医学图像分割的U-shaped架构模子,命名为视觉Mamba UNet (VM-UNet)。具体来说,引入了视觉状态空间(VSS)块作为基础块来捕获广泛的上下文信息,并构造了一个非对称的编码器-解码器结构。我们在ISIC17, ISIC18和Synapse数据集上举行了全面的实验,结果表明VM-UNet在医学图像分割任务中具有竞争力。据我们所知,这是第一个基于纯SSM模子构建的医学图像分割模子。我们的目的是创建一个基线,并为未来更高效和有效的基于SSM的细分体系的发展提供有价值的看法。
1 Introduction
自动医学图像分割技术帮助大夫更快地举行病理诊断,从而提高患者照顾护士的效率。近年来,基于CNN的模子和基于transformer的模子在各种视觉任务中表现出了显著的性能,特别是在医学图像分割方面。UNet作为基于CNN的模子的代表,以结构简单、可扩展性强而著名,后续的许多改进都是基于这种U型架构 。TransUnet是基于Transformer的模子中的先驱,它在编码阶段首先利用Vision Transformer (ViT)举行特征提取,在解码阶段利用CNN,显示出重要的全局信息获取能力。随后,TransFuse采用了ViT和CNN的并行架构,同时捕获局部和全局特征。别的,Swin-Unet将Swin Transformer与u型架构相结合,初次引入了纯基于Transformer的U型模子。
然而,基于CNN的模子和基于Transformer的模子都有固有的范围性。基于CNN的模子受到其局部接受域的限定,极大地阻碍了它们捕捉长途信息的能力。这通常会导致提取不充分的特征,从而导致次优分割结果。只管基于Transformer的模子在全局建模方面表现出优异的性能,但自注意机制在图像巨细方面要求二次复杂度,导致计算负担很高,特别是对于需要密集预测的任务,如医学图像分割。目前这些模子的缺点迫使我们开辟一种新的医学图像分割架构,可以或许捕获强长途信息并保持线性计算复杂度。
近年来,状态空间模子(SSM)引起了研究人员的极大爱好。在经典SSM研究的基础上,现代SSM(如Mamba)不仅创建了长间隔依赖关系,而且在输入巨细方面表现出线性复杂性。别的,基于SSM的模子在许多领域都得到了大量的研究,包括语言理解、通用视觉等。特别是,U-Mamba近来引入了一种新的SSM-CNN混合模子,这标志着它在医学图像分割任务中的初次应用。SegMamba在编码器部分采用SSM,而在解码器部分仍旧利用CNN,提出了一种SSM-CNN混合模子用于三维脑肿瘤分割任务。虽然上述工作已经将SSM用于医学图像分割任务,但纯粹基于SSM的模子的性能还有待探索。
受VMamba在图像分类任务中取得成功的
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
页:
[1]