Mamba 架构在医学图像分析中的全面综述:分类、分割、重修及其他应用
https://img-blog.csdnimg.cn/img_convert/5b0cc48c280a054f0c355e704efaaeb4.pngMamba 是一种状态空间模型(State Space Model, SSM)的特例,作为医学图像分析中模板驱动深度学习方法的替代方案,正日益受到关注。尽管 transformer 是强盛的架构,但它也存在一些缺陷,例如计算复杂度为平方级且难以高效处置处罚长距离依赖。这一限制影响了在医学成像中分析大型复杂数据集的本领,由于这些数据集存在大量的空间和时间关系。相比之下,Mamba 具有明显优势,使其非常适合医学图像分析。Mamba 具有线性时间复杂度,这比 transformer 大大改进了性能。在序列建模使命中,其计算复杂度随着输入序列长度线性增长。Mamba 无需留意力机制即可处置处罚更长的序列,从而实现更快的推理速率并镌汰内存需求。此外,Mamba 在融合多模态数据方面体现出色,从而进步了诊断准确性和患者的治疗效果。
本文的结构设计让读者可以大概逐步了解 Mamba 在医学成像中的本领。我们首先清晰地定义了与 SSM 和概念模型相关的概念,包罗 S4、S5 和 S6。随后我们探究了 Mamba 架构,包罗纯 Mamba、U-Net 变体以及 Mamba 与卷积网络、transformer 和图神经网络(GNN)相结合的混淆模型。后续部门则涵盖了 Mamba 的优化、弱监督与自监督学习、扫描机制等技能,以及各种使命中应用的详细分析。我们还提供了可用数据集的概述和一些关于 Mamba 在不同领域的有效性实行效果。此外,本文详细介绍了 Mamba 的挑战与局限性,以及其他有趣的方面和可能的将来发展方向。末了一节解释了 Mamba 在医学成像中的重要性,并提供了其使用及改进措施的分析和结论。
本综述旨在展示 Mamba 在克服医学成像现有障碍方面的变革潜力,同时为该领域的创新进展铺平道路。有关医学领域中应用的 Mamba 架构的全面列表,可在 GitHub 上查看。
https://www.zhuanzhi.ai/paper/ce3e2342b4bc89671df490e8f69db528
https://img-blog.csdnimg.cn/img_convert/2fb8a25a19e169e8b16c795fb7b287a4.png
1 引言
在已往的几十年中,机器学习 和深度学习 的应用使医学领域取得了明显进步。卷积神经网络(CNN)等初始神经网络架构 在提升图像分割 、分类 和目标检测 方面发挥了关键作用。医学图像复杂多样,但 CNN 可以大概在二维平面上分析三维结构,因此在生物医学图像计算中特别适用于图像分割 、肿瘤检测 、器官分割 和疾病诊断成像 。CNN 广泛应用于医学成像使命,包罗分割、分类和重修。然而,其在处置处罚序列数据或需要长程依赖的多使命时体现不敷。例如,在医学图像分割领域,CNN 可能无法如预期般体现良好,由于它们难以建模图像及其部门之间的超分辨率相互依赖关系。
一些 CNN 的缺点通过 transformer 架构 得到缓解,这类技能在序列数据处置处罚和长程依赖方面体现更优。然而,transformer 也存在一些不敷。主要题目是计算留意力的规模随着序列长度呈平方增长,因此在处置处罚非常长的序列时会导致高昂的计算成本。此外,通常需要更多的资源和数据,这在资源受限的环境中(如医学领域)是一个困难。针对传统 CNN 和 transformer 的不敷,很多研究探索了可以有效表示长序列及其复杂依赖关系的不同模型。比年来,状态空间模型(SSM) 引起了广泛关注,Mamba 模型便是其中之一。Mamba 旨在解决当代深度学习技能中的相关题目。它使用选择性状态空间来快速处置处罚长序列,结合多种模式,并支持高效的分辨率和实用性。Mamba 的架构整合了选择性扫描机制和硬件感知算法,从而在中间效果的存储和计算方面实现高服从。这样使得 Mamba 在一些需要长程依赖和高复杂度的使命(如医学图像分割 、分类 、合成、配准和重修 )中体现优异。
Mamba 在生物医学领域体现出色,特别是在生物医学成像、基因组学和临床记录处置处罚领域。因此,该模型在涉及长程和多模态数据的使命中体现出色,可以大概捕获信息单位之间的玄妙关系和依赖性。图 1 展示了 Mamba 随时间演变的时间线,从 HiPPO 和线性状态空间层(LSSL)、S4 、对角状态空间(DSS)、S4D 、S5 、S4ND 、Hungry Hungry Hippos(H3) 到 Mamba 。其中还包罗随着模型演进产生的 Mamba 变体。图 2 所示的饼图展示了使用 Mamba 框架在医学领域各项使命中的研究论文分布,分为五个部门,每个部门代表特定使命及其在总论文数中的比例。此外,图 3 展示了 2023 年 12 月至 2024 年 9 月期间 Mamba 在医学领域相关出版物数量的波动,研究活动在 2024 年 3 月和 4 月明显激增。
目前有几篇关于 Mamba 的综述性论文。然而,这些论文可能做了以下之一的选择——要么 广泛覆盖框架,要么仅限于视觉领域的应用 。值得留意的是,只有 对 Mamba 在医学领域的应用进行了评审。然而,我们的综述论文比 更为全面和详细。特别是,本文重点分析了医学数据集等公共资源,并提供了一些关于 Mamba 在医学实践中应用的实行数据,包罗在医疗环境中 Mamba 可用的各种资源和干预措施。此外,我们还包罗了 Mamba 架构在医学图像分析领域的最新研究和发展。我们以一种便于读者理解的结构构造了本文,帮助他们认识 Mamba 在医学领域的构造框架,包罗其优势、劣势和前景。
在本综述中,我们关注医学领域内 Mamba 状态空间模型的使用、方法和题目。我们提供了该研究方向的现状概述,重点讨论了 Mamba 模型的优缺点及其将来前景。本文余下部门的结构如下:第 2 节讨论了与 SSM 相关的关键术语,第 3.1 节介绍了不同的 Mamba 架构。第 3.3 节讨论了多少 Mamba 优化,第 3.4 节解释了弱监督、半监督、自监督、对比学习和多模态学习等技能。第 3.2 节讨论了 Mamba 中的不同扫描机制,第 3.5 节介绍了各个领域中的应用。数据集概述见第 4 节。第 5 节讨论了展示 Mamba 在不同使命中体现的实行效果。第 6 节解释了 Mamba 的局限性和新兴领域,末了在第 7 节中提出了将来发展方向并总结了本文的研究。
https://img-blog.csdnimg.cn/img_convert/3ce3a852e0fac121d243ff65a2782c22.png
2. SSM 的焦点概念
在深度学习领域,transformer 在计算机视觉(CV)和自然语言处置处罚(NLP)使命中占据主导职位。transformer 中的自留意力机制 通过天生查询、键和值向量的留意力矩阵,大大提升了对这些模态的理解。固然留意力矩阵有其优势,但其计算复杂度为平方级。最近的一些进展,例如 Dao 等人提出的 FlashAttention 和线性留意力 ,通过低落计算复杂度解决了这一题目。例如,在线性留意力中,键向量与值向量相乘,而非查询向量,并用相似度函数代替了 softmax 函数。Gu 等人开辟的 Mamba 进一步缓解了这一题目,将平方时间复杂度转化为线性时间复杂度,并以递归方式实现。Mamba 是第一个在无留意力机制下达到强盛 transformer 体现的模型。Mamba 的焦点概念及其从 SSM 的推导将在后续部门详细解释。
3 使用 Mamba 进行医学图像分析
在本节中,我们将分类与 Mamba 架构相关的文献,探究加强其性能的优化方法,并讨论各种扩展其功能的技能和适配。此外,我们还将研究 Mamba 相关的扫描技能,末了展示其在医学领域中的多样化和深远影响的应用。
3.1 Mamba 架构
在本节中,我们将探究并讨论 Mamba 的架构布局,首先介绍底子的纯 Mamba 设计及其通过 U-Net 变体的演变。然后,我们将转向混淆架构领域,在该领域中,Mamba 被巧妙地与其他强盛技能相结合,以实现更高的性能并应对复杂使命。
https://img-blog.csdnimg.cn/img_convert/52d30067cf76c4f8c07e76cb9a71dba3.png
3.2 扫描
留意力机制,尤其是自留意力机制,具有平方级的时间复杂度,导致计算成本随序列长度呈平方增长。相比之下,扫描操作通常具有线性时间复杂度,因此在处置处罚长序列时服从更高。扫描操作涉及计算一个数组(如前缀和),其中每个值由之前计算的值和当前输入决定。雷同地,SSM 的递归情势可以视为一种扫描操作。扫描是 Mamba 的一个关键组件,特别是在处置处罚多维输入时。Mamba 模型中扫描机制的选择至关重要,由于它进步了服从并提供了重要的信息。图 15 以可视化的情势展示了 Mamba 架构中接纳的各种扫描机制,该可视化突显了集成到 Mamba 模型中的多种扫描方法的多样性。表 1 总结了各种扫描机制及其相关模型。
https://img-blog.csdnimg.cn/img_convert/c11cb679adb5f778d5f167d079b2d386.png
https://img-blog.csdnimg.cn/img_convert/8405807fa3e5f7469ef45cb56f9cdedd.png
3.3 Mamba 优化
本节讨论了专注于轻量化、高效化及优化模型架构的研究论文。
3.3.1 轻量化与高效性
轻量化和高效模型设计旨在保持良好性能的前提下,使模型更小、速率更快且资源占用更少。表 2 基于每秒千亿次浮点运算(GFLOPs)、参数数量以及每秒帧数(FPS)比力了上述轻量化模型,这些指标分别对每个模型的计算服从、复杂性和速率进行了详细评估。
Liao 等人提出的轻量 Mamba UNet(LightM UNet) 将 Mamba 与 UNet 架构相结合,形成轻量框架,以应对实际医疗环境中的计算挑战。该模型中提出的残差视觉 Mamba(RVM)层改进了 SSM,用纯 Mamba 方式从图像中提取深度语义特征。LightM-UNet 仅使用 1.09M 个参数和 267.19 GFLOPs,就能逾越现有的开始进方法。Wu 等人引入了超轻量视觉 Mamba UNet(UltraLight VM-UNet),这是一个轻量化视觉 Mamba 模型。通过并行视觉 Mamba(PVM)方法在保持处置处罚通道数量恒定的同时,低计算复杂度下实现了高性能。PVM 主要由结合残差连接和调整因子的 Mamba 构成,使传统 Mamba 捕获远程空间关系而无需增加额外参数和计算复杂度。在三个公开皮肤病变数据集上进行的对比分析中,UltraLight VM-UNet 仅使用 0.049M 参数和 0.060 GFLOPs,即实现了有竞争力的性能。UltraLight VM-UNet 的参数数量比 LightM-UNet 镌汰了 87.84%。
Yuan 等人提出的 MUCM-Net 是一个高效模型,将 Mamba 状态空间模型与 UCM-Net 架构结合,以改进分割和特征学习。该模型将 Mamba-UCM 优化为移动设备部署,提供高精度并具有最低的计算需求(约 0.055–0.064 GFLOPs 和 0.071–0.139M 参数)。Ji 等人提出的 LightCF-Net 是一种新颖且高效的轻量化架构,作为一种实时息肉分割的远程上下文融合网络。该模型开辟了新的 FAEncoder 模块,将大核留意力(LKA)与通道留意力机制结合,用于提取息肉的深度表示特征并揭示长程关系。此外,将新型视觉留意力 Mamba 模块(VAM)集成到跳跃连接中,以从编码器提取的特征中捕获广泛的上下文依赖关系,优先处置处罚关键信息并通过留意力机制减轻配景噪声干扰。该模型在四个息肉分割数据集上的评估展示了其相对于领先轻量化息肉分割网络的运行服从和分割精度。尽管该方法在分割使命中体现良好,但医疗环境的复杂性和练习过程中标注数据的限制构成了挑战,使其难以完全满足医学应用的需求。该模型具有 1.52M 参数,运行于 3.25 GFLOPs,帧率为 33 FPS。
Chen 等人提出了用于红外小目标检测(ISTD)的 MiM-ISTD 。该模型使用 Mamba 有效捕获数据中的局部和全局信息,从而在低计算成本下包管更高的服从。在 NUAA-ISTD 和 IRSTD-1k 数据集上的实行中,MiM-ISTD 在准确性和服从方面均优于其他相关方法。MiM-ISTD 比当前开始进方法快十倍,在高分辨率图像测试中镌汰了 73.4% 的 GPU 内存使用。
https://img-blog.csdnimg.cn/img_convert/8bef4009686847f33ae86700e2bb7413.png
3.4 技能和适配
本节探究 Mamba 架构的各种技能和适配方法,如弱监督、半监督和自监督方法。这些方法适用于数据标注缺失、部门存在或不划一的场景,旨在提升模型从非结构化、不完整或半结构化数据中学习的本领。
3.4.1 弱监督学习
弱监督学习(Weakly Supervised Learning, WSL)使用少量准确标注的数据和大量具有不完整标注的数据。与需要每个数据的详细标签不同,这种方法可以处置处罚带有噪声和部门标签的数据。Wang 等人提出的 WeakMamba-UNet 是一种 WSL 战略,结合了三种不同的架构,但均接纳对称的编码器-解码器网络。该网络包罗基于 CNN 的 U-Net(擅长捕获局部特征)、基于 Swin Transformer 的 SwinUNet(擅长理解全局上下文)以及 VMamba 基的 Mamba-UNet(高效捕获长程依赖)。该 WSL 框架使用多视角交叉监督学习方法进行基于涂鸦标注的医学图像分割。引入了部门交叉熵损失,在网络练习期间仅使用涂鸦标注,总体损失由涂鸦标注的部门交叉熵损失和麋集伪标签 dice 系数损失构成。该网络在 MRI 心脏数据集 的分割使命中体现出色,精度达到了 99.63%。
3.4.2 半监督学习
半监督学习在练习期间使用少量标注数据和大量未标注数据。Ma 等人提出的 Semi-Mamba-UNet 是一种集成了 Mamba 分割网络的半监督学习框架,结合了 Mamba-UNet 和 U-Net 的互补优势,分别使用标注和大量未标注数据。该框架提出了像素级对比学习战略,以增加从一对投影器中学习特征的本领。通过伪标签练习另一个网络,接纳像素级交叉监督学习战略。总体损失包罗监督损失、自监督对比损失和半监督损失。在 ACDC MRI 心脏数据集 上测试该模型时,使用 5% 标注数据时,dice 系数达 0.8386,准确率为 0.9936,敏感性为 0.7992,特异性为 0.9483,Hausdorff 距离(HD)为 6.2139,均匀表面距离(ASD)为 1.6406。当使用 10% 标注数据练习时,模型性能提升,dice 系数达 0.9114,准确率为 0.9964,敏感性为 0.9146,特异性为 0.9821,HD 为 3.9124,ASD 为 1.1698。
3.4.3 自监督学习
自监督学习通过创建自身标签从未标注数据中学习,而非依赖外部手工标注的标签。Nasiri 等人提出的 Vim4Path 使用 Caron 等人的 DINO 中的 Vision Mamba 进行表征学习,旨在将 ViM 用于 SSL。DINO 是一种闻名的自监督学习框架,通过西席-门生架构中的自蒸馏实现自监督,两个网络架构相同但参数不同。研究比力了在 Camelyon16 数据集上基准测试的两个架构在切片级和块级分类使命中的体现。Lu 等人提出的 CLAM 框架 使用基于留意力的多实例学习实现切片级分类,识别最能指示切片级标签的子区域。该方法使模型专注于最相关特征,而无需详细注释。Zhou 等人提出了 MGI ,一种新的多模态模型,使用基因和图像数据。该方法在预练习过程中使用自监督对比学习战略,使视觉编码器和基因编码器在配对的基因和图像数据上对齐,使视觉编码器从基因角度学习相关特征。该过程接着是一个轻量化的多模态留意力融合解码器,用于整合图像和基因数据。使用 Mamba 提取基因数据的特征,解决了以往编码器在捕获长基因序列的长程依赖关系中碰到的题目。Tang 等人提出的 MambaMIM 是一种基于 3D-UNet 的自监督学习架构,结合 3D 希罕卷积与 Mamba 块,并引入选择性结构状态空间序列插值(S6T),在解码器块之前通过线性层处置处罚插值序列。
对比学习是自监督学习中的一种技能,通过比力数据样本对来学习表征。Yang 等人提出的对比掩码 Vim 主动编码器(CMViM) 是一种高效的 3D 多模态数据表征学习方法,用于重修 3D 掩码多模态数据。该方法通过引入跨模态对比学习机制对齐多模态表征,以有效捕获 3D 医学数据中的长程依赖关系。CMViM 在阿尔茨海默症诊断中体现优于其他先辈方法。
3.4.4 多模态学习
Xie 等人提出了雷同 U-Net 的架构 Fusion Mamba ,设计用于编码多模态图像并解码它们。Fusion Mamba 中的编码器部门集成了动态视觉状态空间(DVSS)模块,使用了高效状态空间模块(ESSM),包罗高效二维选择性扫描(ES2D)和高效通道留意力(ECA)。ECA 使用自顺应均匀池化和一维卷积层及 sigmoid 激活函数,使 SSM 有效学习通道表征。DVSS 输出通过可学习形貌卷积(LDC)残差添加到输入上,允许 SSM 捕获每种模态中的纹理特征。动态特征融合模块(DFFM)用于在不同模态之间融合特征。DFFM 包含动态特征加强模块(DFEM),进行粗粒度融合,之后通过跨模态融合 Mamba 模块(CMFM)处置处罚。解码器包含补丁扩展块和两个 DVSS 块,DFFM 的组合特征作为解码器的跳跃连接。末了,通过每种图像模态得到融合图像。
Zhou 等人提出的 MGI 是一种用于对齐图像和基因模态的多模态方法,接纳雷同 CLIP 的预练习方式。Mamba 编码器用于图像和基因数据,跨模态嵌入之间应用对比损失天生雷同 CLIP 的矩阵。在留意力集成模块中,模块之间的对齐通过基因模态的自留意力块、基因到图像的留意力块、MLP 层及图像到基因的留意力块实现。
Fang 等人提出的 GFE-Mamba 接纳多阶段练习战略,首先练习 3D GAN 将 MRI 图像转换为 PET 图像,然后将 MRI 和 PET 的潜在表示与表格数据拼接,并通过线性层或嵌入层送入 Mamba 分类器。MRI 和 PET 潜在空间与 Mamba 表征之间的像素级双交叉留意力操作,进一步用于最终分类。
https://img-blog.csdnimg.cn/img_convert/7cbf5a0c718ca8c03f9b0a4c2f2208b5.png
3.5 各医学领域的应用
在本节中,我们探究了基于 Mamba 的模型在一系列医学使命中的应用,包罗分割、分类、配准和恢复等。我们还通过医学成像中的其他应用展示了其多功能性。每个小节首先概述使命,然后讨论在这些领域中应用 Mamba 基模型的相关研究论文。
3.5.1 医学图像分割
医学图像分割是一种用于识别和提取医学图像中特定感兴趣区域(ROI)的技能,如肿瘤、病变、构造或器官。其目标是将图像分别为具有相似特征的区域,包罗颜色、纹理、亮度和对比度。表 3 概述了分割模型的参数、形貌及代码的可用性。图 17 展示了 Mamba 基模型在医学图像分割使命中的工作流程。
https://img-blog.csdnimg.cn/img_convert/596b36b443c4bdf661206c0027d18d9c.png
3.5.2 医学图像分类
医学图像分类是指将图像分为不同类别,例如区分良性和恶性病变,或识别不同类型的疾病。图 20 展示了基于 Mamba 的模型在医学图像分类使命中的工作流程。表 4 总结了分类模型及其参数,附有形貌和代码可用性的信息。
https://img-blog.csdnimg.cn/img_convert/31119eebf3a06d242bf1e6af2f178927.png
3.5.3 医学图像恢复/重修
恢复(Restoration)是医学成像中的一种应用,用于改善因噪声、低分辨率和模糊等因素而受损或失真的图像质量。重修(Reconstruction)是一种将原始医学数据转换为目标图像的数学过程。表 5 概述了应用于医学图像恢复/重修的基于 Mamba 的模型,包罗参数、形貌及代码可用性。图 22 展示了基于 Mamba 的模型在医学图像恢复/重修使命中的工作流程。
https://img-blog.csdnimg.cn/img_convert/1c04b7d3d575817c08615997acec333e.png
https://img-blog.csdnimg.cn/img_convert/6ee3677c00f580dd0981d3e00c56c20d.png
怎样体系的去学习大模型LLM ?
大模型期间,火爆出圈的LLM大模型让程序员们开始重新评估自己的本事。 “AI会代替那些行业?”“谁的饭碗又将不保了?”等题目热议不断。
究竟上,抢你饭碗的不是AI,而是会使用AI的人。
继科大讯飞、阿里、华为等巨头公司发布AI产品后,很多中小企业也连续进场!超高年薪,挖掘AI大模型人才! 如今大厂老板们,也更倾向于会AI的人,平常程序员,尚有应对的机会吗?
与其焦急……
不如成为「掌握AI工具的技能人」,毕竟AI期间,谁先实验,谁就能占得先机!
但是LLM相关的内容很多,现在网上的老课程老教材关于LLM又太少。以是现在小白入门就只能靠自学,学习成本和门槛很高。
针对所有自学碰到困难的同学们,我帮各人体系梳理大模型学习脉络,将这份 LLM大模型资料 分享出来:包罗LLM大模型书籍、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程等,
页:
[1]