Mamba-UNet: UNet-Like Pure Visual Mamba for Medical Image Segmentation

原创

已于 2024-09-07 15:43:41 修改 · 4.6k 阅读

于 2024-09-07 15:40:46 首次发布

Mamba-UNet：用于医学图像分割的类UNet纯视觉Mamba网络

Mamba-UNet：用于医学图像分割的类UNet纯视觉Mamba网络
1.介绍
2.方法
3实验和结果
4.结论

Mamba-UNet：用于医学图像分割的类UNet纯视觉Mamba网络

原文链接：Mamba-UNet: UNet-Like Pure Visual Mamba for Medical Image Segmentation
本文代码链接：Mamba-UNet

摘要：在医学图像分析领域的最新进展中，卷积神经网络（CNN）和视觉转换器（ViT）已经树立了重要的基准。前者通过卷积操作在捕捉局部特征方面表现出色，而后者则通过利用自注意力机制实现了对全局上下文的显著理解。然而，这两种架构在有效建模医学图像中的长距离依赖关系方面都存在局限性，这对于精确分割至关重要。受以处理长序列和全局上下文信息并增强计算效率为特点的Mamba架构（作为状态空间模型SSM）的启发，我们提出了Mamba-UNet，这是一种将医学图像分割中的U-Net与Mamba能力相结合的新型架构。Mamba-UNet采用基于纯视觉Mamba（VMamba）的编码器-解码器结构，并融入跳跃连接，以在网络的不同尺度上保留空间信息。这种设计促进了全面的特征学习过程，能够捕捉医学图像中的复杂细节和更广泛的语义上下文。我们在VMamba块内引入了一种新颖的融合机制，以确保编码器和解码器路径之间的无缝连接和信息流，从而提高了分割性能。我们在公开可用的ACDC MRI心脏分割数据集和Synapse CT腹部分割数据集上进行了实验。结果表明，在相同的超参数设置下，Mamba-UNet在医学图像分割方面优于多种类型的UNet。

Keywords: Medical Image Segmentation，Convolution，Transformer，Mamba，State Space Models

1.介绍

医学图像分割对于诊断和治疗至关重要，而基于深度学习的网络在这一领域表现出了卓越的性能。U-Net是其中最重要的架构之一，以其对称的编码器-解码器风格架构和跳跃连接而闻名，其中各种编码器和解码器在不同层次上提取特征信息，而跳跃连接则实现了特征信息的有效转换。大多数研究进一步探索了结合高级网络块技术的U-Net，如密集连接、残差块、注意力机制、深度卷积和空洞卷积，从而在CT、MRI、超声等医学图像分割中产生了各种改进的UNet。

受自然语言处理中自注意力机制成功的启发，ViT首次将纯多头自注意力机制应用于图像识别任务，并取得了最先进的性能。这展示了其在建模长距离依赖方面的潜力。 像移动窗口这样的技术进一步定制了ViT，产生了Swin Transformer，增强了其在计算机视觉中密集预测任务（如图像分割和检测）的适用性。在医学图像分割中，受传统CNN设计的启发，ViT与U-Net架构的结合也导致了各种混合和纯ViT基U-Net的出现。例如，TransUNet是首个在U-Net编码器中利用ViT特征学习能力的工作。UNETR将ViT与U-Net结合用于3D分割，而Swin-UNet和DCSUnet则进一步探索了纯Swin Vision Transformer网络块与基于U-Net结构的结合。

在这里插入图片描述
图1. 简要介绍了在医学图像分割中，结合Transformer和状态空间模型（SSM）的UNet的近期发展演变。