【笔记】DeepIGeoS: A Deep Interactive Geodesic Framework for Medical Image Segmentation

最新推荐文章于 2023-09-15 14:55:23 发布

原创

最新推荐文章于 2023-09-15 14:55:23 发布 · 1.3k 阅读

标签

#计算机视觉 #深度学习 #机器学习 #图像处理

提出DeepIGeoS框架，结合深度学习自动分割与用户交互优化，显著提高2D/3D医学图像分割精度。采用分辨率保持网络及扩展CRF，支持自由形式二元势函数，有效利用用户反馈。

1. 简介

DeepIGeoS 是2019年发表在 TPAMI 中的一篇文章，与2016年发表在 CVPR 上的 Deep Interactive Object Selection 文章不同，本文提出的方法是在自动分割的结果上让用户对其进行标注，细化分割。

创新点：与现有的一些交互式分割方法相比，所需要的用户标注的工作量较少；响应的时间更快，每次用户交互后不再需要对全部模型进行重新训练，而是采取预训练+模拟用户交互的过程。

图 1
图 1，两阶段的交互式分割框架

DeepIGeoS 是一个两阶段的框架，使用了两个 CNN，如图1所示。Stage 1 中的 P-Net 用于初始分割（粗分割），将初始分割结果与用户的标注相结合，用作 Stage 2 中 R-Net 的输入，用于 refine 初始分割。其中 CRF-Net(f) 是我们提出的使用自由形式二元势的具有反向传播的 CRF，结合了用户交互作为强约束组成 CRF-Net(fu)。具有如下特性：

使用更强大的基础学习模型，即具有自动特征学习的 CNN 可以应付大量的训练集；
需要较少的用户交互，用户标注从高质量的自动分割图的基础上开始；
可以实时响应用户交互，比较高效，可以节省用户时间。

2. 方法

2.1 基于用户交互的测地线距离图

在 stage 1 初始分割图像的基础上，用户进行标记，标记分为前景和背景，相同标记的交互被转换为距离图。

测地距离图比欧式距离可以更好地反应图像中的边缘和上下文信息，提高同质区域的标签一致性

设 $S_f, S_b$ 分别为前景和背景标记的像素集， $i$ 为图像 $I$ 的一个像素点，则 $i$ 到标注集 $Sb})S\left(S\in\left\{S_f,\;S_b\right\}\right)$ 的无符号测地线距离为：

eq. 1, 2
其中 $P_{i,\;j}$ 为像素 $i$ 到 $j$ 的所有路径的集合， $p$ 是一条可行的路径，由 $1]S\in\left[0,\;1\right]$ 进行参数化。 $u(s)=p′/∥p′(s)∥\boldsymbol u\left(s\right)=p'/\left\|p'\left(s\right)\right\|$ 是与路径方向相切的单位向量。

如果没有为前景或背景绘制标记，则相应的测地距离图将填充随机数。

图 2
图 2，用户标注转换为测地距离图的示例

如图2所示，(a) 中绿色曲线为初始分割结果，红色为前景标记，青涩为背景标记，(d)、(e) 分别为转换后的基于前景和背景交互的测地线距离图像。原始图像 (a)、初始分割 (c)、测地距离 (d)(e) 图像组合在一起，得到一个四通道的图像，用以作为第二个 CNN (R-Net) 的输入。

2.2 使用扩张卷积的保持分辨率的 CNN

R-Net 改编自 VGG16 (13个卷积层、3个全连接层、5个池化层)

图 3
图 3，含有 CRF-Net(f) 的用于 2D/3D 分割 CNN 结构

以图 (a) 为例，前13个卷积层被分为5个块。第1、2块分别有两个卷积层，其余每个块都有3个卷积层。卷积层的参数在深蓝色的矩形框中（包括内核尺寸、输出通道、膨胀参数）。在所有的卷积层中，卷积核的大小都固定为3×3。块1到块6是保留分辨率的。

每个卷积层的步长设置为1。每个块中卷积的输出通道数设置为常数C。为了使用多尺度特征，作者将来自不同块的特征连接起来得到一个长度为5C的组合特征。这个特征被输入到一个分类器中，该分类器由两个附加层实现，如图(a)中的块6所示。这两个层使用大小为1×1、扩张参数为0的卷积核。块6为每个像素提供属于前景或背景类的初始分值。

图 (b) 为用于3D分割的网络结构，其与2D结构类似，只不过为了减少3D图像的内存损耗，作者在图像输入时，使用了下采样，并将块1到块5的输出特征通过1×1×1的卷积块压缩了4倍。

为了获得感受野的指数级增长，VGG16在每个块之后都使用最大池化和下采样层，这种实现方式会以指数级降低特征图的分辨率。因此，为了保持分辨率，本文移除了最大池化层和下采样层，并在每个块中使用扩张卷积。

为了在给定标注时获得更空间一致性的分割并添加硬约束，作者在块6输出的基础上应用CRF。CRF由循环神经网络实现，可以与 P-Net 或 R-Net 联合训练。CRF-Net为每个像素提供正则化预测，该预测被输入交叉熵损失函数层。

2D/3D R-Net 使用与 2D/3D P-Net 相同的结构，只是它的输入通道数为 $C_1+3$ （如上一小节所示），并且由于集成了用户交互，所以 CRF-Net(f) 变为了 CRF-Net(fu)。