【笔记】DeepIGeoS: A Deep Interactive Geodesic Framework for Medical Image Segmentation

提出DeepIGeoS框架,结合深度学习自动分割与用户交互优化,显著提高2D/3D医学图像分割精度。采用分辨率保持网络及扩展CRF,支持自由形式二元势函数,有效利用用户反馈。

1. 简介

DeepIGeoS 是2019年发表在 TPAMI 中的一篇文章,与2016年发表在 CVPR 上的 Deep Interactive Object Selection 文章不同,本文提出的方法是在自动分割的结果上让用户对其进行标注,细化分割。

创新点:与现有的一些交互式分割方法相比,所需要的用户标注的工作量较少;响应的时间更快,每次用户交互后不再需要对全部模型进行重新训练,而是采取预训练+模拟用户交互的过程。

图 1
图 1,两阶段的交互式分割框架

DeepIGeoS 是一个两阶段的框架,使用了两个 CNN,如图1所示。Stage 1 中的 P-Net 用于初始分割(粗分割),将初始分割结果与用户的标注相结合,用作 Stage 2 中 R-Net 的输入,用于 refine 初始分割。其中 CRF-Net(f) 是我们提出的使用自由形式二元势的具有反向传播的 CRF,结合了用户交互作为强约束组成 CRF-Net(fu)。具有如下特性:

  • 使用更强大的基础学习模型,即具有自动特征学习的 CNN 可以应付大量的训练集;
  • 需要较少的用户交互,用户标注从高质量的自动分割图的基础上开始;
  • 可以实时响应用户交互,比较高效,可以节省用户时间。

2. 方法

2.1 基于用户交互的测地线距离图

在 stage 1 初始分割图像的基础上,用户进行标记,标记分为前景和背景,相同标记的交互被转换为距离图。

测地距离图比欧式距离可以更好地反应图像中的边缘和上下文信息,提高同质区域的标签一致性

Sf,SbS_f, S_bSf,Sb 分别为前景和背景标记的像素集,iii 为图像 III 的一个像素点,则 iii 到标注集 S(S∈{ Sf,  Sb})S\left(S\in\left\{S_f,\;S_b\right\}\right)S(S{ Sf,Sb}) 的无符号测地线距离为:

eq. 1, 2
其中 Pi,  jP_{i,\;j}Pi,j 为像素 iiijjj 的所有路径的集合, ppp 是一条可行的路径,由 S∈[0,  1]S\in\left[0,\;1\right]S[0,1] 进行参数化。 u(s)=p′/∥p′(s)∥\boldsymbol u\left(s\right)=p'/\left\|p'\left(s\right)\right\|u(s)=p/p(s) 是与路径方向相切的单位向量。

如果没有为前景或背景绘制标记,则相应的测地距离图将填充随机数。

图 2
图 2,用户标注转换为测地距离图的示例

如图2所示,(a) 中绿色曲线为初始分割结果,红色为前景标记,青涩为背景标记,(d)、(e) 分别为转换后的基于前景和背景交互的测地线距离图像。原始图像 (a)、初始分割 (c)、测地距离 (d)(e) 图像组合在一起,得到一个四通道的图像,用以作为第二个 CNN (R-Net) 的输入。

2.2 使用扩张卷积的保持分辨率的 CNN

R-Net 改编自 VGG16 (13个卷积层、3个全连接层、5个池化层)

图 3
图 3,含有 CRF-Net(f) 的用于 2D/3D 分割 CNN 结构

以图 (a) 为例,前13个卷积层被分为5个块。第1、2块分别有两个卷积层,其余每个块都有3个卷积层。卷积层的参数在深蓝色的矩形框中(包括内核尺寸、输出通道、膨胀参数)。在所有的卷积层中,卷积核的大小都固定为3×3。块1到块6是保留分辨率的。

每个卷积层的步长设置为1。每个块中卷积的输出通道数设置为常数C。为了使用多尺度特征,作者将来自不同块的特征连接起来得到一个长度为5C的组合特征。这个特征被输入到一个分类器中,该分类器由两个附加层实现,如图(a)中的块6所示。这两个层使用大小为1×1、扩张参数为0的卷积核。块6为每个像素提供属于前景或背景类的初始分值。

图 (b) 为用于3D分割的网络结构,其与2D结构类似,只不过为了减少3D图像的内存损耗,作者在图像输入时,使用了下采样,并将块1到块5的输出特征通过1×1×1的卷积块压缩了4倍。

为了获得感受野的指数级增长,VGG16在每个块之后都使用最大池化和下采样层,这种实现方式会以指数级降低特征图的分辨率。因此,为了保持分辨率,本文移除了最大池化层和下采样层,并在每个块中使用扩张卷积。

为了在给定标注时获得更空间一致性的分割并添加硬约束,作者在块6输出的基础上应用CRF。CRF由循环神经网络实现,可以与 P-Net 或 R-Net 联合训练。CRF-Net为每个像素提供正则化预测,该预测被输入交叉熵损失函数层。

2D/3D R-Net 使用与 2D/3D P-Net 相同的结构,只是它的输入通道数为 C1+3C_1+3C1+3 (如上一小节所示),并且由于集成了用户交互,所以 CRF-Net(f) 变为了 CRF-Net(fu)。

2.3 具有自由形式的二元势函数和用户约束的反向传播 CRF-Net

CRF-Net 可以通过反向传播进行训练,本文并没有使用高斯函数,而是扩展了 CRF,使得二元势函数是自由形式的函数,称为 CRF-Net(f)。另外在交互式细化上下文中将用户的标注集成到 CRF-Net(f) 中,称为 CRF-Net(fu)。

即:CRF-Net(f) 连接到 P-Net,CRF-Net(fu) 连接到 R-Net。

XXX 是图像 III 中标签集 L={ 0,  1,  ...,  L−1}L=\left\{0,\;1,\;...,\;L-1\right\}L={ 0,1,...,L1} 的标签映射,吉布斯分布(Gibbs distribution)建模 CRF 中给定 IIIXXX 的概率:

在这里插入图片描述
即为描述单像素所对应的标签的概率,其中 Z(I)Z\left(I\right)Z(I)<

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值