论文阅读笔记——《室内服务机器人的实时场景分割算法》

最新推荐文章于 2026-06-17 00:13:46 发布

原创最新推荐文章于 2026-06-17 00:13:46 发布 · 646 阅读

0 ·

本内容遵循CC 4.0 BY-SA版权协议

标签

#论文阅读 #算法 #深度学习

该文提出了一种基于残差瓶颈结构的轻量级网络，结合深度可分离卷积、膨胀卷积和通道注意力机制，实现高精度的图像分割。在NYUDv2和CamVid数据集上，模型的MIoU分别达到72.7%和59.9%，且计算力仅为4.2GFLOPs，参数量为8.3Mb。网络采用编码器-解码器架构，通过多尺度特征融合和残差连接来保持空间信息并提高分割精度。

一、主要工作

通过深度可分离卷积、膨胀卷积和通道注意力机制设计轻量级的高准确度特征提取模块。
融合浅层特征与深层语义特征获得更丰富的图像特征。
在NYUDv2和CamVid数据集上的MIoU分别达到72.7%和59.9%，模型的计算力为4.2GFLOPs，参数量为8.3Mb。

二、残差瓶颈结构

为了减小参数量同时达到高分割精度，设计了一个残差瓶颈结构作为网络的基础模块，包括2个调整特征通道的1x1卷积、1个深度可分离膨胀卷积、1个通道注意力模块和一条残差连接。

在这里插入图片描述

图2-1 残差瓶颈结构

设计思路如下：

降维-升维的瓶颈结构。先使用1×1的卷积对通道数进行压缩，压缩后使用3×3深度可分离卷积提取特征，再使用1×1卷积进行特征升维。为增大感受野，提取不同尺度的特征，3×3深度可分离卷积带有膨胀系数。
通道注意力机制模块。在升维卷积操作前加入SE-Net网络的通道注意力机制模块，计算过程如图2-2所示，首先对特征通道进行全局平均池化操作，然后连接全连接层学习每个通道的权重值，并利用Sigmoid函数归一化到[0,1]，最后对特征图进行通道加权，从而筛选特征的每个通道的信息，以此进一步提高分割精度。

在这里插入图片描述

图2-2 通道注意力模块计算过程

残差连接。为缓解膨胀卷积引起的稀疏化问题，在瓶颈结构中加入了残差连接，将输入特征图和提取后的特征图相加，从而补充因膨胀卷积稀疏化而在特征提取时丢失的信息，同时残差连接也可以有效避免因网络深度增加而带来的梯度消失问题。

三、网络结构

原文使用的是编码器-解码器的网络结构，在编码器端获取上下文信息和语义信息，在解码器端对提取的特征进行上采样和图像分割。
为实现实时分割，原文没有对解码器进行复杂设计，而是使用高效的特征上采样模块。
此外，由于网络越深获取的语义特征越丰富，但空间信息丢失也越多，因此原文设计的网络在解码器阶段对不同层次的特征进行重利用，以高级语义特征融合低级图像特征，从而丰富模型特征，提高模型分割精度。

在这里插入图片描述

图3-1 网络结构图

原文的结构如图3-1所示，其中，c代表concat操作。模型输入图像尺寸为512×512×3。为有效提取深层语义特征，编码器级联2个特征提取网络。第1级主干网络使用7个残差结构模块作为基础单元构成特征提取的主干网络，每一个瓶颈结构模块的参数不同，相同通道数的瓶颈结构模块的膨胀率不同，以此获得不同感受野与不同尺度的特征。
经实验验证，当膨胀率在8以上时，特征图的稀疏化非常严重，严重影响精度。因此，设置膨胀率为2、4或8。经过7个瓶颈结构模块提取深层特征后，对特征图进行上采样送入第2级特征提取网络，第2级特征提取网络由4个瓶颈结构模块和1个平均池化层构成，4个瓶颈结构模块在提取特征的同时融合第1个主干网络特征提取时相同尺度的特征图，减小特征提取时丢失的信息，之后使用平均池化对特征进行多尺度融合，再送入解码器模块。在解码过程中，融合第2个特征提取网络中相同层次的特征，补充特征图细节，最后进行场景分割结果输出。