BiSeNet：用于实时语义分割的双边分割网络——BiSeNet:Bilateral Segmentation Network for Real-time Semantic Segmentation

原创

已于 2023-10-11 10:21:24 修改 · 8.7k 阅读

标签

#网络 #深度学习 #目标检测 #人工智能 #计算机视觉

于 2023-10-10 21:44:37 首次发布

本文提出双边分割网络（BiSeNet）解决实时语义分割问题。该网络包含空间路径保留空间信息、上下文路径获取感受野，还引入特征融合模块。实验表明，BiSeNet在Cityscapes等数据集上，速度和分割性能取得平衡，如在Cityscapes测试集达105 FPS、平均IOU 68.4％。

0.摘要

语义分割需要丰富的空间信息和较大的感受野。然而，现代的方法通常为了实现实时推断速度而牺牲空间分辨率，导致性能下降。本文提出了一种新的双边分割网络（BiSeNet）来解决这个问题。我们首先设计了一个具有小步长的空间路径来保留空间信息并生成高分辨率特征。同时，采用快速下采样策略的上下文路径用于获取足够的感受野。在两个路径之上，我们引入了一个新的特征融合模块来有效地组合特征。所提出的架构在Cityscapes、CamVid和COCO-Stuff数据集上在速度和分割性能之间取得了适当的平衡。具体而言，对于2048×1024的输入，在一张NVIDIA Titan XP卡上实现105 FPS的速度，在Cityscapes测试数据集上实现68.4％的平均IOU，比现有的具有相似性能的方法快得多。

关键词：实时语义分割·双边分割网络

1.引言

语义分割的研究是计算机视觉中的基本任务之一，它涉及为每个像素分配语义标签。它可以广泛应用于增强现实设备、自动驾驶和视频监控等领域。这些应用对于快速交互或响应具有高效推断速度的需求。

最近，实时语义分割算法[1,17,25,39]表明了加速模型的主要三种方法。

1）[34,39]尝试通过裁剪或调整大小来限制输入大小，以减少计算复杂度。虽然该方法简单有效，但是空间细节的丢失会破坏预测结果，特别是在边界周围，导致度量和可视化的准确性下降。

2）一些工作并不调整输入图像的大小，而是裁剪网络中的通道以提高推断速度[1,8,25]，特别是在基础模型的早期阶段。然而，这会削弱空间能力。

3）对于最后一种情况，ENet[25]提议丢弃模型的最后一阶段，以追求一个极其紧凑的框架。然而，这种方法的缺点是显而易见的：由于ENet放弃了最后一阶段中的下采样操作，因此模型的感受野不足以覆盖大的物体，导致较差的区分能力。总的来说，上述所有方法都是在准确性和速度之间做出了妥协，实际上的效果较差。图1（a）给出了说明。

为了解决上述空间细节丢失的问题，研究人员广泛使用U形结构[1,25,35]。通过融合主干网络的分层特征，U形结构逐渐增加了空间分辨率并填充了一些缺失的细节。然而，这种技术有两个缺点。

1）完整的U形结构会因在高分辨率特征图上引入额外的计算而降低模型的速度。

2）更重要的是，大多数在裁剪或调整大小中丢失的空间信息不能通过涉及浅层来轻松恢复，如图1(b)所示。换句话说，U形技术更适合作为一种缓解措施，而不是必要的解决方案。基于上述观察，我们提出了一个双边分割网络（BiSeNet），它由两部分组成：空间路径（SP）和上下文路径（CP）。正如它们的名称所示，这两个组件分别设计为应对空间信息的丢失和感受野的缩小。这两条路径的设计理念很清晰。对于空间路径，我们只堆叠了三个卷积层，以获得1/8的特征图，保留了丰富的空间细节。对于上下文路径，我们在Xception [8]的尾部添加了一个全局平均池化层，其中感受野是主干网络的最大值。图1(c)显示了这两个组件的结构。

为了追求更好的准确性而不损失速度，我们还研究了两条路径的融合和最终预测的细化，并提出了特征融合模块（FFM）和注意力细化模块（ARM）。正如我们接下来的实验所显示的那样，这两个额外的组件可以进一步提高Cityscapes [9]、CamVid [2]和COCO-Stuff [3]基准测试的整体语义分割准确性。我们的主要贡献总结如下：- 我们提出了一种新颖的方法，将空间信息保留和感受野提供的功能分解为两条路径。具体而言，我们提出了一个双边分割网络（BiSeNet），其中包括一个空间路径（SP）和一个上下文路径（CP）。- 我们设计了两个特定的模块，即特征融合模块（FFM）和注意力细化模块（ARM），以进一步提高准确性，成本可接受。- 我们在Cityscapes、CamVid和COCO-Stuff基准测试上取得了令人印象深刻的结果。具体而言，我们在Cityscapes测试数据集上获得了68.4%的准确率，速度为105 FPS。

图1.加速架构和我们提出的方法的示意图。

(a)展示了在输入图像上进行裁剪或调整大小操作以及通过裁剪通道或删除阶段来实现轻量级模型的情况。

(b)表示U形结构。

(c)演示了我们提出的双边分割网络（BiSeNet）。黑色虚线代表破坏空间信息的操作，而红色虚线代表缩小感受野的操作。绿色块是我们提出的空间路径（SP）。

在网络部分中，每个块代表不同下采样大小的特征映射。块的长度代表空间分辨率，而厚度代表通道数。

2.相关工作

最近，基于FCN [22]的许多方法在语义分割任务的不同基准测试中取得了最先进的性能。这些方法大多旨在编码更多的空间信息或扩大感受野。空间信息：卷积神经网络（CNN）[16]通过连续的下采样操作编码高级语义信息。然而，在语义分割任务中，图像的空间信息对于预测详细的输出至关重要。现代现有的方法致力于编码丰富的空间信息。DUC [32]、PSPNet [40]、DeepLab v2 [5]和Deeplab v3 [6]使用扩张卷积来保留特征图的空间大小。全局卷积网络 [26]利用“大卷积核”来扩大感受野。

U形结构方法：U形结构[1,10,22,24,27]可以恢复一定程度的空间信息。原始的FCN [22]网络通过跳跃连接网络结构对不同级别的特征进行编码。

最低0.47元/天解锁文章