MR-CNN
算法背景
以往的目标检测模型在提取完 region proposals 后,直接将生成的 region 输入网络。那么实际上,在输入网络之前,我们也可以对 region 再进行变换。本篇论文就是这种思想。如果在 region 输入网络之前,对 region 进行变换。例如,我们只看一部分 region,或者我们将 bounding box 放大,关注其上下文环境。对于最终的分类和 bounding box 的回归应该是都会有所提高的。
本篇论文的主要贡献:(1)提供了一些丰富的对象表示,能够捕获各种不同的判别外观的因素。(2)使用语义分割的弱监督方式来感知目标检测中的对象。(3)使用 Iterative Localization 和 Bounding box voting 提高了目标定位的能力。

对于第一张图,由于目标羊太小,所以如果不结合上下文信息,比如草原的话,我们很难分别目标种类,第二张图是在城镇里有一条船,如果我们结合上下文信息的话,反而会对分类有影响,第三张图的汽车被遮挡了一半,如果我们对目标框直接进行分类的话,可能会被分类成栅栏,所以最好进行截取再分类。
Multi-Region CNN
MR-CNN可以分为两个模块,分别为
(1)Activation maps 模块
(2)Region adaptation 模块
这是网络结构,最后通过svm进行分类

Activation Maps Module
此模块为整个网络的backbone,通过一系列卷积操作输出feature map,这部分网络可以使用各种经典的网络结构,比如alexnet和VGG16等等,通过Activation Maps 模块,我们只是提取原始图像中的特征信息。
Region Adaptation Module
此模块负责给定一个Region R和网络输出的feature map,此模块将R映射到feature map,进行裁剪后,连接到自适应最大池化(Adaptive Max-Pooling),并传到多个多层网络中。
注意:1、每一种变化后的region都送到与其变换对应的网络进行学习,
2、通过多个模型学习后需要将结果进行拼接,得到最后的结果
Region变换

图为各种Region变换
a、:完整bbox
b、c、d、e、:裁剪一半后的bbox
f:候选框缩放0.5倍
g:内部候选框缩小到0.3倍,外部缩小到0.8倍
h:内部候选框放大到0.5倍,外部与候选框相同
i:内部锁防盗0.8倍,外部缩放1.5倍
j:内部与候选框相同,外部缩放到1.8倍
注意:对于Region的形状有两种,一种是矩形,一种是环状矩形,环状矩形内部用0填充。
semantic segmentation
论文中给出了一种弱监督的语义分割,首先取出bbox作为前景,然后训练一个全卷积网络,然后输出一个热力图,并且与前面的 Region变换后的输出结果进行合并
本文介绍了MR - CNN算法,该算法在目标检测中,对输入网络前的region进行变换以提升分类和回归效果。其主要贡献包括提供丰富对象表示、用弱监督语义分割感知对象、提高目标定位能力。MR - CNN分为Activation maps和Region adaptation模块,还介绍了Region变换和弱监督语义分割方法。

3804

被折叠的 条评论
为什么被折叠?



