【每日一网】Day7：MR-CNN简单理解

最新推荐文章于 2026-06-16 14:39:04 发布

原创最新推荐文章于 2026-06-16 14:39:04 发布 · 758 阅读

2 ·

本内容遵循CC 4.0 BY-SA版权协议

标签

#深度学习 #神经网络

每日一网专栏收录该内容

30 篇文章

订阅专栏

本文介绍了MR - CNN算法，该算法在目标检测中，对输入网络前的region进行变换以提升分类和回归效果。其主要贡献包括提供丰富对象表示、用弱监督语义分割感知对象、提高目标定位能力。MR - CNN分为Activation maps和Region adaptation模块，还介绍了Region变换和弱监督语义分割方法。

MR-CNN

算法背景

以往的目标检测模型在提取完 region proposals 后，直接将生成的 region 输入网络。那么实际上，在输入网络之前，我们也可以对 region 再进行变换。本篇论文就是这种思想。如果在 region 输入网络之前，对 region 进行变换。例如，我们只看一部分 region，或者我们将 bounding box 放大，关注其上下文环境。对于最终的分类和 bounding box 的回归应该是都会有所提高的。
本篇论文的主要贡献：（1）提供了一些丰富的对象表示，能够捕获各种不同的判别外观的因素。（2）使用语义分割的弱监督方式来感知目标检测中的对象。（3）使用 Iterative Localization 和 Bounding box voting 提高了目标定位的能力。
在这里插入图片描述
对于第一张图，由于目标羊太小，所以如果不结合上下文信息，比如草原的话，我们很难分别目标种类，第二张图是在城镇里有一条船，如果我们结合上下文信息的话，反而会对分类有影响，第三张图的汽车被遮挡了一半，如果我们对目标框直接进行分类的话，可能会被分类成栅栏，所以最好进行截取再分类。

Multi-Region CNN

MR-CNN可以分为两个模块，分别为
（1）Activation maps 模块
（2）Region adaptation 模块
这是网络结构，最后通过svm进行分类
在这里插入图片描述

Activation Maps Module

此模块为整个网络的backbone，通过一系列卷积操作输出feature map，这部分网络可以使用各种经典的网络结构，比如alexnet和VGG16等等，通过Activation Maps 模块，我们只是提取原始图像中的特征信息。

Region Adaptation Module

此模块负责给定一个Region R和网络输出的feature map，此模块将R映射到feature map，进行裁剪后，连接到自适应最大池化（Adaptive Max-Pooling），并传到多个多层网络中。
注意：1、每一种变化后的region都送到与其变换对应的网络进行学习，
2、通过多个模型学习后需要将结果进行拼接，得到最后的结果

Region变换

在这里插入图片描述
图为各种Region变换
a、：完整bbox
b、c、d、e、：裁剪一半后的bbox
f：候选框缩放0.5倍
g：内部候选框缩小到0.3倍，外部缩小到0.8倍
h：内部候选框放大到0.5倍，外部与候选框相同
i：内部锁防盗0.8倍，外部缩放1.5倍
j：内部与候选框相同，外部缩放到1.8倍
注意：对于Region的形状有两种，一种是矩形，一种是环状矩形，环状矩形内部用0填充。