从ResNet34到ResNet152：图解Bottleneck如何让网络深度突破100层

最新推荐文章于 2026-06-30 23:32:08 发布

原创

最新推荐文章于 2026-06-30 23:32:08 发布 · 676 阅读

从ResNet34到ResNet152：图解Bottleneck如何让网络深度突破100层

如果你在2015年之前尝试训练一个超过20层的卷积神经网络，大概率会遭遇一个令人沮丧的现象：随着网络层数的增加，模型的性能不仅没有提升，反而开始下降。这不是过拟合，而是网络本身“退化”了。更深层的网络在训练集上的表现竟然比浅层网络更差，这直接挑战了“网络越深，能力越强”的直觉。何恺明团队在2015年发表的ResNet论文，正是为了解决这个核心矛盾。他们提出的残差学习框架，不仅让网络深度轻松突破100层，更催生了后续一系列基于残差思想的架构革新。而其中，Bottleneck设计正是支撑ResNet50、101、152等超深层网络稳定训练的关键工程智慧。今天，我们就来深入拆解这个看似简单的“沙漏”结构，看看它是如何用精巧的维度变换，化解了深层网络的参数爆炸与梯度难题。

1. 退化问题与残差学习的本质：为什么简单的堆叠会失效？

在ResNet出现之前，VGGNet等架构已经证明，通过堆叠更多的卷积层，模型能够学习到更复杂、更抽象的特征。理论上，一个更深的网络至少应该具备与较浅网络相同的表达能力——只需让新增的层学习恒等映射即可。但实践却给出了相反的答案。这种性能饱和甚至下降的现象，被ResNet论文称为“退化问题”。

退化问题的根源并非过拟合。过拟合表现为训练误差低而测试误差高，但退化问题中，训练误差本身就会随着深度增加而升高。这表明，深层网络在优化上遇到了根本性障碍。一个主流观点是，随着网络加深，反向传播的梯度信号在穿过众多层时，会因连续乘法而变得极其微弱（梯度消失）或异常巨大（梯度爆炸），导致底层参数无法得到有效更新。

ResNet的解决方案既巧妙又直观：它不再让每一层直接去拟合一个期望的输出映射 H(x)，而是去拟合残差 F(x) = H(x) - x。这样，原始映射就变成了 H(x) = F(x) + x。这里的“+ x”操作，就是捷径连接。这个设计的精妙之处在于：

学习目标简化：当最优映射接近恒等映射时（即H(x) ≈ x），让网络去学习残差F(x) ≈ 0，比直接学习恒等映射H(x) = x要容易得多。在极端情况下，如果残差为0，该模块就退化为一个恒等映射，至少保证了性能不会变差。
梯度高速公路：捷径连接为梯度反向传播提供了一条“直通车”。梯度可以通过这条路径几乎无损地传回更早的层，极大地缓解了梯度消失问题，使得超深网络的训练成为可能。

最初的ResNet34及更浅的网络，使用了BasicBlock作为基础构建块。它由两个3x3卷积层堆叠而成，结构对称且直观。

# PyTorch 风格的 BasicBlock 简化示意
class BasicBlock(nn.Module):
    expansion = 1  # 输出通道扩张倍数

    def __init__(self, in_channels, out_channels, stride=1):
        super().__init__()
        self.conv1 = nn.Conv2d(in_channels, out_channels, kernel_size=3, stride=stride, padding=1)
        self.bn1 = nn.BatchNorm2d(out_channels)
        self.relu = nn.ReLU(inplace=True)
        self.conv2 = nn.Conv2d(out_channels, out_channels, kernel_size=3, stride=1, padding=1)
        self.bn2 = nn.BatchNorm2d(out_channels)

        # 如果输入输出维度（通道数或空间尺寸）不匹配，则需要下采样投影
        self.downsample = None
        if stride != 1 or in_channels != out_channels * self.expansion:
            self.downsample = nn.Sequential(
                nn.Conv2d(in_channels, out_channels * self.expansion, kernel_size=1, stride=stride),
                nn.BatchNorm2d(out_channels * self.expansion)
            )

    def forward(self, x):
        identity = x
        out = self.relu(self.bn1(self.conv1(x)))
        out = self.bn2(self.conv2(out))
        if self.downsample is not None:
            identity = self.downsample(x)
        out += identity
        out = self.relu(out)
        return out

注意：在BasicBlock中，downsample仅在需要调整identity路径的维度以匹配残差路径时才会被启用。这是实现有效相加操作的前提。

BasicBlock对于34层左右的网络工作良好，但当我们将目光投向50层、100层甚至更深的网络时，单纯堆叠BasicBlock会带来一个无法忽视的工程挑战：参数量和计算量的急剧膨胀。每一个3x3卷积层的参数量都与输入输出通道数的乘积成正比。当网络深度和宽度同时增加时，模型的体积和计算开销将变得难以承受。这正是Bottleneck设计要解决的核心问题之一。