Adam优化器坑了你的模型？5分钟搞懂自适应学习率与L2正则化的相爱相杀

最新推荐文章于 2026-07-01 14:58:55 发布

原创

最新推荐文章于 2026-07-01 14:58:55 发布 · 836 阅读

Adam优化器坑了你的模型？5分钟搞懂自适应学习率与L2正则化的相爱相杀

刚接触深度学习那会儿，我总觉得模型训练就像开盲盒，参数调好了是运气，调不好是常态。尤其是用上Adam优化器后，明明在训练集上表现神勇，一到验证集就原形毕露，过拟合得厉害。当时百思不得其解，直到后来在复现一个经典图像分类实验时，把Adam换成了AdamW，验证集准确率竟然稳定提升了近3个百分点。这个看似微小的改动背后，其实隐藏着自适应学习率与L2正则化之间一场深刻的“内斗”。今天，我们就来彻底拆解这场“相爱相杀”，看看Adam是如何在无意中“扭曲”了你的正则化意图，而AdamW又是如何拨乱反正的。

1. 从“万金油”到“过拟合推手”：重新认识Adam优化器

Adam优化器自2014年提出以来，几乎成了深度学习领域的默认选择。它结合了动量（Momentum）和RMSProp的思想，为每个参数计算自适应学习率，在训练初期能快速收敛，对超参数（特别是学习率）还相对不敏感。这种“开箱即用”的友好特性，让它赢得了“万金油”的称号。

然而，正是这种自适应机制，在引入权重衰减（Weight Decay）——即我们常说的L2正则化——时，埋下了隐患。在传统的随机梯度下降（SGD）中，L2正则化是清晰而直接的：在每次参数更新时，除了沿着负梯度方向走一步，还会额外将参数值向零收缩一个固定的比例。这个比例由权重衰减系数λ控制，目的是惩罚过大的权重，提升模型泛化能力。

但到了Adam这里，事情变得复杂了。Adam实现L2正则化的典型方式，是在计算梯度时，直接在损失函数梯度上加上λθ（θ是参数值）。这个被“污染”后的梯度，随后会进入Adam的核心流程：先被计算一阶矩估计（动量）和二阶矩估计（自适应学习率分母），最后用经过缩放的自适应学习率来更新参数。

问题就出在这个“缩放”环节。Adam的自适应学习率本质上是根据历史梯度平方的指数移动平均值来调整每个参数的更新步长。对于梯度较大的参数，其更新步长会被调小；对于梯度较小的参数，步长则相对调大。这原本是为了解决稀疏梯度或不同参数尺度差异大的问题，是个好设计。可当L2正则化项（λθ）被混入梯度后，它也会一同被这个自适应机制缩放。

这就导致了一个严重的后果：L2正则化对每个参数的实际衰减力度，不再仅仅由λ决定，而是与该参数自身的梯度历史强相关。一个梯度震荡剧烈的参数，其正则化效果可能被严重削弱；而一个梯度平缓的参数，则可能承受了过强的衰减。这种“看人下菜碟”式的正则化，完全违背了我们引入权重衰减来稳定模型、防止过拟合的初衷。