带有动量的梯度下降的优势

最新推荐文章于 2026-05-09 07:00:00 发布

原创最新推荐文章于 2026-05-09 07:00:00 发布 · 2.9k 阅读

2 ·

本内容遵循CC 4.0 BY-SA版权协议

标签

#优化 #梯度下降

收录于

深度学习专栏收录该内容

14 篇文章

订阅专栏

在机器学习中，普通的梯度下降算法可能会出现上下摆动的情况，导致收敛速度较慢。通过引入动量机制，利用指数加权平均来平滑梯度变化，可以有效减少这种摆动并加速优化过程。

普通的梯度下降算法在寻找最优解的过程中会酱紫：

可以看到是存在不断抖动的

使用了带动量的梯度下降，由于梯度的计算使用了指数加权平均方法，使得本次梯度的计算和之前是有关联的，这样就能抵消比如梯度在上下摆动的这种状况，而真正的下降方向（朝右边走）却能很好保持，这样使得收敛优化变得更快

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Saber-alter

关注关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

动量梯度下降（Gradient descent with momentum)详解

weixin_60737527的博客

04-12

7777

动量梯度下降（Gradient descent with momentum)详解关于动量梯度下降，其作用普通的梯度下降是差不多的。但是在普通的梯度下降中，如果遇到了比较复杂的情况，就会出现：如果学习率过大，摆动过大，误差较大；如果学习率过小，又会使得迭代次数增加，学习时间会很长。在神经网络模型中就常常会遇到上面这些情况的，总是会出现解一种在小范围震荡而很难达到最优解的情况。而动量梯度则可以比较好的避免上述问题。它的过程类似于一个有质量的小球在函数曲线上向下滚落。当球滚到最低点后，由于具有惯性还会继续上升

参与评论您还未登录，请先登录后发表或查看评论

理解梯度下降算法中的动量

Cai Yichao的博客

09-03

1646

理解梯度下降算法中的动量在深度学习优化算法中，常用的梯度下降算法中一般会有一个参数 —— 动量（momentum）。此文章记录动量算法的原理，以及使用它的目的。 N.B. 此处的梯度下降算法是广义的，包括一般我们使用的是mini-batch SGD。 梯度下降：GD, SGD, mini-batch SGD 在理解动量之前，我们有必要先了解梯度下降算法随机梯度下降算法。我们先假设，优化的目标函数为: f(x⃗):ℜd→ℜwhere,x⃗=[x1,x2,...,xd]T \begin{matrix} f

AI 术语通俗词典：梯度下降

最新发布

qq_41176800的博客

05-09

467

对初学者而言，可以把它理解为：模型站在损失函数这座山上，每次看一眼哪里最陡，然后朝下坡方向走一小步，逐渐接近更低的位置。回答的是“模型现在错得有多明显”，梯度回答的是“参数变化会让损失往哪个方向变大或变小”，那么梯度下降回答的就是“怎样根据这个方向一步一步降低损失”。从通俗角度看，梯度下降可以理解为：模型不是一次就知道正确答案，而是在一次次犯错和修正中，逐渐找到更合适的参数。如果损失较大，就说明当前参数还不够好。从通俗角度看，梯度下降就是：先试一组参数，看错多少，再根据错误方向修正一点，然后继续试。

【深度学习】03-神经网络 3-3 梯度下降的优化方法-动量算法Momentum

weixin_41645791的博客

09-24

3871

动量算法是一种改进的梯度下降方法，通过引入“动量”来减少震荡、加速收敛，并避免陷入局部最优解。通过结合当前和过去的梯度更新，动量算法能够有效改善传统梯度下降的缺陷，尤其在神经网络训练中表现优异。Nesterov 动量是动量算法的一种改进变种，能够进一步加速收敛，尤其在较为复杂的损失函数表面。%5Ctheta。

深度学习-带动量的随机梯度下降算法

qq_32810257的博客

09-26

4177

1.指数加权平均类比n个数求平均：如果表示前个数的平均，表示第个数，那么个数的指数加权平均定义为：其展开为： .... ...

动量梯度下降法Momentum

u012526436的博客

03-01

6929

转载请注明出处，原文地址前言动量梯度下降法是对梯度下降法的一种优化算法，该方法学习率可以选择更大的值，函数的收敛速度也更快。梯度下降法就像下面这张图，通过不断的跟新w与b，从而让函数移动到红点，但是要到达最优解，需要我们不断的迭代或者调整学习率来达到最后到达最优解的目的。但是调大学习率会导致每一次迭代的步长过大，也就是摆动过大，误差较大。调小学利率会让迭代次数增加。而增加迭代次数则明显的增加了...

MATLAB中实现带有动量项的BP神经网络梯度下降算法

weixin_29781865的博客

08-16

914

神经网络，尤其是BP（Backpropagation）神经网络，在人工智能和机器学习领域扮演着重要的角色。BP神经网络是一种多层前馈神经网络，通过反向传播算法进行训练。它由输入层、一个或多个隐藏层以及输出层构成，广泛应用于函数逼近、分类、数据挖掘和模式识别等领域。MATLAB（Matrix Laboratory）是一个高级数学计算软件，广泛应用于工程计算、数据分析、算法开发等领域。

常见梯度下降法变式总结（SGD, Momrntum，Adagrad等）

垃圾就应该待在垃圾桶里的博客

09-14

1538

常见的梯度下降法的变式 1 SGD 随机梯度下降 随机梯度下降法是梯度下降法的一个小变形，就是每次使用一批（batch）数据进行梯度的计算，而不是计算全部数据的梯度，因为现在深度学习的数据量都特别大，所以每次都计算所有数据的梯度是不现实的，这样会导致运算时间特别长，同时每次都计算全部的梯度还失去了一些随机性，容易陷入局部误差，所以使用随机梯度下降法可能每次都不是朝着真正最小的方向，但是这样反而容易...

An overview of gradient descent optimization algorithms

liuheng0111的博客

10-28

541

前言这里讨论的优化问题指的是，给定目标函数f(x)，我们需要找到一组参数x，使得f(x)的值最小。本文以下内容假设读者已经了解机器学习基本知识，和梯度下降的原理。 SGD SGD指stochastic gradient descent，即随机梯度下降。是梯度下降的batch版本。对于训练数据集，我们首先将其分成n个batch，每个batch包含m个样本。我们每次

【吴恩达深度学习编程作业】2.2改善深层神经网络——优化算法实战

打瞌睡_的博客

10-27

502

参考文档：优化算法实战代码实现：分割数据集优化梯度下降算法： 2.1不使用任何优化算法 2.2 mini-batch梯度下降法 2.3 使用具有动量的梯度下降算法 2.4 使用Adam算法 main.py """ 代码实现： 1. 分割数据集 2. 优化梯度下降算法： 2.1 不使用任何优化算法 2.2 mini-batch梯度下降法 2.3 使用具有动量的梯度下降算法

从SGD到Adam学习优化算法

weixin_43872912的博客

06-21

310

SGD算法随机梯度下降算法优化算法的根本在于 w +=△w，每一种优化算法的区别在于△w的计算。 SGD算法的公式为：其中η为学习率，J’（w）是损失关于参数的梯度. momentum算法（动量）该算法的迭代方法：△xt= -ηgt + ρ△xt-1 相对于原来的SGD，该算法加入了动量这个因素。 AdaGrad算法 RMSProp算法更新公式： gt是梯度β2是衰减参数 RMSProp学习优化算法和AdaGrad算法的区别在于衰减参数 Adam学习优化算法是将RMSProp算法和mo

SGD，Momentum，AdaGrad，RMSProp，Adam等优化算法发展历程

u012033832的博客

03-06

1129

各种优化算法层出不穷，看的眼花缭乱，如果不能理清楚其中他们的关系及发展历程，必然是不能完全搞懂这些算法之间的异同

【学习笔记-李宏毅】New Optimization

iioSnail的博客

03-20

2515

视频链接视频：https://www.youtube.com/watch?v=4pUmZ8hXlHM PPT：http://speech.ee.ntu.edu.tw/~tlkagk/courses/ML2020/Optimization.pdf 本次课程会用到的符号（Notation） θt\theta_tθt：第 ttt 步时，模型的参数 ΔL(θt)\Delta L(\theta_t)ΔL(θt) 或 gtg_tgt ：模型参数为 θt\theta_tθt 时，对应的梯度，用于计算 θt+1

梯度下降优化算法总结

热门推荐

shuzfan的专栏

07-21

1万+

本次介绍梯度下降优化算法。主要参考资料为一篇综述《An overview of gradient descent optimization algorithms》

我室友打了两把csgo就搞懂了梯度，梯度下降，随机梯度下降(SGD)，动量法，ADAM

qq_48385934的博客

01-05

2885

文章目录梯度梯度下降随机梯度下降随机梯度法缺点动量法ADAMADAM优点总结梯度一个多元函数的梯度方向是该函数值增大最陡的方向。具体化到1元函数中时，梯度方向首先是沿着曲线的切线的，然后取切线向上增长的方向为梯度方向，2元或者多元函数中，梯度向量为函数值f对每个变量的导数，该向量的方向就是梯度的方向，当然向量的大小也就是梯度的大小。比如说如果损失函数是一个二次函数那么最低点就是箭头指向部分也就是f’(x)=0的地方，无论从哪开始都能找到函数最低点。而真实的损失函数更像一个崎岖的山坡以下图片来源

动量Momentum梯度下降

u013862444的博客

08-09

559

梯度下降是机器学习中用来使模型逼近真实分布的最小偏差的优化方法。在普通的随机梯度下降和批梯度下降当中，参数的更新是按照如下公式进行的： W = W - αdW b = b - αdb 其中α是学习率，dW、db是cost function对w和b的偏导数。随机梯度下降和批梯度下降的区别只是输入的数据分别是mini-batch和all。然而，在曾经我发表的博客中提到了下图的问题。...

线性代数|机器学习-P24加速梯度下降(动量法)

scar2016的博客

07-13

1273

用梯度下降法求解目标函数f ( x ) f(x)f(x)最小值的迭代过程。

AI学习指南数学工具篇-梯度下降的变种之动量梯度下降

俞兆鹏的博客

05-19

681

通过本篇博客的学习，我们深入探讨了动量梯度下降的原理和优势，并通过具体的示例来解释了动量梯度下降算法的应用。动量梯度下降作为梯度下降的一个重要变种，在优化算法中发挥着重要的作用，尤其是在训练深度神经网络等复杂模型时，动量梯度下降往往能够更快地收敛并得到更好的结果。因此，了解动量梯度下降的原理和优势对于深入理解优化算法和提升模型训练效果具有重要意义。希望本篇博客对大家有所帮助，也欢迎大家多多交流，共同进步！

随机梯度下降与动量详解

木盏

05-23

1万+

1. SGD公式理解注：这一部分引用自知乎用户Qi Qi，原回答链接随机梯度下降主要用来求解类似于如下求和形式的优化问题： f(x)=∑i=1nfi(w,xi,yi)f(x)=∑i=1nfi(w,xi,yi) f(x) = \sum_{i=1}^nf_i(w,x_i,y_i) 普通梯度下降算法： wt+1=wt−ηt+1∇f(wt)=wt−ηt+1∑i=1n∇fi(wt,xi...

SGD（随机梯度下降）和Adam；动量梯度下降

ZhangJiqun&191cm&85kg

11-29

367

SGD（随机梯度下降）和Adam SGD（随机梯度下降） Adam（自适应矩估计）其他优化算法优化算法的选择动量梯度下降 动量的概念动量简单举例