普通的梯度下降算法在寻找最优解的过程中会酱紫:

可以看到是存在不断抖动的
使用了带动量的梯度下降,由于梯度的计算使用了指数加权平均方法,使得本次梯度的计算和之前是有关联的,这样就能抵消比如梯度在上下摆动的这种状况,而真正的下降方向(朝右边走)却能很好保持,这样使得收敛优化变得更快
在机器学习中,普通的梯度下降算法可能会出现上下摆动的情况,导致收敛速度较慢。通过引入动量机制,利用指数加权平均来平滑梯度变化,可以有效减少这种摆动并加速优化过程。
普通的梯度下降算法在寻找最优解的过程中会酱紫:

可以看到是存在不断抖动的
使用了带动量的梯度下降,由于梯度的计算使用了指数加权平均方法,使得本次梯度的计算和之前是有关联的,这样就能抵消比如梯度在上下摆动的这种状况,而真正的下降方向(朝右边走)却能很好保持,这样使得收敛优化变得更快
2515

被折叠的 条评论
为什么被折叠?
