（二）改善深层神经网络：超参数调试、正则化以及优化2_优化算法优化神经网络超参数显存爆满-CSDN博客

本文详细介绍了优化算法在深度学习中的应用，包括Mini-batch梯度下降法、指数加权平均数（如动量梯度下降法、RMSprop和Adam算法）以及学习率衰减。强调了指数加权平均数在计算历史平均值中的作用，以及动量梯度下降如何加速收敛。此外，还讨论了超参数调试策略和Batch归一化的原理与实践，以及Softmax回归在多分类问题中的应用。最后，提到了在测试时处理Batch归一化的方法和局部最优问题。

二、优化算法

2.1 Mini-batch 梯度下降（Mini-batch gradient descent）

将总样本分为m组，为X^{1}、X^{2}、…、X^{t}、…、X^{m}；
Y^{1}、Y^{2}、…、Y^{t}、…、Y^{m}。
每次迭代处理单个的mini-batch X^{t}和Y^{t}，而不是同时处理全部的X和Y训练集。
在这里插入图片描述
总结用法：

2.2 理解mini-batch梯度下降法（Understanding mini-batch gradient descent）

使用batch梯度下降法的代价函数的值随着迭代次数增多而下降，mini-batch梯度下降法的代价函数值则为波动下降（因为每次迭代下你都在训练不同的样本集或者说训练不同的mini-batch）。
在这里插入图片描述
两种极端情况：

size=m：batch梯度下降法
size=1：随机梯度下降法

三种方法的结果：

batch梯度下降法：适用于样本数小于2000个的数据集。
mini-batch梯度下降法：适用于样本数目较大的情况。mini-batch大小一般为64到512。考虑到电脑内存设置和使用的方式，将mini-batch大小设置为是2的次方，代码会运行地快一些。处理的mini-batch一定要和CPU/GPU内存相符。

2.3 指数加权平均数（Exponentially weighted averages）

案例：已知每日气温，计算天气趋势（温度的局部平均值，或者说移动平均值）。
在这里插入图片描述

黄线为β=0.5，得到曲线为2天的平均值。
红线为β=0.9，得到曲线为10天的平均值。
绿线为β=0.98，得到曲线为50天的平均值。

β值较大，曲线较为平缓，曲线进一步右移，因为现在平均的温度值更多，要平均更多的值，指数加权平均公式在温度变化时，适应地更缓慢一些，所以会出现一定延迟。
β