Adam优化算法原理详解（吴恩达深度学习笔记）

摘要：在介绍Adam之前首先介绍一下momentum和RMSprop优化算法。1、指数加权平均数指数加权平均数不仅考虑了当前数值也涵盖了以前的数据对现在的影响。解释指数加权平均值名称的由来：指数加权平均值的应用：使用这种方法进行数据的

在介绍Adam之前首先介绍一下momentum和RMSprop优化算法。

1、指数加权平均数
指数加权平均数不仅考虑了当前数值也涵盖了以前的数据对现在的影响。
图片中v的表达式就是指数加权平均数的表达式，通过此表达式就可以将以前数据的平均值和当日数据进行结合得到数据的估计，在统计学上可以使数据的拟合曲线光滑。
解释指数加权平均值名称的由来：
用迭代的方式将v100的值用v99，v98，v97......v1进行代替在这里插入图片描述指数加权平均值的应用：
使用这种方法进行数据的估计可能不是最精确的，但是这种方法计算简单，节省内存。
指数加权平均数因为设置的第0个值为0，所以对于前几个数都会出现严重的偏差，所以引入了偏差修正。
2.指数加权平均数的偏差修正
没有经过偏差修正的拟合曲线的起点会比真实曲线低很多 3.momentum算法
此算法是梯度下降算法的一种改进，在神经网络的反向传播过程中，不再只依赖当前参数的下降梯度进行参数的更新，也依赖以前几轮的参数和参数的下降梯度进行当前参数的更新，可以看吴恩达视频中的ppt。这种梯度下降算法的好处是由于参考了以前的参数，可以在达到目标函数的时候将下降速度变慢，更加容易找到最优值。具体实现过程见下图：
在这里插入图片描述