评论详情-牛客网

优化器：SGD，Adam，Rmsprop。Adam叫做动量法或者冲量法，提出的原因是：有时候学习率太大一步会走错很多，所以Adam舍弃了线性函数而采用多项式（该点的泰勒展开式）来更贴近目标。不仅如此，他还考虑了在正确的方向上尽可能地加速，在错误的方向上尽可能地减速：将某个梯度方向上的历史数据大小加权求和，如果很长一段时间梯度大小都大于0，那这个方向说明没有问题需要加速，而如果经常正负交替这说明可能方向错误，则需要放缓抖动。