评论详情-牛客网

Adam结合了动量和RMSProp，可以对参数进行自适应的学习率调整，训练初期收敛更快。SGD需要手动调整学习率，在最小值平坦区域收敛变慢（摘抄自CSDN）