从最简单的角度考虑,凸函数容易优化啊,不存在鞍点或者局部最优解这种问题,事实上在训练复杂模型的时候很容易跑到局部最优解,你考虑一个小坑挨着一个大坑,大坑的最低点是你想要的最优解,结果你一不小心掉到了小坑里,学习率和扰动不足以使你跳出小坑,那就很坑爹了😂激活函数的目的无非就是信息压缩和到概率空间的映射;单调性这块,我觉得应该就是出于凸优化的这个考虑,不在最简单的地方摔跟头