评论详情-牛客网

按说损失函数的二阶导确实比一阶导收敛更快，就像是牛顿迭代法中用海塞矩阵比SGD好一样