按说损失函数的二阶导确实比一阶导收敛更快,就像是牛顿迭代法中用海塞矩阵比SGD好一样