交叉熵实际上是对输入数据的概率按照 p_i ^ y_i 的形式做了一个极大似然估计,取个log就是交叉熵的形式了。 而 mse 是假定误差服从高斯分布,简单来说是对 exp(|y - y'|**2) 进行极大似然估计,取个log得到平方损失的形式。