分类问题用交叉熵可以是损失函数为凸函数,如果用最小二乘会导致损失函数为非凸函数,会陷入局部最小的情况,