至于bn,是为了解决层之间输入数据分布偏移,以及样本间差异导致训练速度慢。归一化也是一样的。