bn不就是放在激活函数之后的吗,把逐渐向激活函数区间上下界的输出值强行拉回到非饱和区域,从而防止梯度消失和爆炸,同样也加速了收敛