评论详情-牛客网

一般是卷积-BN-Relu.
Sigmoid：如果先BN再Sigmoid，由于BN后方差接近于1，均值接近于0，使得BN后的数据接近于Sigmoid的线性区域，降低了激活函数的非线性能力，这种情况下建议Sigmoid+BN。

Relu：如果先Relu再BN，Relu后部分神经元已经失活，失活的神经元将对BN的归一化产生影响，这种情况下建议BN+Relu。

来自知乎，遇到问题上网先搜。