不用激活函数的话不管叠多少层都是线性的模型。sigmod的话经过多层链式求导容易出现梯度消失 训练效果不好。relu没这个问题而且训练更快