resnet好在容易优化吧,fx -x 比 fx 好优化。其实很深的网络只要初始化得好,也是可以训练的,https://arxiv.org/pdf/1706.00388