1.mask过程种替换unk和unknown词进行训练,预测时以unk和unknown词替代未登录词 2.在Attention后对output_layer进行了dense+dropout后再合并input_layer后执行layer_norm完成残差传递,为了避免网络退化;同时防止梯度消失,使得输出的变化更敏感