编码器用gru,你的误差没办法传播到编码层的多头注意力层里,要不然就是你的嵌入层有问题