评论详情-牛客网

第6点就写错了，transformer 训练的时候 decoder端也是并行的，采用teacher forcing的方式，然后有个 shift label，每次只预测当前位置的下个位置，通过mask的方式进行了并行。inference的时候才是跟传统的seq2seq一样，一个接一个的解码。