评论详情-牛客网

为什么BERT中输入数据的[mask]标记为什么不能直接留空或者直接输入原始数据，在self-attention的Q K V计算中，不与待预测的单词做Q K V交互计算？这个说法和相应的解释并没有看懂啊，能多讲讲吗？感谢楼主。