为什么BERT中输入数据的[mask]标记为什么不能直接留空或者直接输入原始数据,在self-attention的Q K V计算中,不与待预测的单词做Q K V交互计算? 这个说法和相应的解释并没有看懂啊,能多讲讲吗?感谢楼主。